By Maria Belen Guaranda, January 23, 2020
Bài được đưa lên Internet ngày: 23/01/2020
Xem thêm: Giáo dục Mở và Tài nguyên Giáo dục Mở
Đây là phần của loạt bài đăng giới thiệu các dự án được những người đóng góp nguồn mở xây dựng và được Creative Commons hướng dẫn trong quá trình cuộc thi Lập trình Mùa hè của Google năm 2019 - Google Summer of Code (GSoC) 2019. Maria Belen Guaranda là một trong những người đóng góp và chúng tôi biết ơn vì công việc của cô trong dự án này.
“Bằng việc trực quan hóa thông tin, chúng tôi biến nó thành một bức tranh để bạn có thể khai thác bằng đôi mắt của bạn”. David McCandless
Bức tranh nội dung được cấp phép mở là rộng lớn và đa dạng. Hàng triệu trang web đặt chỗ và chia sẻ các tác phẩm được cấp phép CC - trên thực tế, chúng tôi ước tính có hơn 1,6 tỷ khắp trên web! Với sự tăng trưởng này các tác phẩm được cấp phép CC, Creative Commons (CC) đang ngày càng được quan tâm trong việc học cách để đặt chỗ và những người sử dụng các tư liệu được cấp phép CC được kết nối, cũng như các dạng nội dung được xuất bản theo một giấy phép CC và cách thức nội dung này được chia sẻ. Mỗi tháng, CC sử dụng dữ liệu Common Crawl để tìm kiếm tất cả các miền có chứa nội dung được cấp phép CC. Tập hợp dữ liệu này gồm thông tin về địa chỉ web URL của các website và các giấy phép được sử dụng.
Để đưa ra các kết luận và sự thấu hiểu từ tập hợp dữ liệu này, chúng tôi đã tạo ra Cái chung được Liên kết (Linked Commons): sự trực quan hóa chỉ ra cách Cái chung được Liên kết dạng số như thế nào.
Trong Linked Commons, các nút (các đơn vị trong một cấu trúc dữ liệu) đại diện cho các website của một tổ chức, con người, cơ sở hàn lâm, .v.v. Đường liên kết giữa các nút tồn tại nếu một website đặt chỗ nội dung được cấp phép CC thuộc về hoặc được đặt chỗ bởi một website khác (như được một đường liên kết URL chỉ ra). Cộng đồng đại diện cho nhóm các website có liên quan chặt chẽ với nhau vì họ sản xuất và/hoặc chia sẻ nội dung giữa họ với nhau.
Lượng dữ liệu khổng lồ làm cho bất kỳ trình duyệt web nào trả về các yếu tố thành phần chậm và có thể thậm chí treo. Vì 100 ngàn nút bao gồm trong Linked Commons, sự trực quan đó ban đầu mất nhiều thời gian để trả về và đã có xuất hiện bị phân mảnh - điều này từng là mối lo ngại chính.
Điều đó giải thích vì sao chúng tôi đã quyết định sử dụng dữ liệu từ chỉ một tháng duy nhất và chọn 500 website hàng đầu có chứa các đường liên kết tới tư liệu được cấp phép CC, cũng như tất cả các miễn khác mà 500 nút đó được kết nối tới. Bổ sung thêm vào việc làm giảm thời gian tải, chúng tôi thấy điều này cũng là thân thiện với người sử dụng vì việc điều hướng đồ họa của toàn bộ tập hợp dữ liệu có thể là chóng mặt. Thậm chí với tập hợp dữ liệu nhỏ hơn này, chúng tôi đã có khả năng thu thập những thấu hiểu đáng giá từ hình đồ họa đó, bao gồm việc phát hiện các cộng đồng con các máy chủ và những người sử dụng giấy phép CC. Một cộng đồng con như vậy được chỉ ra trong hình bên dưới.
Cộng đồng con ở trên là một cộng đồng “giáo dục”; được hình thành từ các thư viện, các trường đại học, và các trường phổ thông.
Các trực quan hóa như vậy là đáng giá cho CC vì chúng có thể giúp hướng dẫn các nỗ lực vươn ra ngoài của chúng tôi và cho các truyền thông có nhắm đích. Đội Tìm kiếm CC (CC Search) cũng có thể sử dụng dữ liệu này để chọn các lĩnh vực nào ưu tiên đánh chỉ mục trong Catalog của CC.
Trực quan hóa là có tính tương tác; những người sử dụng có thể xoay, phóng to và thu nhỏ, hơ chuột qua nút để thấy các láng giềng của nó, và nhấn vào nút để hiển thị đồ thị dạng bánh, giống như ảnh bên dưới. Chúng tôi khuyến khích những người sử dụng kiểm thử Linked Commons và xem những thấu hiểu nào họ có thể thu thập được từ thông tin này!
Tiếp theo là gì?
Chúng tôi có kế hoạch tiếp tục làm việc về Linked Commons. Đây là vài tính năng chúng tôi hy vọng bổ sung thêm:
- Cập nhật sống động - Đồ họa đó hiện là tĩnh vì nó sử dụng tệp dữ liệu của chỉ một tháng duy nhất đã được xử lý. Chúng tôi muốn cập nhật tự động đồ họa đó ngay khi dữ liệu mới được xử lý.
- Lọc các miền theo quốc gia - Vài miền có các hậu tố đại diện cho các quốc gia, như domain.au tương ứng với miền từ nước Úc. Chúng tôi có kế hoạch sử dụng các hậu tố đó để lọc các nút trong sự trực quan hóa theo quốc gia.
- Lọc các miền theo tên - Người sử dụng có thể muốn kiểm tra liệu miền nhất định nào đó có nội dung được cấp phép CC và nội dung đó được sử dụng như thế nào. Chúng tôi có kế hoạch bổ sung thêm thanh tìm kiếm và cung cấp cho người sử dụng khả năng tìm kiếm nút nhất định nào đó nếu biết tên miền và/hoặc URL.
Hãy cho chúng tôi phản hồi của bạn!
Linked Commons là dự án nguồn mở. Mã nguồn của dự án là sẵn sàng trong kho Github. Những đóng góp được chào đón! Các chi tiết kỹ thuật về dự án này đã được phát triển như thế nào, vui lòng đọc loạt bài đăng này trên blog CC Open Source.