Why Digital Public Goods, including AI, Should Depend on Open Data
by Cable Green, Creative Commons
Posted 27 January 2025
Bài được đưa lên Internet ngày: 27/01/2025
Thừa nhận rằng một số dữ liệu không nên được chia sẻ (vì lý do luân lý, đạo đức và/hoặc quyền riêng tư) và một số không thể được chia sẻ (vì lý do pháp lý hoặc lý do khác), Creative Commons (CC) cho rằng có giá trị trong việc khuyến khích việc tạo lập, chia sẻ và sử dụng dữ liệu mở để thúc đẩy sản xuất kiến thức. Khi các cộng đồng mở tiếp tục tưởng tượng, thiết kế và xây dựng các hàng hóa công cộng kỹ thuật số và dịch vụ cơ sở hạ tầng công cộng cho giáo dục, khoa học và văn hóa, các hàng hóa và dịch vụ này - bất cứ khi nào có thể và phù hợp - nên sản xuất, chia sẻ và/hoặc xây dựng dựa trên dữ liệu mở.
Dữ liệu Mở và Hàng hóa Công cộng Kỹ thuật số - DPG (Digital Public Goods)
CC là thành viên của Liên minh Hàng hóa Công cộng Kỹ thuật số - DPGA (Digital Public Goods Alliance) và các công cụ pháp lý của CC đã được công nhận là hàng hóa công cộng kỹ thuật số (DPG). CÁc DPG là “phần mềm nguồn mở, các tiêu chuẩn mở, dữ liệu mở, các hệ thống AI mở, và các bộ sưu tập nội dung mở mà gắn với quyền riêng tư và các thông lệ tốt nhất áp dụng được khác, không gây hại, và có liên quan cao độ cho việc đạt được các Mục tiêu Phát triển Bền vững (SDGs) 2030 của Liên hiệp quốc”. Nếu chúng ta muốn giải quyết các thách thức lớn nhất toàn cầu, các chính phủ và các nhà cấp vốn khác sẽ cần phải đầu tư, phát triển, cấp phép mở, chia sẻ, và sử dụng các DPG.
Dữ liệu mở rất quan trọng đối với DPG vì dữ liệu là động lực chính thúc đẩy sức sống kinh tế với tiềm năng đã được chứng minh là phục vụ lợi ích công cộng. Trong khu vực công, dữ liệu cung cấp thông tin cho việc hoạch định chính sách và cung cấp dịch vụ công bằng cách giúp chuyển hướng các nguồn lực khan hiếm đến những người cần nhất; cung cấp phương tiện để yêu cầu chính phủ chịu trách nhiệm và thúc đẩy đổi mới xã hội. Tóm lại, dữ liệu có tiềm năng cải thiện cuộc sống của mọi người. Khi dữ liệu bị đóng hoặc không khả dụng, công chúng sẽ không nhận được những lợi ích này.
CC gần đây là một phần của một tiểu ban DPGA làm việc để bảo vệ tính toàn vẹn của dữ liệu mở như một phần của Tiêu chuẩn DPG. Bản cập nhật quan trọng (bản dịch sang tiếng Việt) này đối với Tiêu chuẩn DPG được giới thiệu để đảm bảo chỉ các tập dữ liệu mở và bộ sưu tập nội dung có các giấy phép mở mới đủ điều kiện được công nhận là DPG. Yêu cầu mới này có nghĩa là các tập dữ liệu mở và bộ sưu tập nội dung phải đáp ứng các tiêu chí sau để được công nhận là hàng hóa công cộng kỹ thuật số.
Cấp phép mở toàn diện:
Toàn bộ tập dữ liệu /bộ sưu tập nội dung phải có một giấy phép mở được chấp nhận. Các bộ sưu tập được cấp phép hỗn hợp sẽ không được chấp nhận
Có khả năng truy cập được và phát hiện được:
Tất cả các tập dữ liệu và bộ sưu tập nội dung DPG phải được cấp phép mở và dễ dàng truy cập được từ một vị trí riêng biệt, duy nhất, chẳng hạn như một URL duy nhất.
Các hạn chế quyền truy cập được phép:
Một số hạn chế quyền truy cập nhất định – chẳng hạn như đăng nhập, đăng ký, khóa API và điều tiết – được phép miễn là chúng không phân biệt đối xử với người dùng hoặc hạn chế việc sử dụng dựa trên địa lý hoặc bất kỳ yếu tố nào khác.
DPGA viết: “Yêu cầu mới này được thiết kế để tăng cường sự tin tưởng và tự tin vào tất cả các DPG bằng cách đảm bảo rằng người dùng có thể tham gia đầy đủ vào các giải pháp mà không lo ngại về vi phạm quyền sở hữu trí tuệ. Việc đơn giản hóa quyền truy cập và sử dụng phù hợp với mục tiêu của DPGA là làm cho DPG thực sự mở và dễ tiếp cận để áp dụng rộng rãi… điều này giúp thúc đẩy một môi trường và hệ sinh thái nơi sự đổi mới có thể phát triển mà không có bất kỳ sự không chắc chắn nào về mặt pháp lý”.
AI và Dữ liệu mở
Khi CC xem xét AI và tiềm năng của nó để trở thành một hàng hóa công cộng giúp giải quyết các thách thức toàn cầu, chúng tôi tin rằng dữ liệu mở sẽ đóng một vai trò quan trọng tương tự.
CC nhận thấy AI là một không gian phát triển nhanh chóng và chúng tôi đánh giá cao công sức cần cù của mọi người trong việc tạo ra các định nghĩa, khuyến nghị, hướng dẫn và cảnh báo về AI. Sau hai năm tham vấn cộng đồng, Sáng kiến Nguồn Mở – OSI (Open Source Initiative) đã phát hành phiên bản 1.0 của Định nghĩa AI Nguồn Mở (OSAID) (bản dịch sang tiếng Việt) vào ngày 28/10/2024. Định nghĩa này là một bước quan trọng để bắt đầu cuộc thảo luận về ý nghĩa của mở đối với các hệ thống AI. Tuy nhiên, các yêu cầu chia sẻ dữ liệu của OSAID vẫn còn gây tranh cãi, đặc biệt là xung quanh việc có nên chia sẻ dữ liệu đào tạo cho các mô hình AI hay không và chia sẻ như thế nào.
CC cho rằng chỉ vì khó xây dựng và phát hành các tập dữ liệu mở, điều đó không có nghĩa là chúng ta không nên khuyến khích điều đó. Trong trường hợp dữ liệu đào tạo không được hoặc không thể chia sẻ, chúng tôi khuyến khích tóm tắt chi tiết giải thích nội dung của tập dữ liệu và đưa ra hướng dẫn về khả năng tái tạo, nhưng dù sao thì dữ liệu cũng phải được định nghĩa là đóng. Khi dữ liệu có thể được mở và chia sẻ, thì nên như vậy.
Chúng tôi đồng ý với Liv Marte Nordhaug, Tổng giám đốc điều hành, Liên minh hàng hóa công cộng kỹ thuật số, người đã nói trong một bài đăng gần đây: “Liên quan đến các hệ thống AI, cần phải đảm bảo rằng chúng ta không vô tình làm suy yếu phong trào dữ liệu mở và dữ liệu mở như một loại DPG bằng cách thúc đẩy một cách tiếp cận đối với các hệ thống AI dễ dãi hơn so với các loại DPG khác. Việc duy trì một rào cản cao đối với dữ liệu đào tạo có khả năng dẫn đến ít hệ thống AI đáp ứng các tiêu chí của Tiêu chuẩn DPG hơn. Tuy nhiên, tính liên quan đến SDG, tính độc lập của nền tảng và không gây hại theo thiết kế là những tính năng giúp DPG khác biệt với các giải pháp nguồn mở khác—và vì những lý do đó, cần phải đưa dữ liệu đào tạo [AI] vào”.
Các bước tiếp theo
CC sẽ tiếp tục làm việc với DPGA và các đối tác khác khi xây dựng một tiêu chuẩn về những gì đủ điều kiện để một mô hình AI trở thành một hàng hóa công cộng kỹ thuật số. Trong lĩnh vực đó, chúng tôi sẽ ủng hộ các tập dữ liệu mở và xem xét phương pháp tiếp cận theo từng cấp độ, để các thành phần của mô hình AI có thể được coi là hàng hóa công cộng kỹ thuật số, mà không cần toàn bộ mô hình phải chia sẻ công khai mọi thành phần. Các khuyến nghị và hướng dẫn được cập nhật công nhận giá trị của các hệ thống AI hoàn toàn mở sử dụng và chia sẻ các tập dữ liệu mở sẽ là một phần quan trọng để đảm bảo AI phục vụ cho lợi ích công cộng.
-------------------------------------------
¹Digital Public Goods Standard (Tiêu chuẩn Hàng hóa Công cộng Kỹ thuật số)
²Data for Better Lives. World Bank (2021). (Dữ liệu để cuộc sống tốt hơn. Ngân hàng Thế giới) CC BY 3.0 IGO
Tác giả: admin
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Trang Web này được thành lập theo Quyết định số 142/QĐ-HH do Chủ tịch Hiệp hội các trường đại học, cao đẳng Việt Nam – AVU&C (Association of Vietnam Universities and Colleges), GS.TS. Trần Hồng Quân ký ngày 16/09/2019, ngay trước thềm của Hội thảo ‘Xây dựng và khai thác tài nguyên giáo dục mở’ do 5...
Hướng dẫn kỹ thuật lời nhắc. Kỹ thuật viết lời nhắc. Lời nhắc theo chuỗi tư duy
Hướng dẫn kỹ thuật lời nhắc. Kỹ thuật viết lời nhắc. Lời nhắc với vài ví dụ/minh họa (Few-Shot Prompting)
Hướng dẫn kỹ thuật lời nhắc. Kỹ thuật viết lời nhắc. Lời nhắc không có ví dụ/minh họa (Zero-Shot Prompting)
Hướng dẫn kỹ thuật lời nhắc. Kỹ thuật viết lời nhắc
Hướng dẫn kỹ thuật lời nhắc. Giới thiệu. Ví dụ về lời nhắc
Hướng dẫn kỹ thuật lời nhắc. Giới thiệu. Mẹo chung cho việc thiết kế lời nhắc
Hướng dẫn kỹ thuật lời nhắc. Giới thiệu. Các thành phần của lời nhắc
50 công cụ AI tốt nhất cho năm 2025 (Đã thử và kiểm nghiệm)
Các bài toàn văn cho tới hết năm 2024
Các bài trình chiếu trong năm 2024
Các lớp tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ tới hết năm 2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Bộ các tài liệu hướng dẫn của UNESCO cho các chính phủ và cơ sở để triển khai Khuyến nghị Tài nguyên Giáo dục Mở
Hướng dẫn thực hành về Giáo dục Mở cho các học giả: Hiện đại hóa giáo dục đại học thông qua các thực hành Giáo dục Mở (dựa trên Khung OpenEdu)
Chứng chỉ Creative Commons cho các nhà giáo dục, thủ thư hàn lâm, và văn hóa mở
Các mô hình bền vững Tài nguyên Giáo dục Mở (TNGDM) - Tổng hợp
ORCID - Quy trình làm việc
Tổng hợp các bài của Nhóm các Nhà cấp vốn Nghiên cứu Mở (ORFG) đã được dịch sang tiếng Việt
Tổng hợp các bài của Liên minh S (cOAlition S) đã được dịch sang tiếng Việt
Europeana - mô hình mẫu về hệ thống liên thông, Dữ liệu Mở (Liên kết) và dữ liệu FAIR của OpenGLAM/Văn hóa Mở
Năm Khoa học Mở & Chuyển đổi sang Khoa học Mở - Tổng hợp các bài liên quan
‘Bộ công cụ Khoa học Mở của UNESCO’ - Các bản dịch sang tiếng Việt
Định nghĩa các khái niệm liên quan tới Khoa học Mở
‘Digcomp 2.2: Khung năng lực số cho công dân - với các ví dụ mới về kiến thức, kỹ năng và thái độ’, EC xuất bản năm 2022
‘ĐÁNH DẤU KHÓA HỌC MỞ VÀ KHAM ĐƯỢC: CÁC THỰC HÀNH TỐT NHẤT VÀ CÁC TRƯỜNG HỢP ĐIỂN HÌNH’ - VÀI THÔNG TIN HỮU ÍCH
Khóa học cơ bản về Dữ liệu Mở trong chương trình học tập điện tử trên Cổng Dữ liệu châu Âu