Why Digital Public Goods, including AI, Should Depend on Open Data
by Cable Green, Creative Commons
Posted 27 January 2025
Bài được đưa lên Internet ngày: 27/01/2025
Thừa nhận rằng một số dữ liệu không nên được chia sẻ (vì lý do luân lý, đạo đức và/hoặc quyền riêng tư) và một số không thể được chia sẻ (vì lý do pháp lý hoặc lý do khác), Creative Commons (CC) cho rằng có giá trị trong việc khuyến khích việc tạo lập, chia sẻ và sử dụng dữ liệu mở để thúc đẩy sản xuất kiến thức. Khi các cộng đồng mở tiếp tục tưởng tượng, thiết kế và xây dựng các hàng hóa công cộng kỹ thuật số và dịch vụ cơ sở hạ tầng công cộng cho giáo dục, khoa học và văn hóa, các hàng hóa và dịch vụ này - bất cứ khi nào có thể và phù hợp - nên sản xuất, chia sẻ và/hoặc xây dựng dựa trên dữ liệu mở.
Dữ liệu Mở và Hàng hóa Công cộng Kỹ thuật số - DPG (Digital Public Goods)
CC là thành viên của Liên minh Hàng hóa Công cộng Kỹ thuật số - DPGA (Digital Public Goods Alliance) và các công cụ pháp lý của CC đã được công nhận là hàng hóa công cộng kỹ thuật số (DPG). CÁc DPG là “phần mềm nguồn mở, các tiêu chuẩn mở, dữ liệu mở, các hệ thống AI mở, và các bộ sưu tập nội dung mở mà gắn với quyền riêng tư và các thông lệ tốt nhất áp dụng được khác, không gây hại, và có liên quan cao độ cho việc đạt được các Mục tiêu Phát triển Bền vững (SDGs) 2030 của Liên hiệp quốc”. Nếu chúng ta muốn giải quyết các thách thức lớn nhất toàn cầu, các chính phủ và các nhà cấp vốn khác sẽ cần phải đầu tư, phát triển, cấp phép mở, chia sẻ, và sử dụng các DPG.
Dữ liệu mở rất quan trọng đối với DPG vì dữ liệu là động lực chính thúc đẩy sức sống kinh tế với tiềm năng đã được chứng minh là phục vụ lợi ích công cộng. Trong khu vực công, dữ liệu cung cấp thông tin cho việc hoạch định chính sách và cung cấp dịch vụ công bằng cách giúp chuyển hướng các nguồn lực khan hiếm đến những người cần nhất; cung cấp phương tiện để yêu cầu chính phủ chịu trách nhiệm và thúc đẩy đổi mới xã hội. Tóm lại, dữ liệu có tiềm năng cải thiện cuộc sống của mọi người. Khi dữ liệu bị đóng hoặc không khả dụng, công chúng sẽ không nhận được những lợi ích này.
CC gần đây là một phần của một tiểu ban DPGA làm việc để bảo vệ tính toàn vẹn của dữ liệu mở như một phần của Tiêu chuẩn DPG. Bản cập nhật quan trọng (bản dịch sang tiếng Việt) này đối với Tiêu chuẩn DPG được giới thiệu để đảm bảo chỉ các tập dữ liệu mở và bộ sưu tập nội dung có các giấy phép mở mới đủ điều kiện được công nhận là DPG. Yêu cầu mới này có nghĩa là các tập dữ liệu mở và bộ sưu tập nội dung phải đáp ứng các tiêu chí sau để được công nhận là hàng hóa công cộng kỹ thuật số.
Cấp phép mở toàn diện:
Toàn bộ tập dữ liệu /bộ sưu tập nội dung phải có một giấy phép mở được chấp nhận. Các bộ sưu tập được cấp phép hỗn hợp sẽ không được chấp nhận
Có khả năng truy cập được và phát hiện được:
Tất cả các tập dữ liệu và bộ sưu tập nội dung DPG phải được cấp phép mở và dễ dàng truy cập được từ một vị trí riêng biệt, duy nhất, chẳng hạn như một URL duy nhất.
Các hạn chế quyền truy cập được phép:
Một số hạn chế quyền truy cập nhất định – chẳng hạn như đăng nhập, đăng ký, khóa API và điều tiết – được phép miễn là chúng không phân biệt đối xử với người dùng hoặc hạn chế việc sử dụng dựa trên địa lý hoặc bất kỳ yếu tố nào khác.
DPGA viết: “Yêu cầu mới này được thiết kế để tăng cường sự tin tưởng và tự tin vào tất cả các DPG bằng cách đảm bảo rằng người dùng có thể tham gia đầy đủ vào các giải pháp mà không lo ngại về vi phạm quyền sở hữu trí tuệ. Việc đơn giản hóa quyền truy cập và sử dụng phù hợp với mục tiêu của DPGA là làm cho DPG thực sự mở và dễ tiếp cận để áp dụng rộng rãi… điều này giúp thúc đẩy một môi trường và hệ sinh thái nơi sự đổi mới có thể phát triển mà không có bất kỳ sự không chắc chắn nào về mặt pháp lý”.
AI và Dữ liệu mở
Khi CC xem xét AI và tiềm năng của nó để trở thành một hàng hóa công cộng giúp giải quyết các thách thức toàn cầu, chúng tôi tin rằng dữ liệu mở sẽ đóng một vai trò quan trọng tương tự.
CC nhận thấy AI là một không gian phát triển nhanh chóng và chúng tôi đánh giá cao công sức cần cù của mọi người trong việc tạo ra các định nghĩa, khuyến nghị, hướng dẫn và cảnh báo về AI. Sau hai năm tham vấn cộng đồng, Sáng kiến Nguồn Mở – OSI (Open Source Initiative) đã phát hành phiên bản 1.0 của Định nghĩa AI Nguồn Mở (OSAID) (bản dịch sang tiếng Việt) vào ngày 28/10/2024. Định nghĩa này là một bước quan trọng để bắt đầu cuộc thảo luận về ý nghĩa của mở đối với các hệ thống AI. Tuy nhiên, các yêu cầu chia sẻ dữ liệu của OSAID vẫn còn gây tranh cãi, đặc biệt là xung quanh việc có nên chia sẻ dữ liệu đào tạo cho các mô hình AI hay không và chia sẻ như thế nào.
CC cho rằng chỉ vì khó xây dựng và phát hành các tập dữ liệu mở, điều đó không có nghĩa là chúng ta không nên khuyến khích điều đó. Trong trường hợp dữ liệu đào tạo không được hoặc không thể chia sẻ, chúng tôi khuyến khích tóm tắt chi tiết giải thích nội dung của tập dữ liệu và đưa ra hướng dẫn về khả năng tái tạo, nhưng dù sao thì dữ liệu cũng phải được định nghĩa là đóng. Khi dữ liệu có thể được mở và chia sẻ, thì nên như vậy.
Chúng tôi đồng ý với Liv Marte Nordhaug, Tổng giám đốc điều hành, Liên minh hàng hóa công cộng kỹ thuật số, người đã nói trong một bài đăng gần đây: “Liên quan đến các hệ thống AI, cần phải đảm bảo rằng chúng ta không vô tình làm suy yếu phong trào dữ liệu mở và dữ liệu mở như một loại DPG bằng cách thúc đẩy một cách tiếp cận đối với các hệ thống AI dễ dãi hơn so với các loại DPG khác. Việc duy trì một rào cản cao đối với dữ liệu đào tạo có khả năng dẫn đến ít hệ thống AI đáp ứng các tiêu chí của Tiêu chuẩn DPG hơn. Tuy nhiên, tính liên quan đến SDG, tính độc lập của nền tảng và không gây hại theo thiết kế là những tính năng giúp DPG khác biệt với các giải pháp nguồn mở khác—và vì những lý do đó, cần phải đưa dữ liệu đào tạo [AI] vào”.
Các bước tiếp theo
CC sẽ tiếp tục làm việc với DPGA và các đối tác khác khi xây dựng một tiêu chuẩn về những gì đủ điều kiện để một mô hình AI trở thành một hàng hóa công cộng kỹ thuật số. Trong lĩnh vực đó, chúng tôi sẽ ủng hộ các tập dữ liệu mở và xem xét phương pháp tiếp cận theo từng cấp độ, để các thành phần của mô hình AI có thể được coi là hàng hóa công cộng kỹ thuật số, mà không cần toàn bộ mô hình phải chia sẻ công khai mọi thành phần. Các khuyến nghị và hướng dẫn được cập nhật công nhận giá trị của các hệ thống AI hoàn toàn mở sử dụng và chia sẻ các tập dữ liệu mở sẽ là một phần quan trọng để đảm bảo AI phục vụ cho lợi ích công cộng.
-------------------------------------------
¹Digital Public Goods Standard (Tiêu chuẩn Hàng hóa Công cộng Kỹ thuật số)
²Data for Better Lives. World Bank (2021). (Dữ liệu để cuộc sống tốt hơn. Ngân hàng Thế giới) CC BY 3.0 IGO
Tác giả: admin
Ý kiến bạn đọc
Những tin cũ hơn
Trang Web này được thành lập theo Quyết định số 142/QĐ-HH do Chủ tịch Hiệp hội các trường đại học, cao đẳng Việt Nam – AVU&C (Association of Vietnam Universities and Colleges), GS.TS. Trần Hồng Quân ký ngày 16/09/2019, ngay trước thềm của Hội thảo ‘Xây dựng và khai thác tài nguyên giáo dục mở’ do 5...