Policy intervention 4: Ensuring broad access to data for training AI models
Thúc đẩy quyền truy cập tới dữ liệu công và tư để nuôi dưỡng hệ sinh thái đa dạng và cạnh tranh của phát triển AI.
Fri Jun 28, 2024
Bài được đưa lên Internet ngày: 28/06/2024
Thời đại của AI nền tảng được đặc trưng bởi các mô hình có quy mô lớn và tính linh hoạt cao, có khả năng tạo ra đầu ra phong phú. Nhận thức được cả tiềm năng và rủi ro của các mô hình mới này, ODI đã bắt tay vào một chương trình làm việc về AI lấy dữ liệu làm trung tâm, được thiết kế để tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ liệu có trách nhiệm. Chúng tôi đang khám phá những can thiệp chính sách nào có thể được thực hiện để đảm bảo các công nghệ này được phát triển và triển khai theo cách có lợi cho tất cả mọi người - con người, các cộng đồng và các doanh nghiệp. Đây là bài thứ tư trong loạt năm bài khám phá các can thiệp này.
Dữ liệu dùng để đào tạo các mô tảng AI nền tảng đến từ đâu?
Dữ liệu là nền tảng của các hệ thống AI. Trong suốt vòng đời của AI, dữ liệu được thu thập, xử lý, giám tuyển, tổng hợp và sau đó được sử dụng trong các mô hình. Dữ liệu cũng rất cần thiết để thử nghiệm và đánh giá hiệu suất của mô hình, cũng như để nhập dữ liệu sau khi mô hình được sử dụng.
AI nền tảng được đào tạo bằng nhiều loại dữ liệu phong phú (ví dụ: bảng, hình ảnh, giọng nói) từ nhiều nguồn khác nhau (thu thập từ khắp web hoặc từ dịch vụ mà mọi người tương tác). Các nguồn dữ liệu cho AI rất đa dạng, đặc biệt là đối với các mô hình nền tảng yêu cầu khối lượng lớn. Các nguồn này có thể bao gồm dữ liệu được thu thập từ web, dữ liệu doanh nghiệp hoặc kết hợp cả hai và bao gồm khối lượng lớn dữ liệu văn bản và hình ảnh từ các trang web, bộ sưu tập sách, số liệu thống kê, bản đồ và hình ảnh. Chất lượng là điều cần thiết, vì các mô hình cũng tốt như các tập dữ liệu.
Ở đây, chúng tôi tập trung vào các mô hình nền tảng, nhưng phần lớn cuộc thảo luận này và hành động được chúng tôi đề xuất cũng sẽ áp dụng cho AI hẹp hơn, dự đoán hoặc phân tích. Bất kỳ tập dữ liệu quy mô AI lớn nào cũng phải được xây dựng theo cách tôn trọng quyền của mọi người. Chúng tôi giải quyết cách Chính phủ Anh sắp tới nên bảo vệ Quyền sở hữu trí tuệ, quyền bảo vệ dữ liệu và quyền lao động.
Vì sao quyền truy cập rộng tới dữ liệu lại quan trọng trong bối cảnh AI nền tảng?
Theo truyền thống, máy học dựa vào các tập dữ liệu được tạo thủ công, thường là kịp thời để tạo hoặc khi khó tìm nguồn. Khi quy mô và nhu cầu về dữ liệu tăng lên, đã có sự chuyển dịch sang thu thập lượng lớn dữ liệu từ web và dựa nhiều hơn vào những người làm việc trong cộng đồng để tinh chỉnh và nhắc. Đối với thời đại hiện tại của các mô hình nền tảng - các tập dữ liệu được thu thập từ web như CommonCrawl và LAION cùng với quyền truy cập vào dữ liệu nền tảng công khai từ Wikipedia, Reddit và StackOverflow đã đóng vai trò trung tâm. Quyền truy cập mở và rộng rãi vào dữ liệu có thể được sử dụng cho AI là điều quan trọng nhằm đảm bảo một hệ sinh thái đa dạng và cạnh tranh của các nhà phát triển AI. Andrew Ng nhấn mạnh rằng việc bảo vệ nguồn mở là rất quan trọng đối với hệ sinh thái AI để cho phép các công ty khởi nghiệp sáng tạo tham gia thị trường.
Tuy nhiên, đối với AI nền tảng, ngày càng có nhiều rào cản về quyền truy cập mở và rộng rãi tới dữ liệu công khai.
Việc truy cập vào các tập dữ liệu quy mô lớn đang ngày càng trở nên đắt đỏ, với chi phí dự kiến sẽ tăng vọt khi nhu cầu tiếp tục tăng. Một phần là do tính hữu ích của các tập dữ liệu liên quan nhiều hơn đến chất lượng, thay vì số lượng/quy mô và do đó phụ thuộc rất nhiều vào sự giám tuyển của con người. Một số nhà xuất bản web cũng bắt đầu hạn chế quyền truy cập tới dữ liệu, với gần 14% các trang web phổ biến nhất chặn bot của Common Crawl - thường là để bảo vệ sở hữu trí tuệ và có khả năng là để đạt được các thỏa thuận riêng tư sinh lợi trực tiếp với các công ty AI. Việc đóng dữ liệu này có lợi cho các tổ chức lớn vốn đã có kho dữ liệu, có đủ khả năng tài chính để ra tòa và có thể tham gia vào các thỏa thuận song phương để cấp phép dữ liệu. Các đối thủ cạnh tranh nhỏ và học giả không thể tiếp cận các chiến lược này. Do đó, làn sóng Mô hình Ngôn ngữ Lớn - LLM (Large Language Models) tiếp theo có nguy cơ được các công ty tư nhân xây dựng dựa trên các tập dữ liệu đóng. Ngoài ra, việc theo dõi hiệu suất của các mô hình nền tảng vẫn còn nhiều thách thức do thiếu dữ liệu và chuẩn mực có thể truy cập công khai.
Có những lo ngại đáng kể rằng kỷ nguyên của các tập dữ liệu truy cập mở có thể sắp kết thúc và chúng ta đang tiến gần đến cái gọi là 'mùa đông dữ liệu'. Nếu 'mùa đông dữ liệu' này đến và quyền truy cập mở vào dữ liệu suy giảm, Creative Commons đã bày tỏ lo ngại rằng có thể có 'một khoản lỗ ròng cho tài sản chung... hạn chế quá mức đối với việc thể hiện'. Ví dụ, dựa trên xu hướng hiện tại về quyền truy cập tới dữ liệu nền tảng truyền thông xã hội, việc đóng lại quyền truy cập công khai vào dữ liệu có thể buộc những người phát triển các mô hình AI phải cấp phép dữ liệu với chi phí cao trực tiếp từ những người nắm giữ dữ liệu hoặc mua dữ liệu từ các nhà môi giới dữ liệu đắt tiền.
Ngoài việc ảnh hưởng đến quá trình phát triển AI, việc đóng lại các tập dữ liệu mở trong lịch sử còn có tác động lan tỏa hơn nữa đến việc nghiên cứu các tài sản chung (Commons). Trong nhiều trường hợp, không có giải pháp thay thế nào cho một số tập dữ liệu này - chẳng hạn như CommonCrawl và Wikipedia - nghĩa là sẽ có thêm nhiều hạn chế hơn đối với nghiên cứu về việc sử dụng dữ liệu công khai lớn: giải quyết kiểm duyệt web, lịch sử nghiên cứu khoa học hoặc vận động chính trị và công chúng.
Các tổ chức nguồn mở đóng vai trò quan trọng trong việc hỗ trợ hệ sinh thái chống lại việc đóng lại dữ liệu. Ví dụ, Clement Delangue, CEO của Hugging Face, đã làm chứng trước Quốc hội Hoa Kỳ về nhu cầu "tính mở về mặt đạo đức" trong phát triển AI, điều này sẽ cho phép các nhà nghiên cứu ngoài một vài công ty công nghệ lớn tiếp cận công nghệ. Việc sử dụng lại dữ liệu là rất quan trọng để bảo tồn các tập dữ liệu được truy cập rộng rãi, vì "việc làm cho một tập dữ liệu sẵn sàng cho hoạt động nghiên cứu và phát triển hơn nữa có thể giúp cập nhật dữ liệu vì các nhà nghiên cứu/nhà phát triển khác có thể đóng góp dữ liệu mới".
Tình hình chính sách hiện tại ở Vương quốc Anh và những nơi khác
Vào tháng 9 năm 2023, Cơ quan Cạnh tranh và Thị trường của Vương quốc Anh đã công bố một bộ nguyên tắc cho các mô hình AI nền tảng, bao gồm cả việc nêu rõ sự cần thiết của 'quyền truy cập vào dữ liệu, tính toán, chuyên môn và vốn mà không có hạn chế không đáng có'.
Chính phủ Vương quốc Anh có thành tích trong việc đầu tư vào cơ sở hạ tầng dữ liệu cho phép sử dụng và chia sẻ rộng rãi dữ liệu, bao gồm cả dữ liệu mà chính phủ nắm giữ. Ví dụ, Dịch vụ dữ liệu Vương quốc Anh là cơ sở hạ tầng nghiên cứu quốc gia cung cấp quyền truy cập và đào tạo đáng tin cậy để sử dụng bộ sưu tập lớn dữ liệu nghiên cứu kinh tế, dân số và xã hội - được tài trợ bởi Hội đồng nghiên cứu kinh tế và xã hội. Có một số khoản đầu tư khác vào việc xây dựng cơ sở hạ tầng dữ liệu do (Nghiên cứu và Đổi mới của Vương quốc Anh) UKRI và các hội đồng nghiên cứu khác của Vương quốc Anh thực hiện, cùng với Smart Data Research UK (Nghiên cứu Dữ liệu Thông minh UK).
Trong lĩnh vực y tế, Health Data Research UK thúc đẩy một số sáng kiến nhằm tăng cường chia sẻ và sử dụng dữ liệu. Ví dụ, INSIGHT được HDR UK hỗ trợ và hiện là cơ sở dữ liệu nhãn khoa lớn nhất thế giới với hơn 25 triệu hình ảnh võng mạc và đang thúc đẩy đổi mới bằng cách sử dụng AI để chẩn đoán bệnh thoái hóa. Trong một không gian tương tự, chín AI Hubs for Real Data do EPSRC tài trợ chứng minh tầm quan trọng của nguồn tài trợ công đối với cơ sở hạ tầng AI lấy dữ liệu làm trung tâm.
Ra mắt vào tháng 6 năm 2024, Tuyên ngôn của Đảng Lao động bao gồm đề xuất về Thư viện dữ liệu quốc gia để tập trung các chương trình nghiên cứu hiện có và hỗ trợ phát triển lĩnh vực trí tuệ nhân tạo. Đề xuất này dựa trên tình trạng năng suất thấp của Vương quốc Anh – Anh có kho dữ liệu lớn thứ ba, nhưng tốc độ tăng trưởng chỉ bằng gần một nửa so với Đức và Pháp.
Một số sáng kiến đã được các công ty và cộng đồng nhà phát triển AI khởi xướng để xây dựng các tập dữ liệu mới, sẵn sàng cho AI. Vào tháng 3 năm 2024, các nhà nghiên cứu đã ra mắt Common Corpus, tuyên bố đây là 'tập dữ liệu AI lớn nhất hiện có dành cho LLM chỉ bao gồm nội dung thuộc phạm vi công cộng'. Common Voice là một tập dữ liệu giọng nói có sẵn công khai do hàng nghìn người đóng góp tình nguyện xây dựng với niềm tin rằng "các bộ dữ liệu giọng nói lớn, có sẵn công khai sẽ thúc đẩy sự đổi mới và cạnh tranh thương mại lành mạnh trong công nghệ giọng nói dựa trên máy học". Quỹ Lacuna đã hỗ trợ xây dựng các tập dữ liệu cho nông nghiệp và xử lý ngôn ngữ tự nhiên, và gần đây đã công bố một làn sóng dự án mới liên quan đến biến đổi khí hậu. Nhóm Công tác về Tập dữ liệu MLCommons tạo và lưu trữ các tập dữ liệu công khai "lớn, được duy trì tích cực và được cấp phép dễ dãi - đặc biệt là cho sử dụng thương mại".
Hugging Face hiện lưu trữ hơn 80.000 tập dữ liệu và bao gồm quyền truy cập hạn chế vào 'Tập dữ liệu có cổng'. Nó đã được mô tả cùng với Kaggle và OpenML như một ví dụ về làn sóng mới của 'trung tâm dữ liệu cộng đồng' và 'cơ sở hạ tầng tải dữ liệu được chuẩn hóa' đang được xây dựng để phục vụ ngành công nghiệp AI. Các cơ chế như dữ liệu tổng hợp – dữ liệu được tạo tự động, sử dụng AI và các công cụ khác – cũng có thể được sử dụng khi dữ liệu gốc không mang tính đại diện và cần được cân bằng lại, hoặc khi dữ liệu nhạy cảm và không thể chia sẻ, hoặc khi việc thu thập dữ liệu quá tốn kém.
Viện AI Now và các nhóm nghiên cứu châu Âu khác đã công bố một bức thư ngỏ gửi Ủy ban châu Âu, lập luận rằng "các công ty có quyền truy cập vào các tập dữ liệu độc quyền và được giám tuyển sẽ có lợi thế cạnh tranh", gây ra sự tập trung và hạn chế cạnh tranh trên thị trường AI.
Những người khác đã đề xuất những cách mới để mở ra quyền truy cập vào dữ liệu do các công ty tư nhân nắm giữ. Saffron Huang và Divya Siddarth gợi ý rằng "các công ty [AI] có thể tạo ra, như một chuẩn mực hoặc quy tắc, các tập dữ liệu tiêu chuẩn vàng mà các thực thể khác có thể sử dụng". Viện Ada Lovelace đã thảo luận về tiềm năng "yêu cầu quyền truy cập nghiên cứu vào các kho dữ liệu của các công ty công nghệ lớn (Big Tech), để khuyến khích một hệ sinh thái phát triển AI đa dạng hơn". OpenFuture đã phát triển một bản thiết kế cho Public Data Commons (Tài sản Dữ liệu Công cộng), sẽ hoạt động như những trung gian đáng tin cậy để làm cho dữ liệu của khu vực tư nhân sẵn sàng để chia sẻ vì lợi ích công cộng và cho phép tạo ra giá trị công cộng. Một số sáng kiến dữ liệu mở trong lĩnh vực khoa học chứng minh tác động của các kho lưu trữ mở tuân theo các nguyên tắc FAIR với danh mục dữ liệu có cấu trúc và các định dạng dữ liệu được tiêu chuẩn hóa.
Ngoài ra còn có những đề xuất mới xung quanh vai trò của chính phủ với tư cách là nhà cung cấp dữ liệu cho AI. Stability AI đã lập luận rằng các quốc gia cần có trình tạo hình ảnh quốc gia riêng mình, trình tạo này phản ánh các giá trị quốc gia, với các tập dữ liệu do chính phủ và các tổ chức công cung cấp. Viện Bennett đã đề xuất một 'quỹ dữ liệu quốc gia', trong đó 'dữ liệu từ các nguồn quốc gia, chẳng hạn như BBC và Thư viện Anh, sẽ được giao phó. Viện Tony Blair cũng đã và đang nói về các quỹ dữ liệu, như một hình thức tổ chức mới để tăng cường quyền truy cập tới dữ liệu của NHS cho mục đích nghiên cứu và đổi mới.
Các bước cần thực hiện
Để bảo vệ quyền truy cập rộng rãi vào dữ liệu cho nghiên cứu và đổi mới AI, chúng tôi khuyến nghị Chính phủ mới của Anh:
Hỗ trợ việc tạo lập và cải thiện các tập dữ liệu quy mô AI. Như đã nêu trong tuyên ngôn chính sách của mình, chúng tôi ủng hộ việc cải thiện cơ sở hạ tầng dữ liệu cho AI và chuẩn bị dữ liệu sẵn sàng cho AI. Điều này bao gồm các hành động của chính phủ nhằm tạo lập và quản lý các tập dữ liệu chất lượng cao, đảm bảo rằng các tập dữ liệu này có thể truy cập được, đáng tin cậy và có thể sử dụng được, đồng thời được công bố theo các tiêu chuẩn cao và đã được thống nhất. Chính phủ Anh nên hỗ trợ và bảo vệ cơ sở hạ tầng dữ liệu để đảm bảo tính bền vững về mặt tài chính, với việc cấp vốn được ưu tiên cho các tổ chức và cộng đồng tạo lập và đánh giá các tập dữ liệu được giám tuyển tốt trong khi tìm hiểu các cách thức để ngăn chặn việc các tập dữ liệu mở trước đây bị hạn chế. Ngoài ra, chúng tôi kêu gọi cơ sở hạ tầng mạnh mẽ để cho phép các hệ thống AI sử dụng dữ liệu một cách có trách nhiệm, bao gồm các cơ chế đảm bảo và đánh giá chất lượng.
Khám phá các cách tiếp cận mới để mở rộng quyền truy cập vào dữ liệu của khu vực công. Khối lượng lớn dữ liệu mở, được chia sẻ và đóng của Vương quốc Anh cần được tận dụng tốt hơn, sử dụng các nguyên tắc Tìm thấy được, Truy cập được, Tương hợp được, Sử dụng lại được - FAIR (Findability, Accessibility, Interoperability, and Reusability) để định hình quyền truy cập rộng rãi vào dữ liệu có giá trị cao. Các tổ chức dữ liệu để quản lý dữ liệu công này một cách có trách nhiệm cũng cần được hỗ trợ bền vững thông qua việc cấp vốn và cơ sở hạ tầng.
Mở ra quyền truy cập vào dữ liệu của khu vực tư nhân. Chính phủ Vương quốc Anh nên khám phá các phương pháp tiếp cận liên ngành để mở ra quyền truy cập vào dữ liệu của khu vực tư nhân cho AI - xây dựng dựa trên tiến trình của các sáng kiến như dữ liệu SMART để tận dụng tiềm năng của các ngành công nghệ Vương quốc Anh. Chính phủ cũng nên hỗ trợ nghiên cứu về các phương pháp tiếp cận pháp lý kỹ thuật, chẳng hạn như xem xét lại việc cấp phép như một phần cốt lõi của chương trình nghị sự nghiên cứu AI nền tảng. Những tiến bộ hơn nữa trong dữ liệu tổng hợp, nếu được sử dụng một cách có trách nhiệm, có thể lấp đầy những khoảng trống mà dữ liệu thường không thể truy cập được.
Tại ODI, chúng tôi mong muốn cung cấp thông tin chi tiết và nguồn lực cho các nhà hoạch định chính sách đang nỗ lực tạo ra một chế độ sở hữu trí tuệ công bằng để ứng phó với AI nền tảng. Chúng tôi sẽ sớm công bố đề xuất can thiệp cuối cùng tập trung vào việc trao quyền cho cá nhân trong dữ liệu và AI.
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Trang Web này được thành lập theo Quyết định số 142/QĐ-HH do Chủ tịch Hiệp hội các trường đại học, cao đẳng Việt Nam – AVU&C (Association of Vietnam Universities and Colleges), GS.TS. Trần Hồng Quân ký ngày 16/09/2019, ngay trước thềm của Hội thảo ‘Xây dựng và khai thác tài nguyên giáo dục mở’ do 5...