Can thiệp chính sách 1: Tăng cường minh bạch xung quanh dữ liệu được sử dụng để đào tạo các mô hình AI

Chủ nhật - 18/08/2024 19:03

Policy intervention 1: Increase transparency around the data used to train AI models

Cho dù các công ty có vào cuộc hay chính phủ can thiệp, chúng ta phải đảm bảo dữ liệu được sử dụng để đào tạo hệ thống AI không bị giữ bí mật.

Tue Jun 11, 2024

Theo: https://theodi.org/news-and-events/blog/policy-intervention-1-increase-transparency-around-the-data-used-to-train-ai-models/

Bài được đưa lên Internet ngày: 11/07/2024

Trong 18 tháng qua, Vương quốc Anh – cùng với nhiều quốc gia khác – đã phải vật lộn để hiểu được luật pháp và quy định nào là cần thiết để quản lý AI tạo sinh (Generative AI) và các công nghệ phát triển nhanh chóng khác. Thời đại của AI nền tảng được đặc trưng bởi các mô hình có quy mô lớn và tính linh hoạt cao, hỗ trợ các hệ thống có khả năng tương tác phức tạp và tạo ra đầu ra phong phú. Cũng có những rủi ro, như đã được phản ánh trong Hội nghị thượng đỉnh về an toàn AI do Vương quốc Anh tổ chức tại Bletchley Park và việc thành lập Viện an toàn AI. Nhận thức được cả tiềm năng và rủi ro, ODI đã bắt tay vào chương trình làm việc về AI lấy dữ liệu làm trung tâm (Data-centric AI ), được thiết kế để tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ liệu có trách nhiệm.

Các chính phủ có vai trò đáng kể ở đây, từ việc giới thiệu các luật mới cho tới quản trị sử dụng dữ liệu để đào tạo AI, cho tới việc khuyến khích đầu tư và đổi mới trong đảm bảo và chia sẻ dữ liệu, tới sử dụng dữ liệu và bản thân AI - theo một cách thức minh bạch - để cung cấp các dịch vụ công. Như một phần công việc của chúng tôi, chúng tôi đã khám phá những can thiệp chính sách nào cần phải được làm để đảm bảo rằng các công nghệ mới đó được phát triển và triển khai theo cách làm lợi cho tất cả mọi người - con người, các cộng đồng và các doanh nghiệp.

Đây là bài đầu tiên trong loạt 5 bài khám phá các can thiệp chính sách đó, và cách chúng có thể giúp định hình tích cực bối cảnh này.

Minh bạch cho việc đào tạo dữ liệu là gì?

Dữ liệu đào tạo là dữ liệu được sử dụng để đào tạo một mô hình trí tuệ nhân tạo - AI (Artificial Intelligence). Theo các đánh giá của Chỉ số Minh bạch Mô hình của Quỹ Stanford (Stanford Foundation Model Transparency Index), minh bạch cho dữ liệu đào tạo liên quan đến việc mở ra những điều như sau:

Kích cỡ tập dữ liệu
Nguồn dữ liệu
Ai đã tạo ra dữ liệu đó
Dữ liệu đó đã được tạo ra như thế nào
Tập dữ liệu đã được tăng cường thế nào - và vì mục đích gì
Tập dữ liệu đã được lọc như thế nào (ví dụ, cho nội dung có hại)
Tập dữ liệu đó có bao gồm dữ liệu có bản quyền hay không
Dữ liệu đó có thể được sử dụng theo giấy phép nào
Bất kỳ thông tin cá nhân nào có trong dữ liệu đó

Ở đây, chúng ta chủ yếu nói về dữ liệu đào tạo, dữ liệu tinh chỉnh và dữ liệu ưu tiên, cũng như các chế tác dữ liệu khác – chúng ta sẽ tập trung vào tính sẵn sàng của dữ liệu đào tạo theo nguyên tắc chính sách sau.

Vì sao minh bạch dữ liệu đào tạo là quan trọng?

Hầu hết các hãng AI hàng đầu đã từ chối mở ra các chi tiết về dữ liệu họ đã sử dụng để đào tạo và kiểm thử các mô hình AI. Chỉ số Minh bạch Mô hình của Quỹ Stanford (Stanford Foundation Model Transparency index) đánh giá các mô hình nền tảng chủ chốt cung cấp xương sống của nhiều công cụ và dịch vụ AI, đã chứng minh rằng minh bạch liên quan đến dữ liệu được sử dụng là rất thấp so với các khía cạnh minh bạch khác. Trong tài liệu được xuất bản khi khởi xướng mô hình GPT-4 của nó, OpenAI đã nêu rằng nó sẽ không chia sẻ thông tin chi tiết về ‘việc xây dựng tập dữ liệu’ và các khía cạnh khác của sự phát triển mô hình đó vì ‘bối cảnh cạnh tranh và ý nghĩa an toàn của các mô hình phạm vi rộng’ - một quyết định đã bị chỉ trích dữ dội bởi một số nhà nghiên cứu hàng đầu.

Dữ liệu nào được sử dụng để xây dựng các hệ thống AI là quan trọng; nhưng mức độ hiểu biết của những người phát triển, triển khai và sử dụng hệ thống AI về các thành kiến, hạn chế và nghĩa vụ pháp lý liên quan đến việc sử dụng dữ liệu này cũng quan trọng không kém để đảm bảo hệ thống được triển khai một cách có trách nhiệm. Xa hơn nữa, người dùng hệ thống AI và những người bị ảnh hưởng bởi việc sử dụng chúng có nhiều khả năng tin tưởng chúng hơn nếu họ hiểu cách chúng được phát triển. Về lý thuyết, nếu hệ thống được giải thích đúng, 'người dùng sẽ biết khi nào nên tin tưởng vào dự đoán của hệ thống và khi nào nên áp dụng phán đoán của riêng họ'.

Tuy nhiên, trong phân tích của họ, một cuộc điều tra của Washington Post đã kết luận rằng 'nhiều công ty không ghi lại thành tài liệu nội dung dữ liệu đào tạo của họ - ngay cả trong nội bộ - vì sợ tìm thấy thông tin cá nhân về các cá nhân có thể nhận dạng được, tài liệu có bản quyền và dữ liệu khác bị lấy mà không có sự đồng ý'. Do đó, khi Scarlett Johannson công khai chỉ trích OpenAI vì bị cáo buộc sử dụng giọng nói của cô trong một chatbot mới - cô ấy đặc biệt kêu gọi 'giải quyết dưới hình thức minh bạch'. Data Provenance Explorer khám phá cách hầu hết quá trình phát triển AI diễn ra thông qua việc tinh chỉnh và một số ít lần học các mô hình đã được đào tạo trước. Trên thực tế, tại Vương quốc Anh, hầu hết các nhà cung cấp công nghệ và công ty sử dụng AI có thể sẽ tinh chỉnh - thay vì đào tạo. Tính minh bạch của dữ liệu tinh chỉnh là chìa khóa, nhưng nó thường cũng mù mờ không minh bạch như dữ liệu đào tạo.

Các nhà lập pháp và cơ quan quản lý cần có khả năng đánh giá dữ liệu mà dựa vào đó các mô hình này được xây dựng để đảm bảo chúng tuân thủ luật pháp. Theo Eryk Salvaggio, 'điều khiển một máy bay thương mại chở đầy nhiên liệu thí điểm chưa được thử nghiệm là hành vi cẩu thả. Các quy tắc yêu cầu các hãng hàng không cho chúng ta biết những gì có trong bình nhiên liệu không cản trở sự đổi mới. Việc triển khai các mô hình trong phạm vi công cộng mà không có sự giám sát cũng là hành vi cẩu thả'.

Tình trạng chính sách hiện tại ở Vương quốc Anh và những nơi khác

Vương quốc Anh hiện đang nhấn mạnh vào cách tiếp cận linh hoạt, theo từng lĩnh vực cụ thể đối với quy định về AI thay vì một khung chung, đơn lẻ như Đạo luật AI của EU. Điều này phản ánh cách tiếp cận lịch sử của Vương quốc Anh đối với việc quản lý các công nghệ mới nổi. Tuy nhiên, lập trường này có thể thay đổi dưới một chính phủ mới. Vào năm 2023, Chính phủ Vương quốc Anh đã thành lập Viện An toàn AI để tập trung vào 'an toàn AI tiên tiến vì lợi ích công cộng'. Một trong những vai trò chính của viện là tạo điều kiện trao đổi thông tin với các tổ chức quốc gia và quốc tế, tuân thủ các quy định hiện hành về quyền riêng tư và dữ liệu. Điều này bao gồm chia sẻ dữ liệu về đào tạo và tinh chỉnh các hệ thống AI, điều này rất quan trọng đối với chức năng tiến hành đánh giá hệ thống AI của Viện.

Vào tháng 3 năm 2024, một dự luật của các thành viên tư nhân đã được đưa ra tại Viện Quý tộc yêu cầu các nhà cung cấp AI phải chia sẻ thông tin về dữ liệu đào tạo của họ với 'Cơ quan AI' trung ương, đảm bảo sự đồng ý có thông tin khi thu thập dữ liệu đào tạo và trải qua các cuộc kiểm toán bắt buộc. Tuy nhiên, dự luật đã không được thông qua sau khi Quốc hội hoãn phiên họp vào tháng 5 năm 2024. AI có thể sẽ là chủ đề được bàn tán trong cuộc Tổng tuyển cử năm 2024, khi Đảng Lao động trước đó đã ám chỉ rằng họ sẽ yêu cầu các công ty AI chia sẻ dữ liệu thử nghiệm của họ với chính phủ Anh nếu đảng này lên nắm quyền.

Trong khi Vương quốc Anh đã áp dụng cách tiếp cận linh hoạt, các khu vực pháp lý khác như Hoa Kỳ, EU và Nhật Bản lại có lập trường khác nhau. Tại Hoa Kỳ, Ủy ban Thương mại Liên bang – FTC (Federal Trade Commission) năm 2023 đã ra lệnh cho OpenAI phải ghi lại thành tài liệu tất cả các nguồn dữ liệu được sử dụng để đào tạo các mô hình của mình. Đạo luật Minh bạch Mô hình của AI Foundation được đề xuất kêu gọi FTC thiết lập các tiêu chuẩn để công khai thông tin dữ liệu đào tạo. Đạo luật AI của EU yêu cầu tóm tắt chi tiết nội dung dữ liệu đào tạo để đảm bảo tính minh bạch và bảo vệ người nắm giữ quyền. Dự thảo nguyên tắc AI của Nhật Bản kêu gọi tính minh bạch của phương pháp thu thập dữ liệu và khả năng truy xuất nguồn dữ liệu.

Đề xuất từ xã hội dân sự, ngành công nghiệp và các tác nhân phi chính phủ khác

Các bên trong giới công nghiệp đang giải quyết các vấn đề về tính minh bạch độc lập với các phương pháp tiếp cận theo quy định. Các khung quản trị dữ liệu đang nổi lên, bao gồm kiểm toán công bằng và tính minh bạch của tập dữ liệu. Các nhà phát triển đang tạo ra các công cụ ghi lại thành tài liệu dữ liệu đào tạo như Thẻ mô hình và Thẻ tập dữ liệu của Hugging Face, Nhãn dinh dưỡng tập dữ liệu và Sáng kiến về nguồn gốc dữ liệu. Các giải pháp theo định hướng thị trường cũng đang được phát triển, chẳng hạn như tính minh bạch của Adobe về nội dung đào tạo AI của mình và các Tiêu chuẩn về nguồn gốc dữ liệu của Liên minh Dữ liệu & Tin cậy. Các tổ chức xã hội dân sự, như Mozilla Foundation và Fairly Trained, đang vận động thay đổi quy định để đảm bảo tính minh bạch và công bằng trong việc sử dụng dữ liệu đào tạo AI. Trong 'Safe before Sale' (An toàn trước khi bán), Viện Ada Lovelace đã lập luận rằng 'các cơ quan quản lý nên bắt buộc phải ghi lại thành tài liệu và công bố mô hình và tập dữ liệu bắt buộc cho quá trình đào tạo trước và tinh chỉnh các mô hình nền tảng'.

Các bước cần thực hiện

Trong bản tuyên ngôn chính sách mới ra mắt của chúng tôi - đã nhận được sự ủng hộ của nhiều đảng phái -, ODI đã kêu gọi Chính phủ Anh xem xét cụ thể và rõ ràng dữ liệu trong các nguyên tắc của họ đối với quy định về AI.

Các đạo luật như Dự luật Thành viên Tư nhân được đề xuất, trong đó đặt ra nghĩa vụ cho các nhà phát triển AI phải minh bạch về dữ liệu của họ và cung cấp cho các cơ quan quản lý các quyền hạn cần thiết để yêu cầu họ chịu trách nhiệm (như một phần của 'Cơ quan AI' hoặc như một phần của các cơ quan và cơ quan quản lý hiện có), sẽ là một mục tiêu đầy tham vọng nhưng đáng giá đối với chính phủ Anh mới sắp nhậm chức. Chúng tôi khuyến nghị rằng Chính phủ Anh sắp nhậm chức:

Khuyến khích áp dụng các công cụ và khung minh bạch tập dữ liệu đang nổi lên từ cộng đồng AI. Công việc hiện tại về Fairly Trained, Dataset Cards và Nutrition label nên được áp dụng rộng rãi hơn trong các tổ chức xây dựng dịch vụ AI - và chính phủ nên làm gương trong việc áp dụng các công cụ và khung minh bạch này. Việc hỗ trợ thêm cho quá trình phát triển tiêu chuẩn Croissant, trong đó ODI đồng chủ trì nhóm, cũng rất quan trọng. Cũng cần cân nhắc cách thức các hoạt động ghi lại thành tài liệu này - chủ yếu nhắm vào cộng đồng nhà phát triển - cũng có thể được áp dụng và trao quyền cho các chuyên gia, tổ chức và cộng đồng không chuyên về kỹ thuật.
Thúc đẩy Sáng kiến An toàn AI (AI Safety) để thiết kế các yêu cầu và tiêu chuẩn báo cáo bắt buộc mới. Mặc dù các phát triển từ cộng đồng nhà phát triển được hoan nghênh, nhưng điều quan trọng là thông tin về dữ liệu đào tạo, thử nghiệm và tinh chỉnh này phải được các nhà phát triển mô hình cung cấp theo những cách nhất quán, được chuẩn hóa, để các cơ quan quản lý và những bên khác có thể dễ dàng diễn giải và so sánh cách các mô hình khác nhau đã được đào tạo. Các học giả Saffron Huang và Divya Siddarth đã mô tả nhu cầu về việc các cơ quan thiết lập tiêu chuẩn mới sẽ 'xác định địa điểm và hình thức phù hợp phát hành thông tin'. Bất kỳ chính phủ mới nào cũng nên tận dụng sự hợp tác quốc tế được thúc đẩy bởi Hội nghị thượng đỉnh về an toàn AI và đảm bảo rằng chế độ của Vương quốc Anh kết nối với thông lệ tốt nhất từ khắp nơi trên thế giới.
Không coi dữ liệu đào tạo là một chế tác tĩnh, đơn lẻ. Như nhà nghiên cứu Margaret Mitchell đã chỉ ra, ngay cả khi các công ty đã công bố thông tin về dữ liệu đào tạo mà họ đã sử dụng, họ vẫn có xu hướng chỉ tập trung vào dữ liệu "tinh chỉnh". Điều này rất quan trọng vì các tập dữ liệu "tiền đào tạo" lớn hơn, lộn xộn hơn có nhiều khả năng bao gồm nội dung có hại hoặc tài liệu có bản quyền. Chúng ta cần các công ty công bố thông tin chi tiết về thành phần và nguồn gốc của cả hai. Trong tương lai, chúng ta cũng nên mong đợi quyền tiếp cận tới thông tin về các loại dữ liệu khác nhau được sử dụng để đào tạo và áp dụng các hệ thống AI, bao gồm dữ liệu sở hữu độc quyền hoặc cục bộ địa phương được sử dụng trong quá trình học tăng cường, tăng cường cho việc học tập, truy xuất và triển khai các mô hình.

Tại ODI, chúng tôi mong muốn cung cấp thông tin chi tiết và tài nguyên cho các nhà hoạch định chính sách đang làm việc hướng đến việc tăng cường tính minh bạch xung quanh dữ liệu được sử dụng để đào tạo các mô hình AI, đặc biệt là để phát triển các tiêu chuẩn mở mới hoặc khám phá các cách để ghi lại thành tài liệu việc sử dụng dữ liệu sở hữu độc quyền hoặc cục bộ địa phương. Chúng tôi sẽ công bố thêm các biện pháp can thiệp được đề xuất trong những tuần tới, tập trung vào sở hữu trí tuệ, bảo vệ dữ liệu, tính sẵn sàng của dữ liệu và các hoạt động dữ liệu có sự tham gia.

Ý kiến bạn đọc

Bạn cần đăng nhập với tư cách là Thành viên chính thức để có thể bình luận

Những tin mới hơn

Những tin cũ hơn