Can thiệp chính sách 2: Cập nhật chế độ sở hữu trí tuệ của chúng ta để đảm bảo các mô hình AI được đào tạo công bằng

Thứ ba - 20/08/2024 05:58

Policy intervention 2: Update our intellectual property regime to ensure AI models are trained fairly

Chúng ta cần một hệ thống công nhận và khen thưởng cho tính sáng tạo của con người, và dẫn dắt nghiên cứu và đổi mới mới.

Thu Jun 13, 2024

Theo: https://theodi.org/news-and-events/blog/policy-intervention-2-update-our-intellectual-property-regime-to-ensure-ai-models-are-trained-fairly/

Bài được đưa lên Internet ngày: 13/07/2024

Thời đại của AI nền tảng được đặc trưng bởi các mô hình có quy mô lớn và tính linh hoạt cao, có khả năng tạo ra đầu ra phong phú. Nhận thức được cả tiềm năng và rủi ro của các mô hình mới này, ODI đã bắt tay vào một chương trình làm việc về AI lấy dữ liệu làm trung tâm, được thiết kế để tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ liệu có trách nhiệm. Chúng tôi đang khám phá những can thiệp chính sách nào có thể được thực hiện để đảm bảo các công nghệ này được phát triển và triển khai theo cách có lợi cho tất cả mọi người - con người, các cộng đồng và các doanh nghiệp. Đây là bài thứ hai trong loạt năm bài khám phá các can thiệp này.

Sở hữu trí tuệ là gì và nó liên quan như thế nào tới việc đào tạo các mô hình AI?

Sở hữu trí tuệ đề cập đến các phát minh, thiết kế, tác phẩm nghệ thuật và các 'sáng tạo của trí óc' khác.

Luật sở hữu trí tuệ được thiết kế để cho phép mọi người kiếm được sự công nhận hoặc lợi ích tài chính từ những thứ họ tạo ra. Mặc dù luật pháp khác nhau trên toàn thế giới, nhưng hầu hết các chế độ đều tìm cách cân bằng lợi ích của người sáng tạo với lợi ích của công chúng nói chung.

Các nhà lập pháp nhận ra các kịch bản mà mọi người có thể sử dụng sở hữu trí tuệ của người khác một cách khá thoải mái. Khai thác văn bản và dữ liệu là một trong số đó. Nó bao gồm việc biên soạn một lượng lớn số liệu, văn bản và hình ảnh, thường là từ khắp nơi trên web, để tiết lộ những hiểu biết mới. Do tầm quan trọng của nó trong việc giải quyết kiểm duyệt và gian lận trên web, cũng như các nghiên cứu khác, nhiều quyền tài phán đã đưa ra các loại trừ đối với luật sở hữu trí tuệ để cho phép thực hiện khai thác văn bản và dữ liệu.

Nhưng trong khi nội dung của web đã bị thu thập trong nhiều thập kỷ và các loại trừ khai thác văn bản và dữ liệu đã được áp dụng, thì AI nền tảng đã gây sốc cho hệ thống sở hữu trí tuệ.

Trong bài viết này, chúng tôi chủ yếu tập trung vào văn bản, hình ảnh, âm thanh, video và tác phẩm nghệ thuật được phân phối rộng rãi trên web. Chúng tôi sẽ nói về các loại dữ liệu khác và về các tập dữ liệu mới được xây dựng riêng để đào tạo các mô hình AI trong một bài viết sau trong loạt bài này. Ngoài ra, trọng tâm của chúng tôi ở đây là về sở hữu trí tuệ trong quá trình đào tạo các mô hình AI, thay vì cách sở hữu trí tuệ có khả năng tiềm tàng áp dụng cho nội dung do AI tạo ra.

Tại sao sở hữu trí tuệ lại quan trọng trong bối cảnh AI nền tảng?

Các công ty AI đưa ra các lập luận khác nhau về lý do tại sao việc thu thập dữ liệu để đào tạo AI nên được phép. Những lập luận này bao gồm lý do cho rằng quy mô của các tập dữ liệu đào tạo hiện đại khiến việc đàm phán cấp phép trở nên bất khả thi hoặc lý do đằng sau hành động loại trừ việc khai thác văn bản và dữ liệu vẫn không thay đổi.

Nhiều người không đồng tình. Một số chủ sở hữu bản quyền lớn đã đưa các công ty AI ra tòa vì cách họ đào tạo mô hình của mình, một số yêu cầu bồi thường thiệt hại tài chính đáng kể hoặc thậm chí là phá hủy chúng. Ví dụ, Getty Images đang kiện Stability AI vì cáo buộc đào tạo mô hình AI của mình trên hơn 12 triệu bức ảnh mà không được phép hay đền bù. Vào tháng 7 năm 2023, tác giả Sarah Silverman đã kiện OpenAI vì sử dụng tập dữ liệu Books3 bao gồm các tác phẩm viết của hàng nghìn tác giả. Cùng thời điểm đó, một bức thư được hơn 8.000 tác giả ký tên lập luận rằng "hàng triệu cuốn sách, bài báo, tiểu luận và thơ có bản quyền cung cấp 'thức ăn' cho các hệ thống AI, những bữa ăn vô tận mà không có hóa đơn nào". Một cuộc khảo sát do Hiệp hội tác giả thực hiện cho thấy 90% các nhà văn tin rằng họ nên được đền bù nếu tác phẩm của họ được sử dụng để đào tạo các mô hình AI.

Việc đào tạo các mô hình dựa trên nội dung của web đã gây ra rạn nứt ngay cả trong các cộng đồng có ý định để các tác phẩm của họ được tiêu thụ rộng rãi. Trong năm 2023, nhiều diễn đàn lớn nhất của Reddit đã bị làm cho 'tối đen' để phản đối các kế hoạch của nền tảng này nhằm cho phép các nhà phát triển AI truy cập vào khối lượng lớn các thảo luận trên diễn đàn mà họ đã đóng vai trò quan trọng trong việc tạo ra chúng. Những người đóng góp cho Stack Overflow, một diễn đàn Internet dành cho các nhà phát triển, đã bị cấm khỏi trang web này sau khi họ xóa nội dung của mình để ngăn chặn việc sử dụng nội dung đó để đào tạo ChatGPT.

Do đó, cải cách chế độ sở hữu trí tuệ của Vương quốc Anh là chìa khóa để mang lại lợi ích của hệ sinh thái dữ liệu AI cho tất cả mọi người, cũng như đảm bảo chúng ta không bước vào "mùa đông dữ liệu". Theo Henry Farrell, "nếu bạn muốn Mô hình Ngôn ngữ Lớn - LLM (Large Language Model) có giá trị lâu dài, bạn cần phải có một hệ thống xã hội đi kèm, trong đó con người tiếp tục sản xuất kiến thức, nghệ thuật và thông tin khiến chúng trở nên có giá trị. Các hệ thống sở hữu trí tuệ không có động lực để sản xuất kiến thức có giá trị của con người sẽ khiến LLM ngày càng trở nên vô giá trị theo thời gian".

Tình hình chính sách hiện tại ở Vương quốc Anh và những nơi khác

Các nhà lập pháp về sở hữu trí tuệ đang phản ứng với AI nền tảng theo những cách khác nhau.

Một số quốc gia đang cố gắng tạo ra một chế độ cho phép đào tạo mô hình. Ví dụ, Đạo luật Bản quyền của Singapore được mô tả là "định vị Singapore như một trung tâm hấp dẫn cho các nhà phát triển AI". Những quốc gia khác quan tâm nhiều hơn đến việc tăng cường - hoặc ít nhất là thực thi - các biện pháp bảo vệ và kiểm soát của chủ sở hữu quyền hiện có. Tại EU, Chỉ thị về Bản quyền trong Thị trường Kỹ thuật số Đơn nhất cho phép khai thác văn bản và dữ liệu chỉ cho mục đích nghiên cứu khoa học và chủ sở hữu quyền có thể chọn không cho phép sử dụng tác phẩm của họ cho mục đích đào tạo AI thương mại. Đạo luật AI mới nêu rõ rằng bất kỳ công ty nào đưa mô hình AI mục đích chung vào thị trường EU đều phải tuân thủ đạo luật này, bất kể mô hình của họ được đào tạo ở đâu.

Vương quốc Anh dường như không chắc chắn phải làm gì về vấn đề này. Quay trở lại năm 2014, Chính phủ Vương quốc Anh đã đưa ra một ngoại lệ cho phép khai thác văn bản và dữ liệu chỉ dành cho "nghiên cứu phi thương mại". Năm 2020, Chính phủ Vương quốc Anh cho biết họ có ý định tách khỏi EU để cho phép khai thác văn bản và dữ liệu tại Vương quốc Anh cho bất kỳ mục đích nào, trên cơ sở rằng những thay đổi này có thể "giúp Vương quốc Anh cạnh tranh hơn với tư cách là một địa điểm cho các công ty khai thác dữ liệu". Sau khuyến nghị của Ngài Patrick Vallance rằng mối quan hệ giữa sở hữu trí tuệ và các hình thức AI mới cần được làm rõ, Chính phủ Vương quốc Anh đã lùi bước và thay vào đó bắt đầu làm việc với các nhà xuất bản và nhà phát triển AI để thống nhất về một "bộ quy tắc thực hành". Tuy nhiên, vào tháng 2 năm 2024, Chính phủ Vương quốc Anh kết luận rằng "nhóm làm việc sẽ không thể thống nhất về một bộ quy tắc tự nguyện có hiệu lực".

Gần đây hơn, Ủy ban Khoa học, Đổi mới và Công nghệ của Hạ viện đã kết luận rằng một chính phủ hướng nội nên kết thúc các cuộc thảo luận này, đề xuất một giải pháp tài chính cho "các hành vi vi phạm trong quá khứ của các nhà phát triển AI" cũng như một khung cấp phép mới và thẩm quyền của chính phủ để giám sát nó.

Đề xuất từ xã hội dân sự, giới công nghiệp và các tác nhân phi chính phủ khác

Ở một mức độ nào đó, thị trường đang bắt đầu phản ứng. Những người nắm giữ bản quyền lớn - bao gồm các hãng tin tức, hãng thu âm, hãng phim - đã có động thái thực hiện các thỏa thuận cấp phép với các công ty AI. Riêng OpenAI đã ký các thỏa thuận với Associated Press, Shutterstock và Axel Springer. Thỏa thuận của Google với Reddit để truy cập vào dữ liệu diễn đàn của mình được cho là trị giá 60 triệu đô la mỗi năm. Các nhà phát triển mô hình KL3M đưa ra một điểm bán hàng để thể hiện là nó được đào tạo trên 'một tập dữ liệu đào tạo được giám tuyển gồm các tài liệu pháp lý, tài chính và quy định', dành cho các khách hàng 'không muốn bị lôi kéo vào các vụ kiện về sở hữu trí tuệ như OpenAI, Stability AI và những công ty khác đã từng bị'. Fairly Trained là một tổ chức phi lợi nhuận mới được thành lập để chứng nhận rằng các công ty AI đã đào tạo các mô hình của họ dựa trên nội dung được cấp phép.

Nhưng rốt cuộc ai sẽ hưởng lợi từ một hệ sinh thái AI phụ thuộc vào việc cấp phép tốn kém? Clement Delangue, CEO của Hugging Face, đã gợi ý rằng 'nếu chúng ta kết thúc trong một hệ thống mà bạn chỉ có thể đào tạo các mô hình AI tốt dựa trên dữ liệu được cấp phép $$, thì sẽ có nguy cơ có sự tập trung quyền lực rất lớn. Có thể không phải người dùng, nghệ sĩ hoặc người sáng tạo nội dung sẽ được hưởng lợi từ điều này mà là các công ty lớn và hãng phim Hollywood sẽ giao dịch quyền của họ và không phân phối lại'. Theo Sáng kiến Nguồn mở, một hệ sinh thái AI phụ thuộc quá nhiều vào việc cấp phép có thể trở nên kém đa dạng và cạnh tranh hơn, vì các công ty nhỏ và các học giả không có đủ khả năng tài chính để ra tòa hoặc ký kết các thỏa thuận song phương để cấp phép cho dữ liệu.

Ngoài ra còn có các nỗ lực mới nhằm tạo ra các cơ chế cho những người nắm giữ quyền nhỏ hơn, cá nhân riêng lẻ kiểm soát cách sử dụng các tác phẩm của họ. Đôi khi được mô tả là 'các mức đồng ý cho AI' hoặc 'dấu hiệu ưu tiên', chúng bao gồm các giao thức xuất bản web mới (ví dụ: Giao thức Đặt chỗ Khai thác Dữ liệu và Văn bản của W3C), các công cụ kỹ thuật (ví dụ: Nightshade) và giấy phép dữ liệu (ví dụ: Giấy phép Dữ liệu Mở Chung - [Open Data Commons Licences]).

Mặc dù những điều này có thể hiệu quả với một số nhà xuất bản nhất định, nhưng chúng ta không thể dựa vào chúng để giải quyết câu đố về sở hữu trí tuệ. Như Arvind Narayanan đã lập luận, 'quyền từ chối là một cơ chế quản lý không hiệu quả. Các vấn đề về cấu trúc với mô hình kinh doanh của các công ty AI tạo sinh (Generative AI) — và bối cảnh pháp lý khiến chúng trở nên khả thi — không thể được giải quyết bằng cách bắt cá nhân phải xóa từng hình ảnh của họ'. Creative Commons đã bày tỏ lo ngại rằng 'nếu các dấu hiệu ưu tiên được triển khai rộng rãi chỉ để hạn chế [việc sử dụng dữ liệu], thì đó có thể là tổn thất ròng cho các tài sản chung... những dấu hiệu này có thể được sử dụng theo cách hạn chế quá mức đối với việc thể hiện'.

Các bước cần thực hiện

Chúng tôi nhận thức rằng Chính phủ Anh sắp nhậm chức sẽ ở trong tình thế khó khăn. Họ sẽ muốn Vương quốc Anh tiếp tục được coi là nơi phát triển AI, điều này đòi hỏi một chế độ bản quyền khá dễ dãi, nhưng họ cũng sẽ phải bảo vệ lợi ích của các ngành công nghiệp sáng tạo quan trọng của chúng ta.

Để hiện đại hóa chế độ sở hữu trí tuệ của Vương quốc Anh, chúng tôi khuyến nghị rằng Chính phủ Anh sắp nhậm chức:

Tránh đạt được một giải pháp chung cho tất cả. Chúng ta không được hướng tới một tương lai mà các quy tắc áp dụng cho âm nhạc hoặc nghệ thuật được ghi âm cũng được áp dụng cho các bài báo khoa học và dữ liệu được sử dụng cho nghiên cứu y khoa. "Một chuyện là để chủ sở hữu bản quyền của một bản ghi âm nhạc phổ biến từ chối tham gia cơ sở dữ liệu; một chuyện khác là để một bài báo khoa học quan trọng bị bỏ qua do tranh chấp cấp phép". Trong khi hệ thống sở hữu trí tuệ của Vương quốc Anh nên công nhận và khen thưởng cho sự thể hiện của con người trong thời đại của AI nền tảng, bao gồm thông qua các phương pháp tiếp cận mới cho việc đánh tín hiệu ưu tiên, Chính phủ Vương quốc Anh mới nên làm rõ phạm vi của các ngoại lệ khai thác dữ liệu và văn bản của mình. Cũng không nên quên tầm quan trọng của các chính sách dữ liệu mở và truy cập mở để thúc đẩy khoa học, đổi mới và kiến thức.
Hỗ trợ quản trị tập thể, thương lượng và quản lý quyền. Vương quốc Anh có một số Tổ chức quản lý tập thể quản lý sở hữu trí tuệ thay mặt cho các ngành công nghiệp sáng tạo khác nhau. Các tổ chức này có thể được giao nhiệm vụ rõ ràng và được hỗ trợ để đàm phán với các nhà phát triển AI trong tương lai. Cách tiếp cận này có thể vay mượn từ những diễn biến ở nơi khác, chẳng hạn như chương trình cấp phép mới của Singapore dành cho Tổ chức Quản lý Tập thể và đề xuất của Quốc hội Pháp về việc các công ty AI phải trả thuế cho Tổ chức Quản lý Tập thể khi họ xây dựng thứ gì đó bằng "các tác phẩm có nguồn gốc không xác định".
Tìm kiếm sự thống nhất. Với bản chất toàn cầu của quá trình phát triển mô hình nền tảng, Chính phủ Anh sắp tới sẽ cần cập nhật chế độ sở hữu trí tuệ theo cách thống nhất với với các quyền tài phán khác. Chính phủ nên thực hiện điều này thông qua sự tham gia của Văn phòng Sở hữu trí tuệ Thế giới cũng như các nhóm khác đang thúc đẩy sự phát triển trong lĩnh vực này, chẳng hạn như công việc của Đối tác toàn cầu về AI nhằm chuẩn hóa các điều khoản cấp phép dữ liệu và Hội đồng thống nhất về AI và Commons của OpenFuture. Một lĩnh vực mà sự hợp tác và hài hòa với các quốc gia khác sẽ đặc biệt quan trọng là việc tiêu chuẩn hóa các cách thức các nhà xuất bản có thể bày tỏ liệu họ có hài lòng khi các tác phẩm của mình được sử dụng để đào tạo các mô hình hay không.

Tại ODI, chúng tôi mong muốn cung cấp thông tin chi tiết và nguồn lực cho các nhà hoạch định chính sách đang nỗ lực tạo ra một chế độ sở hữu trí tuệ công bằng để ứng phó với AI nền tảng.

Chúng tôi cũng sẽ công bố thêm các lập luận liên quan về sự can thiệp của chính sách trong những tuần tới, tập trung vào bảo vệ dữ liệu, tính sẵn sàng của các tập dữ liệu đào tạo AI phạm vi rộng có cấu trúc hơn và các hoạt động dữ liệu có sự tham gia.

Ý kiến bạn đọc

Bạn cần đăng nhập với tư cách là Thành viên chính thức để có thể bình luận

Những tin mới hơn

Những tin cũ hơn