Can thiệp chính sách 2: Cập nhật chế độ sở hữu trí tuệ của chúng ta để đảm bảo các mô hình AI được đào tạo công bằng

Thứ hai - 19/08/2024 18:58
Can thiệp chính sách 2: Cập nhật chế độ sở hữu trí tuệ của chúng ta để đảm bảo các mô hình AI được đào tạo công bằng

Policy intervention 2: Update our intellectual property regime to ensure AI models are trained fairly

Chúng ta cần một hệ thống công nhận và khen thưởng cho tính sáng tạo của con người, và dẫn dắt nghiên cứu và đổi mới mới.

Thu Jun 13, 2024

Theo: https://theodi.org/news-and-events/blog/policy-intervention-2-update-our-intellectual-property-regime-to-ensure-ai-models-are-trained-fairly/

Bài được đưa lên Internet ngày: 13/07/2024

Thời đại của AI nền tảng được đặc trưng bởi các mô hình có quy mô lớn và tính linh hoạt cao, có khả năng tạo ra đầu ra phong phú. Nhận thức được cả tiềm năng và rủi ro của các mô hình mới này, ODI đã bắt tay vào một chương trình làm việc về AI lấy dữ liệu làm trung tâm, được thiết kế để tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ liệu có trách nhiệm. Chúng tôi đang khám phá những can thiệp chính sách nào có thể được thực hiện để đảm bảo các công nghệ này được phát triển và triển khai theo cách có lợi cho tất cả mọi người - con người, các cộng đồng và các doanh nghiệp. Đây là bài thứ hai trong loạt năm bài khám phá các can thiệp này.

Sở hữu trí tuệ là gì và nó liên quan như thế nào tới việc đào tạo các mô hình AI?

Sở hữu trí tuệ đề cập đến các phát minh, thiết kế, tác phẩm nghệ thuật và các 'sáng tạo của trí óc' khác.

Luật sở hữu trí tuệ được thiết kế để cho phép mọi người kiếm được sự công nhận hoặc lợi ích tài chính từ những thứ họ tạo ra. Mặc dù luật pháp khác nhau trên toàn thế giới, nhưng hầu hết các chế độ đều tìm cách cân bằng lợi ích của người sáng tạo với lợi ích của công chúng nói chung.

Các nhà lập pháp nhận ra các kịch bản mà mọi người có thể sử dụng sở hữu trí tuệ của người khác một cách khá thoải mái. Khai thác văn bản và dữ liệu là một trong số đó. Nó bao gồm việc biên soạn một lượng lớn số liệu, văn bản và hình ảnh, thường là từ khắp nơi trên web, để tiết lộ những hiểu biết mới. Do tầm quan trọng của nó trong việc giải quyết kiểm duyệt và gian lận trên web, cũng như các nghiên cứu khác, nhiều quyền tài phán đã đưa ra các loại trừ đối với luật sở hữu trí tuệ để cho phép thực hiện khai thác văn bản và dữ liệu.

Nhưng trong khi nội dung của web đã bị thu thập trong nhiều thập kỷ và các loại trừ khai thác văn bản và dữ liệu đã được áp dụng, thì AI nền tảng đã gây sốc cho hệ thống sở hữu trí tuệ.

Trong bài viết này, chúng tôi chủ yếu tập trung vào văn bản, hình ảnh, âm thanh, video và tác phẩm nghệ thuật được phân phối rộng rãi trên web. Chúng tôi sẽ nói về các loại dữ liệu khác và về các tập dữ liệu mới được xây dựng riêng để đào tạo các mô hình AI trong một bài viết sau trong loạt bài này. Ngoài ra, trọng tâm của chúng tôi ở đây là về sở hữu trí tuệ trong quá trình đào tạo các mô hình AI, thay vì cách sở hữu trí tuệ có khả năng tiềm tàng áp dụng cho nội dung do AI tạo ra.

Tại sao sở hữu trí tuệ lại quan trọng trong bối cảnh AI nền tảng?

Các công ty AI đưa ra các lập luận khác nhau về lý do tại sao việc thu thập dữ liệu để đào tạo AI nên được phép. Những lập luận này bao gồm lý do cho rằng quy mô của các tập dữ liệu đào tạo hiện đại khiến việc đàm phán cấp phép trở nên bất khả thi hoặc lý do đằng sau hành động loại trừ việc khai thác văn bản và dữ liệu vẫn không thay đổi.

Nhiều người không đồng tình. Một số chủ sở hữu bản quyền lớn đã đưa các công ty AI ra tòa vì cách họ đào tạo mô hình của mình, một số yêu cầu bồi thường thiệt hại tài chính đáng kể hoặc thậm chí là phá hủy chúng. Ví dụ, Getty Images đang kiện Stability AI vì cáo buộc đào tạo mô hình AI của mình trên hơn 12 triệu bức ảnh mà không được phép hay đền bù. Vào tháng 7 năm 2023, tác giả Sarah Silverman đã kiện OpenAI vì sử dụng tập dữ liệu Books3 bao gồm các tác phẩm viết của hàng nghìn tác giả. Cùng thời điểm đó, một bức thư được hơn 8.000 tác giả ký tên lập luận rằng "hàng triệu cuốn sách, bài báo, tiểu luận và thơ có bản quyền cung cấp 'thức ăn' cho các hệ thống AI, những bữa ăn vô tận mà không có hóa đơn nào". Một cuộc khảo sát do Hiệp hội tác giả thực hiện cho thấy 90% các nhà văn tin rằng họ nên được đền bù nếu tác phẩm của họ được sử dụng để đào tạo các mô hình AI.

Việc đào tạo các mô hình dựa trên nội dung của web đã gây ra rạn nứt ngay cả trong các cộng đồng có ý định để các tác phẩm của họ được tiêu thụ rộng rãi. Trong năm 2023, nhiều diễn đàn lớn nhất của Reddit đã bị làm cho 'tối đen' để phản đối các kế hoạch của nền tảng này nhằm cho phép các nhà phát triển AI truy cập vào khối lượng lớn các thảo luận trên diễn đàn mà họ đã đóng vai trò quan trọng trong việc tạo ra chúng. Những người đóng góp cho Stack Overflow, một diễn đàn Internet dành cho các nhà phát triển, đã bị cấm khỏi trang web này sau khi họ xóa nội dung của mình để ngăn chặn việc sử dụng nội dung đó để đào tạo ChatGPT.

Do đó, cải cách chế độ sở hữu trí tuệ của Vương quốc Anh là chìa khóa để mang lại lợi ích của hệ sinh thái dữ liệu AI cho tất cả mọi người, cũng như đảm bảo chúng ta không bước vào "mùa đông dữ liệu". Theo Henry Farrell, "nếu bạn muốn Mô hình Ngôn ngữ Lớn - LLM (Large Language Model) có giá trị lâu dài, bạn cần phải có một hệ thống xã hội đi kèm, trong đó con người tiếp tục sản xuất kiến thức, nghệ thuật và thông tin khiến chúng trở nên có giá trị. Các hệ thống sở hữu trí tuệ không có động lực để sản xuất kiến thức có giá trị của con người sẽ khiến LLM ngày càng trở nên vô giá trị theo thời gian".

Tình hình chính sách hiện tại ở Vương quốc Anh và những nơi khác

Các nhà lập pháp về sở hữu trí tuệ đang phản ứng với AI nền tảng theo những cách khác nhau.

Một số quốc gia đang cố gắng tạo ra một chế độ cho phép đào tạo mô hình. Ví dụ, Đạo luật Bản quyền của Singapore được mô tả là "định vị Singapore như một trung tâm hấp dẫn cho các nhà phát triển AI". Những quốc gia khác quan tâm nhiều hơn đến việc tăng cường - hoặc ít nhất là thực thi - các biện pháp bảo vệ và kiểm soát của chủ sở hữu quyền hiện có. Tại EU, Chỉ thị về Bản quyền trong Thị trường Kỹ thuật số Đơn nhất cho phép khai thác văn bản và dữ liệu chỉ cho mục đích nghiên cứu khoa học và chủ sở hữu quyền có thể chọn không cho phép sử dụng tác phẩm của họ cho mục đích đào tạo AI thương mại. Đạo luật AI mới nêu rõ rằng bất kỳ công ty nào đưa mô hình AI mục đích chung vào thị trường EU đều phải tuân thủ đạo luật này, bất kể mô hình của họ được đào tạo ở đâu.

Vương quốc Anh dường như không chắc chắn phải làm gì về vấn đề này. Quay trở lại năm 2014, Chính phủ Vương quốc Anh đã đưa ra một ngoại lệ cho phép khai thác văn bản và dữ liệu chỉ dành cho "nghiên cứu phi thương mại". Năm 2020, Chính phủ Vương quốc Anh cho biết họ có ý định tách khỏi EU để cho phép khai thác văn bản và dữ liệu tại Vương quốc Anh cho bất kỳ mục đích nào, trên cơ sở rằng những thay đổi này có thể "giúp Vương quốc Anh cạnh tranh hơn với tư cách là một địa điểm cho các công ty khai thác dữ liệu". Sau khuyến nghị của Ngài Patrick Vallance rằng mối quan hệ giữa sở hữu trí tuệ và các hình thức AI mới cần được làm rõ, Chính phủ Vương quốc Anh đã lùi bước và thay vào đó bắt đầu làm việc với các nhà xuất bản và nhà phát triển AI để thống nhất về một "bộ quy tắc thực hành". Tuy nhiên, vào tháng 2 năm 2024, Chính phủ Vương quốc Anh kết luận rằng "nhóm làm việc sẽ không thể thống nhất về một bộ quy tắc tự nguyện có hiệu lực".

Gần đây hơn, Ủy ban Khoa học, Đổi mới và Công nghệ của Hạ viện đã kết luận rằng một chính phủ hướng nội nên kết thúc các cuộc thảo luận này, đề xuất một giải pháp tài chính cho "các hành vi vi phạm trong quá khứ của các nhà phát triển AI" cũng như một khung cấp phép mới và thẩm quyền của chính phủ để giám sát nó.

Đề xuất từ xã hội dân sự, giới công nghiệp và các tác nhân phi chính phủ khác

Ở một mức độ nào đó, thị trường đang bắt đầu phản ứng. Những người nắm giữ bản quyền lớn - bao gồm các hãng tin tức, hãng thu âm, hãng phim - đã có động thái thực hiện các thỏa thuận cấp phép với các công ty AI. Riêng OpenAI đã ký các thỏa thuận với Associated Press, ShutterstockAxel Springer. Thỏa thuận của Google với Reddit để truy cập vào dữ liệu diễn đàn của mình được cho là trị giá 60 triệu đô la mỗi năm. Các nhà phát triển mô hình KL3M đưa ra một điểm bán hàng để thể hiện là nó được đào tạo trên 'một tập dữ liệu đào tạo được giám tuyển gồm các tài liệu pháp lý, tài chính và quy định', dành cho các khách hàng 'không muốn bị lôi kéo vào các vụ kiện về sở hữu trí tuệ như OpenAI, Stability AI và những công ty khác đã từng bị'. Fairly Trained là một tổ chức phi lợi nhuận mới được thành lập để chứng nhận rằng các công ty AI đã đào tạo các mô hình của họ dựa trên nội dung được cấp phép.

Nhưng rốt cuộc ai sẽ hưởng lợi từ một hệ sinh thái AI phụ thuộc vào việc cấp phép tốn kém? Clement Delangue, CEO của Hugging Face, đã gợi ý rằng 'nếu chúng ta kết thúc trong một hệ thống mà bạn chỉ có thể đào tạo các mô hình AI tốt dựa trên dữ liệu được cấp phép $$, thì sẽ có nguy cơ có sự tập trung quyền lực rất lớn. Có thể không phải người dùng, nghệ sĩ hoặc người sáng tạo nội dung sẽ được hưởng lợi từ điều này mà là các công ty lớn và hãng phim Hollywood sẽ giao dịch quyền của họ và không phân phối lại'. Theo Sáng kiến Nguồn mở, một hệ sinh thái AI phụ thuộc quá nhiều vào việc cấp phép có thể trở nên kém đa dạng và cạnh tranh hơn, vì các công ty nhỏ và các học giả không có đủ khả năng tài chính để ra tòa hoặc ký kết các thỏa thuận song phương để cấp phép cho dữ liệu.

Ngoài ra còn có các nỗ lực mới nhằm tạo ra các cơ chế cho những người nắm giữ quyền nhỏ hơn, cá nhân riêng lẻ kiểm soát cách sử dụng các tác phẩm của họ. Đôi khi được mô tả là 'các mức đồng ý cho AI' hoặc 'dấu hiệu ưu tiên', chúng bao gồm các giao thức xuất bản web mới (ví dụ: Giao thức Đặt chỗ Khai thác Dữ liệu và Văn bản của W3C), các công cụ kỹ thuật (ví dụ: Nightshade) và giấy phép dữ liệu (ví dụ: Giấy phép Dữ liệu Mở Chung - [Open Data Commons Licences]).

Mặc dù những điều này có thể hiệu quả với một số nhà xuất bản nhất định, nhưng chúng ta không thể dựa vào chúng để giải quyết câu đố về sở hữu trí tuệ. Như Arvind Narayanan đã lập luận, 'quyền từ chối là một cơ chế quản lý không hiệu quả. Các vấn đề về cấu trúc với mô hình kinh doanh của các công ty AI tạo sinh (Generative AI) — và bối cảnh pháp lý khiến chúng trở nên khả thi — không thể được giải quyết bằng cách bắt cá nhân phải xóa từng hình ảnh của họ'. Creative Commons đã bày tỏ lo ngại rằng 'nếu các dấu hiệu ưu tiên được triển khai rộng rãi chỉ để hạn chế [việc sử dụng dữ liệu], thì đó có thể là tổn thất ròng cho các tài sản chung... những dấu hiệu này có thể được sử dụng theo cách hạn chế quá mức đối với việc thể hiện'.

Các bước cần thực hiện

Chúng tôi nhận thức rằng Chính phủ Anh sắp nhậm chức sẽ ở trong tình thế khó khăn. Họ sẽ muốn Vương quốc Anh tiếp tục được coi là nơi phát triển AI, điều này đòi hỏi một chế độ bản quyền khá dễ dãi, nhưng họ cũng sẽ phải bảo vệ lợi ích của các ngành công nghiệp sáng tạo quan trọng của chúng ta.

Để hiện đại hóa chế độ sở hữu trí tuệ của Vương quốc Anh, chúng tôi khuyến nghị rằng Chính phủ Anh sắp nhậm chức:

Tại ODI, chúng tôi mong muốn cung cấp thông tin chi tiết và nguồn lực cho các nhà hoạch định chính sách đang nỗ lực tạo ra một chế độ sở hữu trí tuệ công bằng để ứng phó với AI nền tảng.

Chúng tôi cũng sẽ công bố thêm các lập luận liên quan về sự can thiệp của chính sách trong những tuần tới, tập trung vào bảo vệ dữ liệu, tính sẵn sàng của các tập dữ liệu đào tạo AI phạm vi rộng có cấu trúc hơn và các hoạt động dữ liệu có sự tham gia.

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Những tin mới hơn

Những tin cũ hơn

GIÁO DỤC MỞ - TÀI NGUYÊN GIÁO DỤC MỞ: ỨNG DỤNG VÀ PHÁT TRIỂN

Trang Web này được thành lập theo Quyết định số 142/QĐ-HH do Chủ tịch Hiệp hội các trường đại học, cao đẳng Việt Nam – AVU&C (Association of Vietnam Universities and Colleges), GS.TS. Trần Hồng Quân ký ngày 16/09/2019, ngay trước thềm của Hội thảo ‘Xây dựng và khai thác tài nguyên giáo dục mở’ do 5...

Thống kê truy cập
  • Đang truy cập46
  • Máy chủ tìm kiếm6
  • Khách viếng thăm40
  • Hôm nay10,321
  • Tháng hiện tại142,652
  • Tổng lượt truy cập7,020,681
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây