Can thiệp chính sách 3: Thực thi quyền của mọi người trong chuỗi cung ứng dữ liệu

Thứ ba - 20/08/2024 19:00

Policy intervention 3: Enforcing people’s rights in the data supply chain

Chúng ta phải tránh khoảng trống thực thi trong quy trình đào tạo, tinh chỉnh và kiểm thử các mô hình AI nền tảng.

Wed Jun 26, 2024

Theo: https://theodi.org/news-and-events/blog/policy-intervention-3-enforcing-peoples-rights-in-the-data-supply-chain/

Bài được đưa lên Internet ngày: 26/06/2024

Thời đại của AI nền tảng được đặc trưng bởi các mô hình có quy mô lớn và tính linh hoạt cao, có khả năng tạo ra đầu ra phong phú. Nhận thức được cả tiềm năng và rủi ro của các mô hình mới này, ODI đã bắt tay vào một chương trình làm việc về AI lấy dữ liệu làm trung tâm, được thiết kế để tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ liệu có trách nhiệm. Chúng tôi đang khám phá những can thiệp chính sách nào có thể được thực hiện để đảm bảo các công nghệ này được phát triển và triển khai theo cách có lợi cho tất cả mọi người - con người, các cộng đồng và các doanh nghiệp. Đây là bài thứ ba trong loạt năm bài khám phá các can thiệp này.

Mọi người tham gia trong chuỗi cung ứng dữ liệu như thế nào?

Có sự tham gia đáng kể của con người đằng sau dữ liệu được sử dụng để đào tạo các mô hình AI nền tảng. Con người thực hiện các nhiệm vụ mà các mô hình máy tính khó có thể sao chép, chẳng hạn như thu thập dữ liệu, lọc và kiểm duyệt dữ liệu và dán nhãn dữ liệu.

Thị trường toàn cầu cho loại công việc dữ liệu này được định giá 2 tỷ đô la vào năm 2022 và dự kiến sẽ tăng lên 17 tỷ đô la vào năm 2030. Hầu hết công việc này ở dạng 'nhiệm vụ nhỏ', được thực hiện ở các quốc gia có thu nhập thấp và trung bình. Theo The Washington Post, chỉ riêng ở Philippines đã có hơn hai triệu người thực hiện loại công việc này, bao gồm dán nhãn người đi bộ cho các thuật toán lái xe tự động, dán nhãn ảnh của người nổi tiếng và chỉnh sửa các đoạn văn bản để 'đảm bảo các mô hình ngôn ngữ như ChatGPT không tạo ra thứ vô nghĩa'.

Nhiều tập dữ liệu AI cũng sẽ bao gồm dữ liệu về con người, bao gồm tên, hình ảnh và thông tin vị trí. Dữ liệu này có thể đã được thu thập từ các nguồn công khai trên web hoặc được các dịch vụ mà chúng tôi tham gia thu thập và sử dụng - cho dù chúng tôi sử dụng chúng cho mục đích giải trí hay công việc. Mặc dù các định nghĩa khác nhau tùy theo quyền tài phán, dữ liệu về người được luật pháp công nhận là 'dữ liệu cá nhân'.

Mặc dù bảo vệ dữ liệu và quyền lao động đại diện cho các quan điểm và lợi ích khác nhau, chúng tôi sẽ giải quyết chúng cùng nhau trong bài viết này. Cuối cùng, cả hai đều liên quan đến việc bảo vệ các quyền và quyền tự do cơ bản, và chúng tôi thấy một rủi ro tương tự trong cả hai lĩnh vực, theo đó sự gia tăng của AI nền tảng đe dọa đến việc thực thi các biện pháp bảo vệ hiện có. Như chúng tôi sẽ thảo luận, cũng có một sự hợp lưu hữu ích giữa hai lĩnh vực này đang nổi lên.

Có một số chủ đề mà chúng tôi sẽ không đề cập ở đây. Quan điểm mở rộng về quyền lao động và chuỗi cung ứng AI cũng sẽ bao gồm những người lao động không liên quan đến dữ liệu, chẳng hạn như những người khai thác khoáng sản được sử dụng trong các thành phần máy tính, nhưng chúng tôi nhận thức được rằng chuyên môn của mình trong lĩnh vực này có hạn. Và chúng tôi sẽ giải quyết vấn đề sở hữu trí tuệ trong bối cảnh đào tạo các mô hình AI trong một bài đăng riêng trong loạt bài này.

Vì sao quyền lao động và bảo vệ dữ liệu lại quan trọng trong bối cảnh AI nền tảng?

Có một số rủi ro đối với điều kiện lao động và quyền trong chuỗi cung ứng dữ liệu.

Đầu tiên, những người lao động dữ liệu có thể tiếp xúc với những hình ảnh gây khó chịu và ngôn ngữ bạo lực. Một người lao động có hơn bảy năm làm việc trong nhóm cộng đồng đã mô tả rằng, mặc dù họ đã tiếp xúc với nội dung tự tử có hình ảnh, nhưng không nhận được cảnh báo về nội dung, không được tư vấn và không có đường dây nóng về tự tử.

Người lao động cũng có quyền được hưởng mức sống và an sinh xã hội. Tuy nhiên, một cuộc điều tra của tạp chí Time năm 2023 phát hiện ra rằng những người lao động AI ở Kenya được trả lương chưa đến 2 đô la một giờ và được phân loại là nhà thầu độc lập, không có các biện pháp bảo vệ an sinh xã hội như bảo hiểm y tế, đóng góp lương hưu và nghỉ phép có lương. Cũng có những cáo buộc về việc phá vỡ công đoàn và sa thải hàng loạt sau cuộc đình công năm 2019. Tình trạng bấp bênh này - kết hợp với việc kiểm duyệt nội dung một cách cực đoan - đã dẫn đến một cuộc khủng hoảng sức khỏe t inh thần trong số một số nhân viên dữ liệu Kenya. Một cuộc điều tra khác về các công ty làm chú thích dữ liệu đã mô tả một hệ thống mà biên lợi nhuận cao được ưu tiên hơn quyền và sự an toàn của người lao động. Các cuộc điều tra khác đã phát hiện ra rằng công việc dán nhãn dữ liệu được thực hiện bởi những người chưa thành niên.

Những người lao động làm việc với dữ liệu có xu hướng có quyền truy cập hạn chế tới các biện pháp khắc phục và giải quyết khiếu nại hiệu quả. Trong một số trường hợp, các công ty vẫn ẩn danh, biến mất và xuất hiện trở lại thường xuyên, khiến việc theo dõi và ngăn chặn những kẻ xấu trở nên vô cùng khó khăn. Một báo cáo của Aapti cho UNDP đã mô tả cách người lao động có thể bị phạt và bị loại khỏi hệ thống sau khi xếp hạng thấp hơn.

Những rủi ro này đối với quyền lao động có liên quan đến bất kỳ tổ chức nào của Anh sử dụng các mô hình AI đã được đào tạo ở nơi khác. Nhưng do thiếu minh bạch xung quanh dữ liệu được sử dụng để đào tạo nhiều mô hình AI phổ biến, các tổ chức thậm chí có thể không nhận thức được mức độ phụ thuộc của họ vào lực lượng lao động này.

Theo quan điểm bảo vệ dữ liệu, các mô hình AI nền tảng có nguy cơ mở rộng Khoảng trống thực thi bảo vệ dữ liệu, theo đó, tính nghiêm ngặt của các quy định xung quanh dữ liệu cá nhân, trên giấy tờ, không phù hợp với hoạt động của các tổ chức trong thế giới thực. Ví dụ, các mô hình AI nền tảng được đào tạo bằng cách sử dụng lượng lớn dữ liệu được thu thập từ khắp web, với nhiều nhà phát triển mô hình dường như nghĩ rằng bất kỳ dữ liệu công khai nào cũng là trò chơi công bằng. Kết quả là, mười hai cơ quan bảo vệ dữ liệu quốc gia, bao gồm Văn phòng Ủy viên thông tin của Vương quốc Anh, đã xuất bản một tuyên bố chung để làm rõ rằng việc thu thập hàng loạt thông tin cá nhân từ web để đào tạo AI có thể cấu thành hành vi vi phạm dữ liệu có thể báo cáo ở nhiều quyền tài phán.

Nhiều công ty hiện cũng đang thay đổi các điều khoản dịch vụ của họ để cho phép họ sử dụng dữ liệu do người dùng tạo ra để đào tạo các mô hình AI mới. Meta gần đây đã công bố những thay đổi đối với chính sách về quyền riêng tư của mình, tin rằng họ có lợi ích hợp pháp để phủ nhận quyền bảo vệ dữ liệu của người dùng để phát triển 'công nghệ trí tuệ nhân tạo'. Max Schrems, một nhà hoạt động bảo vệ dữ liệu và luật sư đã chỉ trích những thay đổi này vì sự mơ hồ của chúng và cho biết rằng 'điều này rõ ràng là trái ngược với việc tuân thủ [bảo vệ dữ liệu]'.

Và trong khi trọng tâm chủ yếu là đưa dữ liệu cá nhân vào đào tạo AI nền tảng, có thể có thêm những thách thức về bảo vệ dữ liệu ở hạ nguồn. Các nhà nghiên cứu đã chỉ ra rằng ChatGPT có thể "rò rỉ" dữ liệu dựa trên đó mô hình cơ bản của nó được đào tạo.

Tình trạng chính sách hiện tại ở Vương quốc Anh và những nơi khác

Vào tháng 3 năm 2023, cơ quan bảo vệ dữ liệu của Ý đã tạm thời đình chỉ việc sử dụng ChatGPT vì lo ngại về việc xử lý dữ liệu cá nhân để đào tạo hệ thống. Lệnh cấm này đã được dỡ bỏ trước khi các nhà chức trách Ý phát hiện thêm các hành vi vi phạm quyền riêng tư dữ liệu vào tháng 1 năm 2024. Tại Hoa Kỳ, một vụ kiện ở California đã tuyên bố rằng các mô hình nền tảng của OpenAI đã được đào tạo bất hợp pháp dựa trên các cuộc trò chuyện riêng tư, dữ liệu và thông tin y tế về trẻ em.

Thông báo về cuộc Tổng tuyển cử năm 2024 đã cắt giảm bớt việc thông qua Dự luật Bảo vệ dữ liệu và Thông tin kỹ thuật số (DPDI) mới của Vương quốc Anh thông qua quá trình lập pháp. ODI trước đó đã chia sẻ sự thất vọng của chúng tôi rằng Dự luật được đề xuất sẽ làm suy yếu tính minh bạch, quyền và biện pháp bảo vệ.

Chính phủ Anh ít đề cập đến chuỗi cung ứng dữ liệu cho các mô hình AI hoặc ngành công nghiệp dán nhãn dữ liệu của riêng quốc gia này. Mặc dù các thị trường lớn nhất nằm ở các nền kinh tế có mức lương thấp, nhưng vẫn có một số công ty có trụ sở tại Anh - chẳng hạn như Prolific và Snorkel AI.

Các tổ chức của Anh ở cả khu vực công và tư hiện đang sử dụng các mô hình được đào tạo trước, trong đó công việc dữ liệu, chẳng hạn như dán nhãn, đào tạo và thử nghiệm, đã hoàn tấ t rồi. Tuy nhiên, các chuỗi cung ứng phức tạp liên quan đến việc dán nhãn dữ liệu và kiểm thử an toàn cho các mô hình có sẵn này có thể không minh bạch đối với các tổ chức này.

Vào tháng 5 năm 2024, 97 người dán nhãn dữ liệu, người kiểm duyệt nội dung và những người làm việc về dữ liệu khác ở Kenya đã viết thư cho Tổng thống Biden để lập luận rằng 'Các công ty công nghệ lớn của Hoa Kỳ đang lạm dụng và bóc lột người lao động châu Phi một cách có hệ thống… [bằng cách] phá hoại luật lao động địa phương, hệ thống tư pháp của đất nước và vi phạm các tiêu chuẩn lao động quốc tế'. Bức thư nêu rõ rằng Kenya cần những công việc này, nhưng không phải bằng bất cứ giá nào.

Vào tháng 4 năm 2024, Nghị viện Châu Âu đã thông qua một chỉ thị mới nhằm cải thiện điều kiện làm việc của những người làm việc trên nền tảng (bao gồm cả các công nhân dữ liệu). Chỉ thị này đưa ra những quyền mới cho người lao động, bao gồm cả việc được cho là có việc làm, ngăn chặn các quyết định quản lý thuật toán (như tuyển dụng và sa thải), và tăng cường tính minh bạch và bảo vệ dữ liệu cá nhân.

Các đề xuất từ xã hội dân sự, ngành công nghiệp và các bên phi chính phủ khác

Chúng tôi bắt đầu thấy một số công ty dán nhãn dữ liệu tạo sự khác biệt thông qua các cam kết về quyền lao động và tiêu chuẩn đạo đức. Ví dụ, Karya là một tổ chức phi lợi nhuận hợp tác với các tổ chức phi chính phủ địa phương để đảm bảo quyền tiếp cận công việc của mình được ưu tiên cho những cộng đồng có nhu cầu cao nhất hoặc bị thiệt thòi trong lịch sử và trả cho người lao động một khoản tiền thu được từ việc bán công việc chú thích ngoài mức lương cơ bản của họ. Cũng như mức lương công bằng hơn, những người làm việc về dữ liệu cũng mong muốn được hưởng nhiều lợi ích công cộng hơn từ công việc đại trà của họ và được trao quyền nhiều hơn trong các mối liên hệ giữa công việc của họ và việc sử dụng hạ nguồn.

Tuy nhiên, thực tế là công việc này thường không được nhìn thấy - như 'công việc ma' - khiến cho các lực lượng thị trường không thể đảm bảo rằng những người làm việc về dữ liệu trong chuỗi cung ứng của AI nền tảng được đối xử công bằng. Các tổ chức như Turkopticon, Fairwork và Dự án Kinh tế Gig tiếp tục công việc khó khăn là vận động cho người lao động và đã chuyển sự chú ý của họ sang chuỗi cung ứng dữ liệu thông qua việc đánh giá các tiêu chuẩn lao động và đưa ra các yêu cầu tập thể để cải thiện. Một trong những bên tham gia vào mạng lưới học tập ngang hàng về dữ liệu vì quyền của người lao động do Humanity United tài trợ của ODI, CNV International đã phát triển một Fair Work Monitor (Giám sát Công việc Công bằng) để tăng cường tiếng nói của người lao động thông qua việc thu thập dữ liệu kỹ thuật số. Vào năm 2021, những người lao động tại Appen, một công ty dữ liệu cộng đồng, đã bắt đầu tổ chức với một công đoàn công nghệ, cho thấy rằng sức mạnh thương lượng theo ngành và theo công ty cũng có thể là chìa khóa để đảm bảo quyền của người lao động trong chuỗi cung ứng dữ liệu.

Có một số lĩnh vực mà quyền lao động và bảo vệ dữ liệu hội tụ. Quyền bảo vệ dữ liệu có thể được sử dụng trong bối cảnh công việc và các tổ chức như Workers Info Exchange và AWO đang sử dụng luật bảo vệ dữ liệu để trao quyền cho người lao động tự do với dữ liệu về lịch sử công việc, mức lương và hạng mức của họ. Một số luật cũng trao cho người lao động quyền được giải thích về cách dữ liệu của họ được sử dụng để đưa ra quyết định tự động và khiếu nại các quyết định không công bằng gây ra bất lợi. Mặc dù những điều này chủ yếu được sử dụng bởi những người lao động nền tảng trong các lĩnh vực như gọi xe và giao hàng, nhưng chúng có thể trở thành công cụ quan trọng cho người lao động trong chuỗi cung ứng dữ liệu để giải quyết các vấn đề như ra quyết định không minh bạch, phân bổ công việc và sa thải không công bằng.

Các bước cần thực hiện

Để tránh khoảng trống thực thi quyền lao động và bảo vệ dữ liệu khi nói đến chuỗi cung ứng dữ liệu của AI nền tảng, chúng tôi khuyến nghị rằng Chính phủ Vương quốc Anh sắp tới:

Đảm bảo rằng bất kỳ quy định dữ liệu nào trong tương lai đều phù hợp để giải quyết AI nền tảng. Như chúng tôi đã nói trong Bản tuyên ngôn chính sách gần đây của mình, 'chúng tôi tin rằng Dự luật Bảo vệ dữ liệu và Thông tin số (DPDI) là một cơ hội bị bỏ lỡ để củng cố hệ sinh thái dữ liệu.' Quy định bảo vệ dữ liệu trong tương lai phải đảm bảo rằng Ủy viên thông tin vẫn độc lập, các biện pháp bảo vệ xử lý dữ liệu được duy trì hoặc tăng cường, và Yêu cầu Truy cập của Chủ thể không trở thành tùy chọn. Tất cả những điều này sẽ giúp đảm bảo rằng dữ liệu cá nhân được bảo vệ trong chuỗi cung ứng dữ liệu đằng sau AI nền tảng.

Nhận diện chuỗi cung ứng dữ liệu và bảo vệ toàn bộ phạm vi quyền của mọi người trong đó. Chính phủ Anh mới nên đảm bảo rằng các quy định hiện hành đang được tuân thủ và các hoạt động kém hiệu quả sẽ bị ngăn chặn trong thị trường dán nhãn dữ liệu của Anh. Quyền lao động và bảo vệ dữ liệu cũng nên là trọng tâm trong chương trình nghị sự về an toàn AI của Anh. Các chuỗi cung ứng này mang tính toàn cầu và do đó, Chính phủ Anh mới nên hợp tác quốc tế và sử dụng ảnh hưởng của mình để hỗ trợ cải thiện toàn cầu về quyền lao động và bảo vệ dữ liệu, đặc biệt là đối với người dán nhãn dữ liệu và kiểm duyệt nội dung.
Hỗ trợ phát triển các tiêu chuẩn đạo đức trong chuỗi cung ứng dữ liệu của Anh. Hỗ trợ, củng cố và tài trợ cho các tổ chức đang thiết lập các tiêu chuẩn thực hành làm việc công bằng trong chuỗi cung ứng dữ liệu. Chính phủ Anh mới nên hỗ trợ các tổ chức Anh để bảo vệ rằng chuỗi cung ứng của họ đáp ứng các tiêu chuẩn đạo đức cao vượt ra ngoài việc tuân thủ luật bảo vệ dữ liệu và quyền lao động.

Tại ODI, chúng tôi mong muốn cung cấp thông tin chi tiết và nguồn lực cho các nhà hoạch định chính sách đang nỗ lực tạo ra một hệ thống bảo vệ dữ liệu và quyền lao động để ứng phó với AI nền tảng. Chúng tôi sẽ công bố các biện pháp can thiệp liên quan được đề xuất trong những tuần tới, tập trung vào tính khả dụng của dữ liệu và các hoạt động dữ liệu có sự tham gia.

Ý kiến bạn đọc

Bạn cần đăng nhập với tư cách là Thành viên chính thức để có thể bình luận

Những tin mới hơn

Những tin cũ hơn