AI lấy dữ liệu làm trung tâm

Thứ năm - 29/08/2024 19:08

Data-centric AI

Không có dữ liệu, sẽ không có AI. Để cung cấp AI an toàn chúng ta cần xem xét hạ tầng dữ liệu của các ứng dụng AI hiện hành và tương lai.

Tue Nov 28, 2023

Theo: https://theodi.org/insights/projects/data-centric-ai/

Bài được đưa lên Internet ngày: 28/11/2023

Trí tuệ nhân tạo - AI (Artificial Intelligence) có lẽ không là khái niệm mới trong thế giới công nghệ, nhưng sự phát hành công khai ChatGPT năm ngoái đã đánh dấu một bước thay đổi. Phát hành đó đã trao cho bất kỳ ai có truy cập tới Internet khả năng “nói chuyện” với một chương trình AI như ChatGPT, Claude, hoặc Midjourney bằng việc sử dụng các lời nhắc văn bản thay vì ngôn ngữ chuyên gia. Nó đã làm bùng phát một làn sóng chưa từng thấy về nghiên cứu, phát triển, và hoạch định chính sách đã thúc đẩy hiểu biết của chúng ta về công nghệ và cách nó có thể được sử dụng có đạo đức và công bằng.

Vượt ra khỏi sự cường điệu, tiến bộ gần đây trong các mô hình nền tảng - FM (Foundation Models) và việc các doanh nghiệp và chính phủ tăng tốc áp dụng chúng có thể mạng lại các cơ hội đáng kể để đạt được hiệu quả, tăng trưởng kinh tế và đổi mới, nhưng cũng có những rủi ro đáng kể về thông tin sai lệch, mất việc làm, phân biệt đối xử và bất bình đẳng xã hội. Việc cân bằng các đặc tính này đòi hỏi quan điểm hệ sinh thái về AI, thừa nhận vai trò của dữ liệu, điện toán, quản trị và quy định để đưa lĩnh vực này đi đúng hướng trong vài năm tới.

AI lấy dữ liệu làm trung tâm là gì và vì sao nó quan trọng?

Không có dữ liệu, sẽ không có AI - điều đó áp dụng cho bất kỳ dạng AI nào, từ học sâu, lý luận và lập kế hoạch cho đến biểu đồ tri thức. Chúng ta cần nhìn sát vào các liên kết giữa dữ liệu và các thuật toán, đưa ra các cách tiếp cận từ nhiều lĩnh vực và thu hút những người bị ảnh hưởng trực tiếp bởi AI, cũng như xã hội dân sự. Làn sóng lớn nhất các mô hình ngôn ngữ lớn - LLM (Large Language Model) và các FM khác đã phá vỡ cách chúng ta nghĩ về nhiều thành phần hạ tầng dữ liệu của chúng ta: từ giá trị dữ liệu chúng ta xuất bản mở và các quyền chúng ta nắm giữ về dữ liệu, cả cá nhân và tập thể, tới chất lượng và quản trị các tập dữ liệu quan trọng. Chúng tôi đang sử dụng khái niệm ‘AI lấy dữ liệu làm trung tâm’ (data-centric AI) để cải thiện tư duy của chúng tôi trong môi trường này - khái niệm này đã được đưa ra vài năm trước trong cộng đồng AI để biện hộ cho sự chú ý nhiều hơn tới dữ liệu các kỹ sư AI nuôi các mô hình của họ. Mở rộng khái niệm đó, chúng tôi sử dụng nó để tham chiếu tới toàn bộ hạ tầng dữ liệu xã hội - kỹ thuật của AI - điều này bao gồm các tập, các công cụ, các tiêu chuẩn, các thực hành, và các cộng đồng dữ liệu.

Video: https://vimeo.com/884929644

Để cung cấp AI an toàn và tuân theo các cam kết từ Tuyên bố Bletchley, và các tuyên bố khác gần đây và các quy định toàn cầu, chúng ta cần xem xét hạ tầng dữ liệu của các ứng dụng AI hiện có và tương lai. Điều này đi vượt ra khỏi các nỗ lực hiện hành để tạo ra các tập dữ liệu chuẩn mực mà, dù hữu dụng cho việc đánh giá và so sánh các mô hình, không thể hiện được các kịch bản khổng lồ trong đó AI được hình dung sẽ được áp dụng. Khi AI tạo sinh (generative AI) giành được sự chú ý, có rủi ro là, các chi phí liên quan đến các thực hành dữ liệu tốt, các mô hình sẽ được đào tạo và kiểm thử dựa trên dữ liệu tổng hợp hoặc chất lượng thấp, dẫn tới - đúng lúc - sự xuống cấp trong hiệu năng và làm gia tăng khả năng gây hại. Hạ tầng dữ liệu AI và các thực hành dữ liệu tốt hơn cần được áp dụng và bắt buộc khắp ngành, được những tiến bộ mới nhất trong khoa học và kỹ thuật dữ liệu cung cấp, và được các cơ sở dữ liệu chuyên tâm hỗ trợ.

Chương trình AI lấy dữ liệu làm trung tâm của chúng tôi nhằm đạt được điều gì

Xây dựng dựa vào hơn một thập kỷ công việc tạo lập các hệ sinh thái dữ liệu mở, tin cậy, ODI đã giúp dịch chuyển sự kể chuyện AI khỏi trọng tâm tuyệt đối về phát triển và sử dụng mẫu hướng tới sự hiểu biết rộng hơn về các nguồn lực - và các bên liên quan - cần thiết để cho phép phát triển công nghệ bền vững và có trách nhiệm. ODI hành động như một cơ sở chính nghiên cứu, kết nối, và khuếch đại các ý tưởng và các tiếp cận đa dạng, phát triển và xúc tác cho các thực hành tốt nhất cho quản trị dữ liệu, và tập hợp dải rộng lớn các bên liên quan trong hệ sinh thái, bao gồm các công ty khởi nghiệp, các doanh nhân, nhà nghiên cứu, nhà hoạch định chính sách và xã hội dân sự, để giúp phát triển một hệ sinh thái dữ liệu AI dựa trên các thực hành dữ liệu có trách nhiệm.

Hiện thực hóa tiềm năng của AI để làm lợi cho bất kỳ ai và đáp ứng các cam kết của Tuyên bố Bletchley, sẽ đòi hỏi vài bước cơ bản trong AI lấy dữ liệu làm trung tâm:

Làm cho dữ liệu sẵn sàng cho AI

Chúng ta cần xúc tác và hỗ trợ tạo lập các tập dữ liệu AI chất lượng cao. Nhiều tập dữ liệu AI là nhỏ, tổng hợp, hoặc không là đại diện của một quốc gia, công ty hay bối cảnh cụ thể nào. Kết quả là bão hòa điểm chuẩn - các mô hình hoạt động tốt dựa trên dữ liệu có sẵn nhưng kém hơn khi áp dụng để giải quyết các vấn đề thực tế.
Bản quyền, bảo vệ dữ liệu, và các quyền hiện có của người lao động phải được tôn trọng khi tạo lập các tập dữ liệu AI mới. Chúng ta cần nghiên cứu nhiều hơn để xác định các khoảng trống trong cách các quyền đó hiện được bảo vệ hoặc không trong các tập dữ liệu được các hệ thống AI sử dụng như thế nào.
Các tập dữ liệu AI chủ chốt phải được quản trị và điều hành có trách nhiệm. Một số tập dữ liệu là quan trọng cho các lĩnh vực cụ thể và cần các cơ chế quản trị thông thái để đảm bảo chúng được sử dụng công bằng và được duy trì với tiêu chuẩn cao.
Các tập dữ liệu vì lợi ích chung cần được hỗ trợ liên tục vì chúng thúc đẩy đổi mới trong nhiều lĩnh vực, bao gồm cả AI. Nhiều tiến bộ trong AI từng dựa vào các tập dữ liệu mở, nhưng có mối nguy hiểm mọi người sẽ dừng đóng góp và đầu tư vào dữ liệu mở và hầu hết dữ liệu mới được nuôi dưỡng trong các mô hình AI sẽ là tổng hợp hoặc có chất lượng thấp hơn.
Các thực hành tốt nhất trong đảm bảo dữ liệu AI phải được thiết lập và tiêu chuẩn hóa. Trong khi một số bộ công cụ đang nổi lên, có ít hướng dẫn hoặc qui định nhằm đảm bảo các tập dữ liệu được sử dụng trong các dịch vụ công.

Làm cho dữ liệu AI truy cập được và sử dụng được

Chúng ta cần làm việc với những người nắm giữ dữ liệu để nghiên cứu các tập dữ liệu quan trọng. Hầu hết các tập dữ liệu được ghi thành tài liệu kém, ngụ ý người dùng thấy khó hiểu mục đích dự kiến, khó biết các trường hợp sử dụng, và các hạn chế của chúng.
Truy cập công bằng và không thiên vị phải là bắt buộc để phát triển các trường hợp sử dụng AI với các ý nghĩa xã hội lớn, ví dụ, thông tin sai lệch, khí hậu và các bệnh truyền nhiễm.
Các tiêu chuẩn dữ liệu cần được phát triển để giảm chi phí vận hành dữ liệu và cho phép các nhà nghiên cứu và các doanh nghiệp nhỏ xây dựng tốt hơn hạ tầng dữ liệu AI.
Truy cập an toàn tới các tập dữ liệu cho các công ty khởi nghiệp và các doanh nghiệp vừa và nhỏ phải được tạo thuận lợi, để khuyến khích thí nghiệm và đổi mới có trách nhiệm. Đây là một trong các trở ngại cùng với quyền truy cập tới điện toán và nhân tài AI.
Tiềm năng cho các khả năng mới của AI để làm cho dữ liệu truy cập được, sử dụng được nhiều hơn, và hữu ích cho tất cả mọi người nên được khám phá. Có các cơ hội cho AI để tự động hóa hoặc tối ưu hóa các quy trình hiện đang hạn chế hoặc làm chậm việc chia sẻ và sử dụng dữ liệu.

Làm cho các hệ thống Ai sử dụng dữ liệu có trách nhiệm

Khám phá các cơ chế để nâng cao sự hiểu biết về dữ liệu trong vòng đời AI. Điều này bao gồm việc khám phá liệu những người nắm giữ công nghệ AI và các ứng dụng dòng dưới có nên phải chia sẻ thông tin về nguồn gốc và dòng dõi dữ liệu để thúc đẩy các thực hành dữ liệu tốt trong hệ sinh thái và phân tích các tác động chi tiết hơn.
Đầu tư vào nghiên cứu và đổi mới để phát triển các mô hình AI hiệu quả và bảo vệ tốt hơn. Điều này có thể giúp phát triển các mô hình ít dựa hơn vào các tập dữ liệu khổng lồ, cũng như các mô hình dựa ít hơn vào luonwjg dữ liệu đại trà và không đánh đổi quyền riêng tư và bảo vệ dữ liệu để lấy hiệu suất.
Thiết kế, đánh giá và thúc đẩy các giấy phép dữ liệu có ý nghĩa hơn để hỗ trợ cho các nhà xuất bản và người dùng triển khai các thực hành dữ liệu tốt trong AI.
Đầu tư vào việc tạo ra các bộ công cụ thực tế hơn để thông tin cho các quy định mới và giảm thiểu các chi phí tuân thủ. Các bộ công cụ, trường hợp sử dụng, và việc học tập ngang hàng có vai trò trong việc vận hành các khung pháp lý hiện có và đang nổi lên.
Tăng cường các thực hành AI có trách nhiệm thông qua nghiên cứu, đào tạo và hiểu biết dữ liệu. Các kỹ sư AI cần được đào tạo về các thực hành AI có trách nhiệm, và các nhân viên phi kỹ thuật nên có quyền truy cập tới các công cụ và đào tạo để giúp họ hiểu các liên kết giữa dữ liệu và AI có trách nhiệm.

ODI cam kết thúc đẩy nghiên cứu và thực hành triển khai các bước đó. Điều này gồm:

các khung để xác định và đánh giá giá trị của dữ liệu AI và các mô hình kinh doanh AI;
rà soát lại bối cảnh các công nghệ AI lấy dữ liệu làm trung tâm đang nổi lên, chẳng hạn như việc học tập theo liên đoàn và đảm bảo dữ liệu của ML;
các chương trình đổi mới hỗ trợ các công ty khởi nghiệp và các nghệ sĩ trong việc sử dụng dữ liệu và AI có trách nhiệm để xử lý các thách thức lớn như thông tin sai lệch; sinh thái và hợp tác quốc tế.
các khóa học về đạo đức dữ liệu và AI và máy học.

Xây dựng dựa trên công việc này, trong vài tháng tới, chúng tôi sẽ:

đưa ra lộ trình dữ liệu trong thiết kế, đào tạo, thẩm định, kiểm thử và sử dụng mô hình AI để nêu bật các thách thức chung trong các thực hành dữ liệu có trách nhiệm cho AI
nghiên cứu các thực hành quản trị và điều hành dữ liệu hiện có và đang nổi lên trong các tập dữ liệu AI phổ biến nhất
hiểu và mô tả vai trò của các thách thức liên quan đến dữ liệu trong các báo cáo sự cố AI
thiết kế các cách tiếp cận tính toán để đánh giá tác động của các nguồn dữ liệu mở về hiệu năng của các mô hình AI
đề xuất các cách tiếp cận có sự tham gia cho việc nhắc dữ liệu như một phương tiện giúp các đối tượng đa dạng sử dụng các công cụ AI tạo sinh để tìm kiếm và hiểu ý nghĩa của dữ liệu
thiết lập các ưu tiên chính sách cho dự luật AI tương lai ở Vương quốc Anh, và các luật dữ liệu khác, xây dựng dựa trên các phát hiện của chương trình

Có nhiều việc phải làm và khi công nghệ và quy định phát triển với tốc độ cực nhanh, chúng ta phải ưu tiên lĩnh vực tìm hiểu này – và làm việc nhanh chóng để biến ý tưởng thành hành động. Chúng tôi rất vui mừng được cộng tác với Microsoft, Hiệp hội Đối tác Xã hội về Dữ liệu Công nghiệp (Industry Data for Society Partnership), King's College London, Đại học Oxford và nhiều tổ chức khác để đạt được tiến bộ và tạo sự khác biệt.

Chúng tôi rất mong nhận được phản hồi từ các nhà cấp vốn, đối tác và các tổ chức khác quan tâm đến việc giúp phát triển chương trình làm việc của chúng tôi. Nếu bạn muốn đóng góp, hãy nói về việc cấp vốn cho công việc của chúng tôi hoặc thách thức suy nghĩ của chúng tôi, chúng tôi hoan nghênh ý kiến của bạn.

Ý kiến bạn đọc

Bạn cần đăng nhập với tư cách là Thành viên chính thức để có thể bình luận

Những tin mới hơn

Những tin cũ hơn