Nếu DeepSeek muốn trở thành một người phá vỡ thực sự, nó phải tiến xa hơn nữa về tính minh bạch của dữ liệu

Thứ năm - 06/02/2025 18:13

If DeepSeek wants to be a real disruptor, it should go much further on data transparency

Thu Jan 30, 2025

Theo: https://theodi.org/news-and-events/blog/if-deepseek-wants-to-be-a-real-disruptor-it-should-go-much-further-on-data-transparency/

Bài được đưa lên Internet ngày: 30/01/2025

Chúng ta cần tính minh bạch nhiều hơn từ tất cả các nhà cung cấp mô hình.

Vào ngày 20/01/2025, công ty AI Trung Quốc DeepSeek đã phát hành một mô hình ngôn ngữ gọi là R1 đã gửi đi làn sóng gây sốc khắp thế giới AI trên toàn cầu. Cùng với việc phát hành là những tuyên bố ấn tượng về sự phát triển và khả năng của mô hình đó, với sự phát triển mô hình chỉ bằng 10% của chi phí được cho là của o1 của OpenAI và nhanh gần gấp đôi so với chuẩn mực. Điều đó là vì, theo báo cáo kỹ thuật, R1 ít dựa hơn vào việc gắn nhãn của con người và thay vào đó có khả năng sử dụng một dạng đào tạo được tự động hóa. Thế còn về dữ liệu thì sao? Nó tới từ đâu và nó được sử dụng như thế nào?

Chỉ số Minh bạch Dữ liệu AI

Tháng trước, Viện Dữ liệu Mở - ODI (Open Data Institute) đã phát hành Chỉ số Minh bạch Dữ liệu AI - AIDTI (AI Data Transparency Index), một khung mới để phân tích liệu các nhà cung cấp mô hình có chia sẻ thông tin cần thiết về tính minh bạch dữ liệu có ý nghĩa hay không. Với AIDTI, các nhà cung cấp mô hình được đánh giá theo 7 chiều, tìm kiếm sự minh bạch về những điều chẳng hạn như các nguồn của tập dữ liệu và các phương pháp thu thập, các hoạt động xử lý được triển khai, và liệu các tập dữ liệu đã được kiểm tra về dữ liệu có bản quyền hay dữ liệu cá nhân hay chưa.

Thông qua quá trình này, chúng tôi đã phân tích 22 mô hình từ khắp trên thế giới, bao gồm các mô hình mà cũng giống như DeepSeek đã tuyên bố là ‘nguồn mở’. Phân tích của chúng tôi đã xác định rằng:

Mức độ trưởng thành cao đã được 5 nhà cung cấp mô hình thể hiện, được đặc trưng bằng việc ghi thành tài liệu chi tiết, truy cập được, sử dụng nhất quán các công cụ minh bạch, và một cách tiếp cận chủ động tích cực cho các quyết định giải thích được tiến hành trong quá trình phát triển đó.
6 nhà cung cấp mô hình đã đáp ứng một số tiêu chí minh bạch nhưng thiếu sự nhất quán đối với tất cả các chiều và vì thế đã được coi là có mức độ trưởng thành trung bình.
11 nhà cung cấp mô hình đã thể hiện mức độ trưởng thành thấp với thông tin hạn chế hoặc chất lượng kém, gợi ý sự miễn cưỡng chung để trở thành mở.

Chúng tôi nghĩ có thể là cơ hội tốt để xem DeepSeek được so sánh như thế nào với các đối thủ cạnh tranh đã thanh danh của nó.

Hai nhà nghiên cứu của ODI đã độc lập lặp lại phương pháp Chỉ số Minh bạch Dữ liệu AI cho DeepSeek R1 và bạn có thể thấy kết quả đối sánh bên dưới.

DeepSeek và minh bạch dữ liệu

DeepSeek không may đã được xếp hạng ở mức trưởng thành thấp đối với tất cả ngoại trừ 1 trong số 7 chiều minh bạch của chúng tôi. Nhờ có tóm tắt khá chi tiết các hoạt động tiền xử lý và hậu đào tạo đã diễn ra trong quá trình phát triển DeepSeek R1, DeepSeekđã có điểm trung bình về mức độ trưởng thành đối với chiều này. Đối với các chiều còn lại, DeepSeek có điểm kém. Đã có danh sách không rõ ràng về các tập dữ liệu được sử dụng trong mô hình và cơ chế không minh bạch được sử dụng (chẳng hạn như các thẻ mô hình hay dữ liệu) để giúp làm cho các mô hình AI minh bạch hơn và truy cập được nhiều hơn. Đã không có các chi tiết được chia sẻ xem dữ liệu này có bao gồm các dữ liệu có bản quyền hay thông tin cá nhân hay không, cũng không có bất kỳ sự bảo vệ nào cho điều này. Cũng như thông tin chi tiết hơn về toàn bộ chuỗi cung ứng dữ liệu. Bất chấp một số tuyên bố ấn tượng về hiệu quả tính toán của các mô hình, toàn bộ chi phí môi trường của quá trình phát triển vẫn chưa được chia sẻ.

Tổng thể, mức độ trưởng thành minh bạch dữ liệu thấp của DeepSeek đặt nó ngang hàng với Inflection-2, tốt hơn một chút so với Grok 2 của X và Gemini 1.5 của Google, và khá tệ hơn so với GPT-4o của OpenAI. Tất cả các mô hình đó vẫn còn được coi là có mức độ trưởng thành thấp về minh bạch dữ liệu, và đứng xa phía sau so với Aya của Cohere và Pythia của EleutherAI. DeepSeek R1 không phải là mô hình nguồn mở, cũng không là một tiêu chuẩn mới về minh bạch dữ liệu.

Việc có mức độ trưởng thành thấp về minh bạch dữ liệu có nghĩa đối với những người dùng khác nhau rằng:

Chúng tôi không thể xác định liệu dữ liệu có được sử dụng từ đối thủ cạnh tranh của họ hay không vì OpenAI và Microsoft được cho là đang điều tra
Tính xác thực của các tuyên bố về chi phí của DeepSeek, vì nó phần lớn được khởi tạo từ một mô hình trước đó mà họ chưa công bố chi phí đào tạo
Tính xác thực của các tuyên bố về hiệu quả đào tạo của DeepSeek, mặc dù một số tính toán cho thấy chúng là sự thật

Kết luận

Mặc dù có nhiều tuyên bố về mô hình AI 'nguồn mở' của DeepSeek, nhưng thực tế thì nó không phải là nguồn mở. Mặc dù cả trọng số mô hình và kiến trúc mô hình đều được chia sẻ trong một bài báo kỹ thuật, nhưng cả mã lẫn dữ liệu đào tạo hoặc đánh giá đều không được chia sẻ công khai. Một nhà phân tích của Sáng kiến Nguồn Mở cũng xác nhận rằng Deepseek không phải là AI Nguồn Mở và không đáp ứng các yêu cầu của định nghĩa AI Nguồn M ở (bản dịch sang tiếng Việt). Nó tham gia cùng các mô hình khác tuyên bố là nguồn mở, nhưng lại có điểm kém về tính minh bạch dữ liệu.

Cuối cùng, điều này có nghĩa là nhiều tuyên bố ấn tượng của DeepSeek về phát triển mô hình hiệu quả cao không thể được xác thực. Để điều này thực sự là một sự kiện mang tính đột phá, DeepSeek sẽ phải trở nên trưởng thành hơn nhiều với thông tin về tính minh bạch dữ liệu mà họ chia sẻ.

Nhìn chung, tính minh bạch dữ liệu vẫn tiếp tục là một cơ chế có liên quan để đánh giá các mô hình và nhà cung cấp mới. Chúng ta cần nhiều tính minh bạch hơn, không chỉ từ DeepSeek vì một số người lo sợ về nguồn dữ liệu và rủi ro về quyền riêng tư đối với người dùng, mà còn từ tất cả các nhà cung cấp mô hình dù là người Mỹ hay người Trung Quốc, mở hay đóng, lớn hay nhỏ.

Xem thêm:

Tác giả: admin

Ý kiến bạn đọc

Bạn cần đăng nhập với tư cách là Thành viên chính thức để có thể bình luận

Những tin mới hơn

Những tin cũ hơn

GIÁO DỤC MỞ - TÀI NGUYÊN GIÁO DỤC MỞ: ỨNG DỤNG VÀ PHÁT TRIỂN

Trang Web này được thành lập theo Quyết định số 142/QĐ-HH do Chủ tịch Hiệp hội các trường đại học, cao đẳng Việt Nam – AVU&C (Association of Vietnam Universities and Colleges), GS.TS. Trần Hồng Quân ký ngày 16/09/2019, ngay trước thềm của Hội thảo ‘Xây dựng và khai thác tài nguyên giáo dục mở’ do 5...

Tin mới nhất

Tin tiêu điểm

Thống kê truy cập

Đang truy cập78
Máy chủ tìm kiếm12
Khách viếng thăm66
Hôm nay21,169
Tháng hiện tại469,184
Tổng lượt truy cập15,593,636