The ODI to help develop an open metadata standard for machine learning data
Wed Mar 6, 2024
Bài được đưa lên Internet ngày: 06/03/2024
MLCommons đã công bố phát hành Croissant, một định dạng siêu dữ liệu để giúp tiêu chuẩn hóa tài liệu của các tập dữ liệu máy học - ML (Machine Learning). Croissant được thiết lập để tạo ra sự khác biệt lớn đối với hoạt động xử lý dữ liệu trong AI - khi những người thực hành AI áp dụng nó để mô tả các tập dữ liệu của họ và nhiều nền tảng AI hơn hỗ trợ các tập dữ liệu có chú thích Croissant. Điều này hứa hẹn trở thành người thay đổi cuộc chơi trong AI an toàn và có đạo đức, nơi các tập dữ liệu chất lượng cao, được ghi thành tài liệu tốt là thiết yếu.
Hiện hành, nhiều tập dữ liệu ML không có đủ tài liệu máy đọc được để cho phép mọi người sử dụng chúng có trách nhiệm. Không có thông tin này, việc tìm kiếm, hiểu, và sử dụng các tập dữ liệu đó một cách an toàn và có đạo đức có thể rất mất thời gian.
Croissant có mục đích làm cho dữ liệu truy cập được và có khả năng khám phá được dễ dàng hơn. Nó cho phép các tập dữ liệu được tải lên các nền tảng AI khác nhau mà không cần định dạng lại. Người dùng xuất bản một tập dữ liệu ở định dạng Croissant hưởng lợi từ ‘trình biên tập Croissant’ (Croissant Editor), nó cho phép họ dễ dàng kiểm tra, tạo lập, hoặc sửa đổi các mô tả Croissant cho các tập dữ liệu của họ. Cũng có Thư viện Python MLCroissant để hỗ trợ lập trình.
ODI từng là một người ủng hộ sớm sáng kiến này, với Giám đốc Nghiên cứu của chúng tôi GS. Elena Simperl đồng chủ tịch nhóm công tác Croissant. Hướng về tương lại, ODI sẽ giúp thúc đẩy Croissant theo vài cách thức, bao gồm việc thí điểm và đánh giá tiêu chuẩn này trong các tập dữ liệu ML chính, và quảng bá Croissant tới cộng đồng AI/ML rộng lớn hơn, đặc biệt ở Vương quốc Anh và châu Âu.
ODI có hồ sơ theo dõi mở rộng việc thiết kế, đánh giá, và thúc đẩy các tiêu chuẩn dữ liệu mở trong nhiều lĩnh vực, bao gồm cả tiêu chuẩn Ngân hàng Mở của Vương quốc Anh, tiêu chuẩn OpenAcitve, và Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) Data4Policy. Các tiêu chuẩn mở và hạ tầng dữ liệu tương hợp được là cốt lõi của kế hoạch 15 điểm cho chương trình AI lấy dữ liệu làm trung tâm (data-centric AI) của chúng tôi. Cùng với công việc của chúng tôi về hạ tầng dữ liệu, quản trị và điều hành dữ liệu, chúng tôi hướng tới việc xây dựng cộng đồng toàn cầu và thúc đẩy áp dụng Croissant.
“Dữ liệu là yếu tố rất quan trọng đối với hiệu suất của bất kỳ mô hình nào và như một số chuyên gia đề xuất, dữ liệu sẽ cạn kiệt, khiến nhu cầu khai thác dữ liệu càng trở nên quan trọng hơn. Croissant cho phép nhiều người hơn làm được nhiều việc hơn với dữ liệu. Với tư cách là đồng chủ tịch của nhóm làm việc, tôi rất vinh dự được cộng tác với các nhà khoa học và kỹ sư máy học đẳng cấp thế giới trên toàn cầu, đóng góp to lớn cho hệ sinh thái dữ liệu AI.”
Giáo sư Elena Simperl
Giám đốc Nghiên cứu tại ODI, Giáo sư Khoa học Máy tính tại Cao đẳng Hoàng gia Luân Đôn và đồng chủ trì nhóm công tác Croissant
Croissant được làm cho có thể nhờ các nỗ lực của nhóm công tác Croissant MLCommons bao gồm những người đóng góp từ các tổ chức: Bayer, cTuning Foundation, DANS-KNAW, Dotphoton, Google, Harvard, Hugging Face, Kaggle, King's College London, the ODI, Meta, NASA, Open University of Catalonia - Luxembourg Institute of Science and Technology, và TU Eindhoven.
Bạn có thể ra nhập Nhóm Công tác Croissant, đóng góp cho kho GitHub, và tải về Croissant Editor để triển khai từ vựng Croissant trong các tập dữ liệu hiện có của bạn.
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Trang Web này được thành lập theo Quyết định số 142/QĐ-HH do Chủ tịch Hiệp hội các trường đại học, cao đẳng Việt Nam – AVU&C (Association of Vietnam Universities and Colleges), GS.TS. Trần Hồng Quân ký ngày 16/09/2019, ngay trước thềm của Hội thảo ‘Xây dựng và khai thác tài nguyên giáo dục mở’ do 5...
Hướng dẫn kỹ thuật lời nhắc. Kỹ thuật viết lời nhắc
Hướng dẫn kỹ thuật lời nhắc. Giới thiệu. Ví dụ về lời nhắc
Hướng dẫn kỹ thuật lời nhắc. Giới thiệu. Mẹo chung cho việc thiết kế lời nhắc
Hướng dẫn kỹ thuật lời nhắc. Giới thiệu. Các thành phần của lời nhắc
Tài nguyên Giáo dục Mở trong kỷ nguyên AI
Hướng dẫn kỹ thuật lời nhắc. Giới thiệu. Cơ bản về lời nhắc
Hướng dẫn kỹ thuật lời nhắc. Giới thiệu. Thiết lập LLM
50 công cụ AI tốt nhất cho năm 2025 (Đã thử và kiểm nghiệm)
Các bài toàn văn cho tới hết năm 2024
Các bài trình chiếu trong năm 2024
Các lớp tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ tới hết năm 2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Bộ các tài liệu hướng dẫn của UNESCO cho các chính phủ và cơ sở để triển khai Khuyến nghị Tài nguyên Giáo dục Mở
Hướng dẫn thực hành về Giáo dục Mở cho các học giả: Hiện đại hóa giáo dục đại học thông qua các thực hành Giáo dục Mở (dựa trên Khung OpenEdu)
Chứng chỉ Creative Commons cho các nhà giáo dục, thủ thư hàn lâm, và văn hóa mở
Các mô hình bền vững Tài nguyên Giáo dục Mở (TNGDM) - Tổng hợp
ORCID - Quy trình làm việc
Tổng hợp các bài của Nhóm các Nhà cấp vốn Nghiên cứu Mở (ORFG) đã được dịch sang tiếng Việt
Tổng hợp các bài của Liên minh S (cOAlition S) đã được dịch sang tiếng Việt
Europeana - mô hình mẫu về hệ thống liên thông, Dữ liệu Mở (Liên kết) và dữ liệu FAIR của OpenGLAM/Văn hóa Mở
Năm Khoa học Mở & Chuyển đổi sang Khoa học Mở - Tổng hợp các bài liên quan
‘Bộ công cụ Khoa học Mở của UNESCO’ - Các bản dịch sang tiếng Việt
Định nghĩa các khái niệm liên quan tới Khoa học Mở
‘Digcomp 2.2: Khung năng lực số cho công dân - với các ví dụ mới về kiến thức, kỹ năng và thái độ’, EC xuất bản năm 2022
‘ĐÁNH DẤU KHÓA HỌC MỞ VÀ KHAM ĐƯỢC: CÁC THỰC HÀNH TỐT NHẤT VÀ CÁC TRƯỜNG HỢP ĐIỂN HÌNH’ - VÀI THÔNG TIN HỮU ÍCH
Khóa học cơ bản về Dữ liệu Mở trong chương trình học tập điện tử trên Cổng Dữ liệu châu Âu