Nơi Giáo dục Mở Gặp AI Tạo sinh: OELM

Thứ năm - 26/06/2025 19:22

Where Open Education Meets Generative AI: OELMs

December 13, 2024 by opencontent

Theo: https://opencontent.org/blog/archives/7628

Bài được đưa lên Internet ngày: 13/12/2024

CẬP NHẬT: Tôi đã đổi tên của loạt bài này từ “các mô hình ngôn ngữ giáo dục mở” thành “các môi trường học tập mở tạo sinh” như được giải thích ở đây. Mặc dù tên đã thay đổi, các mục tiêu và cách tiếp cận tới các bài đó vẫn giữ nguyên.

Lời nói đầu

Người phụ nữ phi thường đã hướng dẫn tôi trong suốt thời gian học sau đại học và đồng chủ trì ủy ban tiến sĩ của tôi, Tiến sĩ Laurie Nelson, thường xuyên nói chuyện với tôi về ý tưởng "suy nghĩ tốt nhất hiện tại". Việc mô tả một cái gì đó là "suy nghĩ tốt nhất hiện tại" của bạn cho phép bạn chia sẻ vị trí của mình trong công việc đồng thời làm rõ rằng suy nghĩ của bạn vẫn sẽ phát triển trong tương lai.

Điều cực kỳ quan trọng cần nhớ là cả giáo dục mở và AI tạo sinh đều là công cụ và phương pháp tiếp cận - chúng là phương tiện để đạt được mục đích, phương pháp để hoàn thành mục tiêu hoặc giải quyết vấn đề. Tôi quan tâm đến việc giải quyết các vấn đề về khả năng tiếp cận và hiệu quả trong giáo dục. Tôi nghĩ rằng giáo dục mở và AI tạo sinh có nhiều điều để cung cấp hướng giải quyết cho những vấn đề này. Nhưng ngay từ đầu, tôi muốn cảnh báo tất cả chúng ta (kể cả tôi) không nên quá say mê giáo dục mở hoặc AI tạo sinh trong chính bản thân chúng. Như người ta nói, bạn nên yêu vấn đề của mình, chứ không phải giải pháp của mình.

Dưới đây là suy nghĩ tốt nhất hiện tại của tôi về cách giáo dục mở và AI tạo sinh có thể kết hợp với nhau để giúp chúng ta đạt được tiến bộ trong các vấn đề về khả năng tiếp cận và hiệu quả. Nó chắc chắn sẽ phát triển trong tương lai.

Giới thiệu

Bozkurt và hơn 40 đồng tác giả (Bozkurt, et al., 2024) cung cấp một danh mục toàn diện về những cách mà AI tạo sinh có thể gây hại cho giáo dục. Danh sách đó bao gồm:

Khoảng cách số và bất bình đẳng trong giáo dục

GenAI có thể làm trầm trọng thêm tình trạng bất bình đẳng hiện có trong giáo dục:

Quyền truy cập không bình đẳng: Chi phí cao của các công cụ GenAI tiên tiến cùng với các yêu cầu về cơ sở hạ tầng hạn chế khả năng tiếp cận của sinh viên và các tổ chức kém may mắn.
Mở rộng khoảng cách: Những người có quyền truy cập vào các dịch vụ GenAI cao cấp có thể đạt được những lợi thế làm tăng sự chênh lệch giữa những người học giàu có và những người học kém may mắn.
Bất bình đẳng toàn cầu: Các nước đang phát triển có thể thiếu cơ sở hạ tầng để hỗ trợ GenAI, cản trở sự tiến bộ của giáo dục.

Thương mại hóa và tập trung quyền lực

Việc phát triển và kiểm soát GenAI do vài tập đoàn lớn chi phối, gây ra một số lo ngại:

Big Tech kiếm lời: Các công ty có thể ưu tiên lợi nhuận hơn các cân nhắc về đạo đức, tác động tiêu cực đến giáo dục.
Hợp tác hạn chế với giới hàn lâm: Việc thiếu quan hệ đối tác giữa các công ty công nghệ và các tổ chức giáo dục cản trở sự đổi mới và minh bạch.
Độc quyền kiến thức: Việc tập trung phát triển GenAI trong các tập đoàn có thể dẫn đến việc kiểm soát thông tin và nội dung giáo dục.

Thiếu sự đại diện

GenAI có thể phản ánh và duy trì sự thiên vị của xã hội thông qua:

Quan điểm lấy phương Tây làm trung tâm: Các mô hình GenAI được đào tạo chủ yếu trên dữ liệu phương Tây có thể không thể hiện đầy đủ sự đa dạng toàn cầu.
Hạn chế về ngôn ngữ: Sự chênh lệch giữa các ngôn ngữ có nhiều tài nguyên và ít tài nguyên có thể gây bất lợi cho những người không nói tiếng Anh.
Đồng nhất hóa văn hóa: GenAI có thể thúc đẩy một thế giới quan hạn hẹp, kìm hãm sự khác biệt về văn hóa.

Những lo ngại này có vẻ quen thuộc với những người làm việc trong lĩnh vực giáo dục mở. Đây là nhiều vấn đề tương tự mà những người ủng hộ giáo dục mở đã nêu ra về sách giáo khoa độc quyền và các tài liệu học tập độc quyền khác trong nhiều thập kỷ. Và cũng giống như tính mở là một công cụ mạnh mẽ để chống lại những vấn đề này bằng các tài liệu học tập truyền thống, tính mở có vai trò quan trọng trong việc giải quyết những lo ngại này bằng AI tạo sinh.

Hiểu về LLM (Mô hình ngôn ngữ lớn) như Tài liệu khóa học

Trong vài năm tới, tài liệu khóa học có khả năng sẽ chuyển từ định dạng trông giống sách giáo khoa truyền thống sang định dạng trông giống mô hình ngôn ngữ lớn (LLM) và các công cụ AI tạo sinh khác. Việc chuyển sang các công cụ này, đi kèm với những rủi ro như đã mô tả ở trên, đe dọa làm xói mòn tiến trình quan trọng hướng tới khả năng chi trả, khả năng tiếp cận và công bằng mà phong trào giáo dục mở đã đạt được. Hiểu rằng LLM là tài liệu khóa học có thể giúp chúng ta suy nghĩ rõ ràng hơn về tương lai của tài liệu khóa học có thể trông như thế nào và tại sao mở vẫn tiếp tục quan trọng trong tương lai.

Các nhà xuất bản tài liệu giáo dục lớn như Pearson, McGraw-Hill và Cengage dành rất nhiều thời gian và tiền bạc để tạo ra tài liệu khóa học độc quyền. Vì những sản phẩm này rất tốn kém và mất nhiều thời gian để tạo ra (đôi khi lên tới hàng triệu đô la cho mỗi sản phẩm), nên hầu hết các giảng viên đều áp dụng một trong những tài nguyên có sẵn này thay vì tự tạo ra tài nguyên của riêng mình.

Khoảng 25 năm trước, các cá nhân và sau đó là các tổ chức bắt đầu tạo ra các giải pháp thay thế được cấp phép mở cho các sản phẩm độc quyền này. Các nhà xuất bản OER lớn như OpenStax, Lumen và CMU OLI dành rất nhiều thời gian và tiền bạc để tạo ra nội dung mở. Các OER này có giá cả phải chăng hơn đáng kể so với các giải pháp thay thế độc quyền và, nhờ có giấy phép mở, có thể đóng vai trò là nền tảng cho nhiều cải tiến trong giảng dạy và học tập.

Trong không gian AI tạo sinh, các công ty như OpenAI, Anthropic và Google dành rất nhiều thời gian và tiền bạc để tạo ra các LLM độc quyền. Vì các LLM này rất tốn kém và mất nhiều thời gian để tạo ra (có thể lên tới hơn một trăm triệu đô la cho mỗi mô hình), nên hầu hết mọi người cuối cùng sử dụng một trong những mô hình này thay vì tự tạo ra mô hình của riêng họ.

Vài năm trước, các tổ chức bắt đầu tạo ra các giải pháp thay thế được cấp phép mở cho các LLM độc quyền này. Các tổ chức như Meta, Mistral và IBM dành nhiều thời gian và tiền bạc để tạo ra các LLM và cấp phép mở các trọng số mô hình để mọi người có thể giữ lại, tái sử dụng, sửa đổi, phối lại và phân phối lại chúng. Các mô hình "nền tảng" này cung cấp nền tảng mà trên đó bạn có thể xây dựng nhiều sáng kiến trong giảng dạy và học tập.

Người sáng tạo ra các tài liệu khóa học độc quyền	Người sáng tạo ra các tài liệu khóa học mở
Pearson, McGraw-Hill, Cengage	OpenStax, Lumen, CMU OLI

Người sáng tạo ra LLM độc quyền	Người sáng tạo ra LLM mở
OpenAI, Anthropic, Google	Meta, Mistral, IBM

Một hiểu biết quan trọng mà tôi có được thông qua kinh nghiệm đau thương trong 26 năm qua là: phần lớn giảng viên sẽ không áp dụng OER trừ khi nó đi kèm với tất cả các tài liệu bổ sung và các cải tiến chất lượng cuộc sống khác do các nhà xuất bản truyền thống cung cấp - slide bài giảng, bài tập có tiêu chí chấm điểm, bài tập về nhà được chấm điểm tự động, ngân hàng câu hỏi trắc nghiệm, v.v. (Một số ít giảng viên sẽ áp dụng mà không có những thứ này là những người thích tự tạo tài liệu bổ sung của riêng họ.) Chúng ta có thể mong đợi xu hướng áp dụng LLM trông tương tự.

Hãy nghĩ, trong một khoảnh khắc, về LLM như là "sách giáo khoa" của giai đoạn tiếp theo của tài liệu khóa học. Mặc dù tôi chưa sẵn sàng dự đoán rằng OpenAI, Anthropic và Google sẽ thay thế Pearson, McGraw-Hill và Cengage, nhưng tôi hoàn toàn sẵn sàng dự đoán rằng các nhà xuất bản lớn sẽ bắt đầu tạo ra các gói tài liệu bổ sung độc quyền được thiết kế riêng để sử dụng với các mô hình ngôn ngữ độc quyền. Thật khó để nói chính xác điều này sẽ như thế nào, nhưng có một điều chắc chắn: sự khác biệt trong thiết kế và định dạng của tài liệu khóa học trước và sau AI tạo ra sẽ còn rõ rệt hơn sự khác biệt giữa thiết kế và định dạng của tài liệu khóa học trước và sau Internet.

Thay vì chờ đợi cho đến khi các công cụ AI tạo ra độc quyền được áp dụng rộng rãi trên thị trường tài liệu khóa học và cần nỗ lực đáng kể để thay thế chúng, chúng ta nên chủ động ngay từ bây giờ để đảm bảo rằng những người hướng dẫn muốn sử dụng LLM làm tài liệu khóa học có thể tiếp cận các tùy chọn chất lượng cao, được cấp phép mở ngay từ đầu. Các tùy chọn đó phải bao gồm cả bản thân các mô hình và các tài nguyên bổ sung cần thiết để sử dụng chúng một cách dễ dàng và hiệu quả. Việc tạo và chia sẻ các Mô hình ngôn ngữ giáo dục mở (Open Education Language Model), hay OELM (phát âm là "elms"), là một ví dụ về một bước chủ động mà chúng ta có thể thực hiện để đảm bảo rằng các công cụ AI tạo ra có thể giúp chúng ta tiến lên về khả năng chi trả, khả năng tiếp cận và công bằng thay vì thụt lùi. (Chắc chắn là có nhiều bước khác có thể thực hiện. Đây là bước mà tôi hiện đang thực hiện.)

Mô hình ngôn ngữ giáo dục mở

Mô hình ngôn ngữ giáo dục mở (OELM) tập hợp một bộ sưu tập các thành phần được cấp phép mở cho phép sử dụng một mô hình ngôn ngữ được cấp phép mở một cách dễ dàng và hiệu quả để hỗ trợ việc giảng dạy và học tập.

Thành phần cơ bản của OELM là một tập hợp các trọng số mô hình, là "bộ não" của mô hình ngôn ngữ. Meta, IBM, Mistral, Alibaba và nhiều công ty khác đã tạo ra và chia sẻ các trọng số mô hình chất lượng cao, được cấp phép mở và tốn hàng chục triệu đô la - thậm chí có thể hơn một trăm triệu đô la - để tạo ra. Nếu chúng ta sử dụng chúng chính xác như chúng ta tìm thấy chúng, việc tương tác với các mô hình này thực sự có thể dẫn đến một số tác hại được mô tả ở trên. Nhưng vì các trọng số mô hình là mở, nên chúng ta có cơ hội sửa đổi và phối lại chúng. Vì các trọng số mô hình là mở, nên chúng ta có thể thay đổi cách người học và giáo viên tương tác với chúng để tăng khả năng tiếp cận, khả năng chi trả và công bằng. Vì các trọng số mô hình là mở, nên chúng ta có quyền tự quyết lớn hơn đáng kể.

Trong OELM, các trọng số mô hình mở được bổ sung bởi các thành phần khác giúp chúng dễ sử dụng hơn, giải quyết các mối quan tâm chính về AI tạo sinh trong giáo dục và trả lời các câu hỏi bao gồm:

Làm thế nào để tôi sử dụng nó một cách hiệu quả?
Tôi có thể tin tưởng vào các phản hồi của nó là chính xác không?
Tôi có thể tin tưởng vào tính phù hợp của hành vi đó không?

Tôi sử dụng nó hiệu quả như thế nào? Một OELM bao gồm một bộ sưu tập toàn diện các lời nhắc được viết sẵn. Những lời nhắc này được thiết kế để hỗ trợ nhiều hoạt động khác nhau. Đối với người học, các hoạt động này có thể bao gồm các cuộc tranh luận, lập luận hoặc đối thoại, khám phá các khái niệm và ý tưởng mở, đặt câu hỏi làm rõ và nhận được câu trả lời cá nhân hóa, và tham gia vào quá trình đánh giá tương tác với phản hồi chẩn đoán ngay lập tức. Đối với giáo viên, các hoạt động này có thể bao gồm lập kế hoạch bài học, thiết kế bài tập học tập tích cực để sử dụng trong lớp học, phân biệt hướng dẫn, sửa đổi hoặc phối lại OER và soạn thảo phản hồi về bài tập của học sinh.

Tôi có thể tin tưởng vào phản hồi của nó là chính xác không? Một OELM bao gồm một bộ sưu tập OER được quản lý mà mô hình đó sử dụng để tạo sinh tăng cường truy xuất - RAG (Retrieval Augmented Generation). RAG là một quy trình mà các phản hồi của các mô hình được làm chính xác hơn và hoạt động như sau. Khi giáo viên hoặc người học gửi lời nhắc cho mô hình, trước khi lời nhắc được gửi đến mô hình, thông tin có liên quan sẽ được tìm kiếm trong bộ sưu tập OER và được thêm vào lời nhắc. Sau đó, mô hình sử dụng thông tin đã lấy từ OER làm cơ sở cho phản hồi của mình với người dùng, tăng cường kiến thức chung về chủ đề trước khi tạo ra phản hồi. Về mặt khái niệm, điều này tương tự như cách một thủ thư có thể tham khảo một tác phẩm tham khảo trước khi trả lời một câu hỏi.

Tôi có thể tin tưởng vào hành vi của nó là phù hợp không? Một OELM bao gồm một bộ sưu tập nội dung mở được thiết kế đặc biệt có thể được sử dụng để điều khiển hành vi của mô hình. Điều này có thể được nhúng vào lời nhắc hệ thống (lời nhắc mà người dùng không nhìn thấy nhưng điều khiển hành vi của mô hình ở chế độ nền) hoặc được sử dụng để tinh chỉnh. Tinh chỉnh là quá trình mà hành vi của mô hình được thay đổi vĩnh viễn theo một cách mong muốn nào đó. Trong bối cảnh OELM, tinh chỉnh là quá trình mà một mô hình có thể được tạo ra để hoạt động theo hướng sư phạm hơn. Ví dụ, một mô hình được tinh chỉnh để hoạt động như một nhân viên dịch vụ khách hàng hữu ích (như ChatGPT) trả lời trực tiếp các câu hỏi của học sinh, trong khi một mô hình được tinh chỉnh để hoạt động theo hướng sư phạm hơn có thể hỏi học sinh thêm các câu hỏi hoặc cung cấp gợi ý trước khi đưa ra câu trả lời. Về mặt khái niệm, tinh chỉnh một mô hình tương tự như việc cung cấp cho một sinh viên tốt nghiệp hiểu biết một vài giờ đào tạo để họ có thể trở thành một gia sư hiệu quả hơn.

Mỗi thành phần trong bốn thành phần này – trọng số mô hình, nội dung để tinh chỉnh, nội dung cho RAG và lời nhắc được viết sẵn – đều có thể được cấp phép công khai, cung cấp cho giáo viên, người học và những người khác quyền tham gia vào các hoạt động 5R. Hãy coi trọng số mô hình là sách giáo khoa cốt lõi và các thành phần khác là tài liệu bổ sung cần thiết để áp dụng rộng rãi. Và giống như OER truyền thống, khả năng sao chép, chỉnh sửa và chia sẻ lời nhắc và các thành phần OELM khác có nghĩa là chúng có thể được bản địa hóa để đáp ứng tốt nhất nhu cầu của từng người học, giảm thiểu tác hại tiềm ẩn liên quan đến AI tạo sinh và tăng khả năng tiếp cận, khả năng chi trả và công bằng.

Các thành phần của một Mô hình Ngôn ngữ Giáo dục Mở (OELM)

Chạy cục bộ OELM

R nền tảng trong khuôn khổ 5R là Giữ lại (Retain) – để tận dụng lợi thế của một nguồn tài nguyên giáo dục được cấp phép mở, bạn phải có khả năng tải xuống bản sao tài nguyên của riêng mình. Sau đó, bạn có thể lấy bản sao đã tải xuống đó và sửa đổi, phối lại, tái sử dụng và phân phối lại để đáp ứng nhu cầu của bạn và nhu cầu của những người xung quanh bạn. (Bạn sẽ lưu ý rằng không có "lớn" (Large) trong Mô hình ngôn ngữ giáo dục mở. Đó là vì các mô hình nhỏ là chìa khóa cho chiến lược này trong trung hạn đến dài hạn.)

Có một cộng đồng tích cực (ví dụ: Ollama, LM Studio, llama.cpp, v.v.) đang nỗ lực để giúp bạn dễ dàng tải xuống các mô hình trọng số mở và chạy chúng trên phần cứng của người tiêu dùng. Ngay bây giờ (vào cuối năm 2024), đã có nhiều mô hình trọng số mở có thể chạy trên máy tính để bàn, máy tính xách tay và thậm chí cả điện thoại thông minh mà không cần kết nối internet. Ví dụ, đối với Substack Reviewing Research on AI in Education (ngăn xếp phụ Rà soát lại Nghiên cứu về AI trong Giáo dục), tôi đã tạo ra một tác nhân (được hỗ trợ bởi mô hình trọng số mở Llama 3.1 chạy cục bộ trên máy tính xách tay của tôi thông qua Ollama) có thể đọc 150 – 300 bản tóm tắt mỗi sáng và đề xuất 3 – 5 bản tóm tắt hay nhất để tôi xem xét thêm.

Những tiến bộ trong việc chạy các mô hình cục bộ rất quan trọng vì những người không có quyền truy cập đáng tin cậy vào internet hiện không thể tận dụng AI tạo sinh để hỗ trợ việc giảng dạy và học tập. Tuy nhiên, khả năng chạy các mô hình cục bộ có nghĩa là OELM có thể được tải xuống ổ đĩa USB và gửi đến bất kỳ nơi nào có thiết bị phù hợp - sau đó sử dụng mà không cần quan tâm đến kết nối internet. Điều này làm tăng đáng kể số lượng người có thể hưởng lợi từ AI tạo sinh để hỗ trợ việc giảng dạy và học tập.

Khả năng chạy OELM cục bộ cũng giải quyết một số mối quan tâm của mọi người về AI tạo sinh. Ví dụ, nhiều người lo ngại về quyền riêng tư dữ liệu và cách dữ liệu của họ được các nhà cung cấp mô hình AI tạo sinh độc quyền sử dụng. Tuy nhiên, khi một mô hình chạy cục bộ trên thiết bị của người dùng, dữ liệu của người dùng sẽ không bao giờ rời khỏi thiết bị của họ - nghĩa là các nhà cung cấp độc quyền sẽ không bao giờ có quyền truy cập vào dữ liệu của người dùng. Việc chạy các mô hình nhỏ hơn trên các thiết bị cục bộ cũng giải quyết mối quan tâm về lượng điện, nước và các tài nguyên khác được các trung tâm dữ liệu khổng lồ phục vụ các mô hình AI tập trung tiêu thụ.

Và cuối cùng, khả năng tải xuống OELM và chạy chúng cục bộ cung cấp cho mọi người khả năng tham gia vào các hoạt động 5R. Bạn có thể tải xuống các trọng số mô hình - cũng như các thành phần khác - và chạy chúng cục bộ theo cách bạn tìm thấy hoặc sửa đổi và phối lại chúng trước. Việc trao quyền cho giáo viên và người học để họ có thể thực hiện đầy đủ hơn quyền tự quyết của mình đối với LLM sẽ là chìa khóa để kết hợp sức mạnh của mở và sức mạnh của AI tạo sinh nhằm cải thiện khả năng tiếp cận, khả năng chi trả và công bằng trong dài hạn.

Kết luận

Khi thị trường tài liệu khóa học bắt đầu chuyển đổi sang các sản phẩm và dịch vụ được AI hỗ trợ nhiều hơn, tính mở trở nên quan trọng hơn bao giờ hết đối với những người trong chúng ta quan tâm đến việc tăng khả năng tiếp cận, khả năng chi trả và công bằng. Có những bài học quan trọng mà chúng ta cần học về cách tận dụng AI hiệu quả để phục vụ cho việc giảng dạy và học tập, và cách thức mà quyền tự quyết bổ sung đi kèm với tính mở có thể giúp chúng ta thực hiện điều đó hiệu quả hơn nữa. Tôi rất vui khi bắt đầu học những bài học này. Hãy cho tôi biết nếu bạn quan tâm đến việc hợp tác trong lĩnh vực công việc này - Tôi đang lập kế hoạch cho học kỳ mùa xuân năm 2025.

Chủng loại artificial intelligence, equity, improving learning, open content