DeepSeek của Trung Quốc vừa cho mọi công ty công nghệ Mỹ thấy họ đang bắt kịp AI nhanh như thế nào

Thứ tư - 05/02/2025 17:50
DeepSeek của Trung Quốc vừa cho mọi công ty công nghệ Mỹ thấy họ đang bắt kịp AI nhanh như thế nào

China's DeepSeek just showed every American tech company how quickly it's catching up in AI

Analysis by Hasan Chowdhury; Jan 27, 2025, 11:47 PM GMT+7

Theo: https://www.aol.com/chinese-startup-just-showed-every-105106877.html

Bài được đưa lên Internet ngày: 27/01/2025

CEO Sam Altman của OpenAI. Một mô hình AI mới từ DeepSeek của Trung Quốc cạnh tranh với o1 của OpenAI. JOEL SAGET/AFP via Getty Images

  • Một công ty khởi nghiệp AI tại Trung Quốc vừa cho thấy cách họ đang thu hẹp khoảng cách với các phòng thí nghiệm AI hàng đầu của Mỹ.

  • Công ty khởi nghiệp DeepSeek của Trung Quốc đã phát hành một mô hình AI mới vào thứ Hai tuần trước, dường như để cạnh tranh với o1 của OpenAI.

  • Khả năng lý luận của nó đã khiến các nhà nghiên cứu AI hàng đầu của Mỹ phải kinh ngạc.

Donald Trump đã bắt đầu nhiệm kỳ tổng thống mới của mình bằng tuyên bố rằng nước Mỹ phải dẫn đầu thế giới. Ông vừa nhận được một lời cảnh báo từ một nhóm chuyên gia AI tại Trung Quốc, những người sẵn sàng chứng minh rằng sự thống trị về công nghệ của Hoa Kỳ không phải là điều hiển nhiên.

Hãy gặp DeepSeek, một công ty khởi nghiệp của Trung Quốc tách ra từ một quỹ đầu cơ đã tồn tại trong một thập kỷ, chuyên tính toán các giao dịch khôn ngoan bằng AI và thuật toán. Bản phát hành mới nhất của công ty, ra mắt vào ngày Trump nhậm chức, đã khiến nhiều nhà nghiên cứu hàng đầu của ngành công nghiệp Hoa Kỳ sửng sốt.

Trong một bài báo được phát hành vào thứ Hai tuần trước, DeepSeek đã tiết lộ một mô hình AI hàng đầu mới có tên là R1, cho thấy một cấp độ "lý luận" mới. Lý do tại sao nó lại để lại ấn tượng lớn như vậy đối với các chuyên gia AI tại Hoa Kỳ là điều quan trọng.

Một số phòng thí nghiệm AI có nguồn lực tốt nhất của Thung lũng Silicon ngày càng chuyển sang "lý luận" như một ranh giới nghiên cứu có thể phát triển công nghệ của họ từ mức độ thông minh giống như của sinh viên sang thứ gì đó hoàn toàn vượt qua trí thông minh của con người.

Để thực hiện được điều này, OpenAI, Google, Anthropic và những công ty khác đã tập trung vào việc đảm bảo các mô hình dành nhiều thời gian hơn để suy nghĩ trước khi trả lời truy vấn của người dùng. Đây là một quá trình tốn kém, chuyên sâu đòi hỏi rất nhiều sức mạnh tính toán đang hoạt động bên dưới.

Xin nhắc lại, OpenAI đã phát hành đầy đủ o1 — "các mô hình được thiết kế để dành nhiều thời gian suy nghĩ hơn trước khi phản hồi" — và nhận được sự đón nhận nồng nhiệt vào tháng 12 sau lần phát hành đầu tiên vào tháng 9. R1 của DeepSeek cho thấy khả năng thu hẹp khoảng cách nhanh chóng như thế nào.

DeepSeek thu hẹp khoảng cách

R1 thực sự làm gì? Đầu tiên, DeepSeek cho biết R1 đạt được "hiệu suất tương đương với OpenAI o1 trong các tác vụ toán học, mã và lý luận".

Bài báo nghiên cứu của công ty cho biết điều này có thể thực hiện được nhờ "tăng cường thuần túy việc học", một kỹ thuật mà Jim Fan, giám đốc nghiên cứu cấp cao tại Nvidia, cho biết gợi nhớ đến bí mật đằng sau việc biến AlphaZero của Google DeepMind trở thành bậc thầy trong các trò chơi như cờ vây và cờ vua ngay từ đầu, "mà không cần bắt chước các nước đi của đại kiện tướng con người trước đó". Ông đã viết trên X rằng đây là "điểm đáng chú ý nhất từ bài báo".

DeepSeek, ra mắt vào năm 2023, cho biết trong bài báo của mình rằng họ làm như vậy vì mục tiêu của công ty là khám phá tiềm năng của AI để "phát triển khả năng lý luận mà không cần bất kỳ dữ liệu giám sát nào". Đây là một kỹ thuật phổ biến được các nhà nghiên cứu AI sử dụng. Công ty cũng cho biết phiên bản R1 trước đó có tên là R1-Zero đã mang đến cho họ "khoảnh khắc aha" trong đó AI "học cách phân bổ nhiều thời gian suy nghĩ hơn cho một vấn đề bằng cách đánh giá lại cách tiếp cận ban đầu của mình".

Kết quả cuối cùng cung cấp những gì mà giáo sư Ethan Mollick của Wharton mô tả là phản hồi từ R1 có nội dung "giống như con người đang suy nghĩ thành tiếng".

Đáng chú ý là mức độ minh bạch này trong quá trình phát triển AI rất khó có thể tìm thấy trong các ghi chú do các công ty như OpenAI công bố khi phát hành các mô hình có khả năng tương tự.

Nathan Lambert, một nhà khoa học nghiên cứu tại Viện Allen về AI, cho biết trên Substack rằng bài báo của R1 "là một bước chuyển đổi quan trọng trong sự không chắc chắn trong nghiên cứu mô hình lý luận" vì "cho đến nay, các mô hình lý luận vẫn là một lĩnh vực nghiên cứu công nghiệp chính mà không có tài liệu quan trọng rõ ràng".

Giữ đúng tinh thần mở, mô hình R1 của DeepSeek, quan trọng là, từng là nguồn mở hoàn toàn, mang giấy phép MIT — tiêu chuẩn công nghiệp về cấp phép phần mềm.

Cùng nhau, các yếu tố này của R1 gây ra sự phức tạp cho những người chơi Hoa Kỳ bị cuốn vào cuộc chạy đua vũ trang về AI với Trung Quốc — đối thủ địa chính trị chính của Trump — vì một số lý do.

Đầu tiên, nó cho thấy Trung Quốc có thể cạnh tranh với một số mô hình AI hàng đầu trong ngành và bắt kịp với những phát triển tiên tiến đến từ Thung lũng Silicon.

Thứ hai, AI nguồn mở tiên tiến cao độ cũng có thể thách thức các công ty đang tìm cách kiếm lợi nhuận khổng lồ bằng cách bán công nghệ của họ.

Ví dụ, OpenAI đã giới thiệu kế hoạch ChatGPT Pro vào tháng 12 với mức giá 200 USD một tháng. Điểm hấp dẫn của gói này là nó bao gồm "quyền truy cập không giới hạn" vào mô hình thông minh nhất của mình tại thời điểm đó, o1. Nếu một mô hình nguồn mở cung cấp các khả năng tương tự miễn phí, động lực mua gói đăng ký thuê bao phải trả phí đắt đỏ có thể giảm đi.

Fan của Nvidia đã mô tả tình huống như thế này trên X: "Chúng ta đang sống trong một dòng thời gian mà một công ty không phải của Hoa Kỳ đang duy trì sứ mệnh ban đầu của OpenAI — nghiên cứu thực sự mở, tiên phong trao quyền cho tất cả mọi người".

DeepSeek đã từng thể hiện bí quyết lập luận trước đây. Vào tháng 11, công ty đã phát hành "R1-lite-preview" (bản xem trước nhỏ) cho thấy "quy trình suy nghĩ minh bạch theo thời gian thực" của mình. Vào tháng 12, công ty đã phát hành một mô hình có tên là V3 để làm nền tảng mới, lớn hơn cho lập luận trong tương lai trong các mô hình.

Đây là lý do quan trọng khiến các nhà nghiên cứu Mỹ nhìn thấy sự cải thiện có ý nghĩa ở mô hình mới nhất R1.

Theo Browne, một nhà phát triển phần mềm đứng sau kênh YouTube phổ biến dành cho cộng đồng công nghệ, cho biết "mô hình DeepSeek R1 mới thật đáng kinh ngạc". Tanay Jaipuria, một đối tác đầu tư vào AI tại Wing VC của Thung lũng Silicon, cũng mô tả nó là "đáng kinh ngạc".

Awni Hannun, một nhà nghiên cứu về máy học tại Apple, cho biết một lợi thế chính của R1 là ít chuyên sâu hơn, cho thấy ngành công nghiệp này đang "tiến gần đến o1 mã nguồn mở, tại nhà, trên phần cứng của người tiêu dùng", ám chỉ đến mô hình lý luận của OpenAI được giới thiệu vào năm ngoái.

Mô hình này có thể được "chưng cất", nghĩa là các phiên bản nhỏ hơn nhưng cũng mạnh mẽ hơn có thể chạy trên phần cứng ít chuyên sâu hơn nhiều so với sức mạnh tính toán được tải vào máy chủ trong các trung tâm dữ liệu mà nhiều công ty công nghệ phụ thuộc vào để chạy các mô hình AI của họ.

Hannun đã chứng minh điều này bằng cách chia sẻ một đoạn clip trên X về phiên bản R1 có 671 tỷ tham số chạy trên hai chip Apple M2 Ultra, trả lời một cách hợp lý cho một lời nhắc hỏi rằng liệu một bộ bài thẳng hay một bộ bài đồng chất tốt hơn trong một ván bài Texas Hold'em. Hannun cho biết phản ứng của họ "nhanh hơn tốc độ đọc".

Kiểm duyệt AI

R1 dường như có một vấn đề chính. Cựu thành viên hội đồng quản trị OpenAI Helen Toner đã chỉ ra trên X rằng có những bản demo về R1 "tự tắt khi được hỏi về các chủ đề mà CCP không thích".

Tuy nhiên, Toner đã gợi ý rằng "rõ ràng là kiểm duyệt được thực hiện bởi một lớp trên cùng, chứ không phải bản thân mô hình". DeepSeek đã không trả lời ngay lập tức yêu cầu bình luận.

Tất nhiên, điều đáng chú ý là OpenAI đã giới thiệu một mô hình mới có tên là o3, được cho là phiên bản kế nhiệm của mô hình o1 mà DeepSeek đang cạnh tranh. Lambert cho biết trong bài đăng trên blog của mình rằng OpenAI "có khả năng vượt trội về mặt kỹ thuật", nhưng ông đã thêm vào cảnh báo quan trọng là mô hình o3 "không khả dụng nói chung" và thông tin cơ bản như "trọng số" của mô hình này sẽ không sớm có.

Với thành tích của DeepSeek cho đến nay, đừng ngạc nhiên nếu mô hình tiếp theo của công ty này ngang bằng với o3. Các nhà lãnh đạo công nghệ của Hoa Kỳ có thể đã gặp đối thủ của họ ở Trung Quốc.

Tác giả: admin

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Những tin mới hơn

Những tin cũ hơn

GIÁO DỤC MỞ - TÀI NGUYÊN GIÁO DỤC MỞ: ỨNG DỤNG VÀ PHÁT TRIỂN

Trang Web này được thành lập theo Quyết định số 142/QĐ-HH do Chủ tịch Hiệp hội các trường đại học, cao đẳng Việt Nam – AVU&C (Association of Vietnam Universities and Colleges), GS.TS. Trần Hồng Quân ký ngày 16/09/2019, ngay trước thềm của Hội thảo ‘Xây dựng và khai thác tài nguyên giáo dục mở’ do 5...

Thống kê truy cập
  • Đang truy cập36
  • Máy chủ tìm kiếm5
  • Khách viếng thăm31
  • Hôm nay9,327
  • Tháng hiện tại166,013
  • Tổng lượt truy cập7,526,310
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây