Một phòng thí nghiệm của Trung Quốc đã tạo ra một trong những mô hình AI ‘mở’ mạnh nhất từ trước đến nay.
Một phòng thí nghiệm của Trung Quốc đã tạo ra một trong những mô hình AI ‘mở’ mạnh nhất từ trước đến nay: DeepSeek V3.
Theo TechCrunch, DeepSeek V3, được phát triển bởi công ty AI DeepSeek, có thể xử lý nhiều khối lượng công việc và tác vụ dựa trên văn bản, mã hóa, dịch thuật và viết bài luận. Các thử nghiệm chuẩn nội bộ cho thấy DeepSeek V3 vượt trội hơn cả các mô hình khác, bao gồm Llama 3.1 405B của Meta, GPT-4o của OpenAI và Qwen 2.5 72B của Alibaba. DeepSeek V3 cũng đánh bại đối thủ cạnh tranh trên Aider Polyglot – một bài kiểm tra được thiết kế để đo lường.
DeepSeek tuyên bố rằng DeepSeek V3 đã được đào tạo trên tập dữ liệu gồm 14,8 nghìn tỷ mã thông báo. Trong khoa học dữ liệu, mã thông báo được sử dụng để biểu diễn các bit dữ liệu thô. 1 triệu mã thông báo bằng khoảng 750.000 từ.
Dù không phải là mô hình thực tế nhất, song DeepSeek V3 vẫn được đánh giá là một thành tựu lớn. DeepSeek đã có thể đào tạo mô hình bằng cách sử dụng một trung tâm dữ liệu GPU Nvidia H800 chỉ trong khoảng 2 tháng. 5,5 triệu USD đã được chi để đào tạo mô hình này.
Đây được coi là bước đột phá quan trọng, mở ra cơ hội cho Trung Quốc vượt qua Mỹ về năng lực AI, bất chấp những hạn chế về tiếp cận chip tiên tiến và nguồn vốn. Các trang web tuyển dụng, cuộc phỏng vấn với cựu nhân viên và các bài báo địa phương cho thấy bước đột phá này là thành quả của một nhà sáng lập kín tiếng và đội ngũ nghiên cứu trẻ tuổi.
Năm 2023, DeepSeek được tách ra từ quỹ đầu cơ High Flyer-Quant. Nhà sáng lập High-Flyer Quant, Liang Wenfeng, cũng chính là người đứng sau DeepSeek, từng được đào tạo về AI tại Đại học Chiết Giang.
Trước đó, DeepSeek đã tạo nên làn sóng mới với mô hình có tên DeepSeek-R1. Đại diện công ty tuyên bố mô hình R1 của họ có thể cạnh tranh với o1 của OpenAI — mô hình được thiết kế để lý luận hoặc giải quyết các nhiệm vụ phức tạp.
“Trong năm ngoái, chúng tôi đã chứng kiến sự gia tăng các đóng góp nguồn mở của Trung Quốc với hiệu suất thực sự mạnh mẽ, chi phí phục vụ thấp và thông lượng cao”, Grace Isford, đối tác tại Lux Capital, trả lời CNBC qua email.
Theo CNBC, các công ty AI của Trung Quốc đang phát triển các mô hình ngôn ngữ lớn, hay LLM, được đào tạo trên một lượng lớn dữ liệu và hỗ trợ các ứng dụng như chatbot. Đa số đều tập trung vào LLM nguồn mở để các nhà phát triển có thể tải xuống và xây dựng miễn phí thay vì yêu cầu cấp phép.
Trên Hugging Face, một kho lưu trữ LLM, LLM Trung Quốc được tải xuống nhiều nhất, theo Tiezhen Wang, một kỹ sư học máy tại công ty. Trong đó, Qwen, họ mô hình AI do gã khổng lồ thương mại điện tử Trung Quốc Alibaba tạo ra là phổ biến nhất.
“Qwen đang nhanh chóng trở nên phổ biến do hiệu suất vượt trội của nó trên các tiêu chuẩn cạnh tranh”, Wang trả lời CNBC qua email và nói thêm rằng Qwen có “mô hình cấp phép rất thuận lợi”, cho phép các công ty sử dụng mà không cần “đánh giá pháp lý”.
Việc cung cấp nguồn mở phục vụ một số mục đích, bao gồm thúc đẩy đổi mới khi nhiều nhà phát triển có quyền truy cập vào công nghệ, đồng thời xây dựng thành công một cộng đồng xung quanh một sản phẩm. Theo CNBC, các LLM nguồn mở còn mang lại cho các công ty Trung Quốc một lợi thế khác: cho phép mô hình của mình được sử dụng trên toàn cầu.
“Các công ty Trung Quốc muốn thấy các mô hình của họ được sử dụng bên ngoài Trung Quốc. Đây chắc chắn là cách để họ trở thành những người chơi toàn cầu trong lĩnh vực AI”, Paul Triolo, đối tác tại công ty tư vấn toàn cầu DGA Group, trả lời CNBC qua email.
Theo CNBC, các mô hình AI ngày nay đã được so sánh với các hệ điều hành, chẳng hạn như Windows của Microsoft, Android của Google và iOS của Apple, với tiềm năng thống trị thị trường, giống như những công ty này làm trên thiết bị di động và PC. Nếu đúng như vậy, kịch bản sẽ khiến cho việc xây dựng một LLM thống trị trở nên khó khăn hơn.
“Các công ty Trung Quốc coi LLM là trung tâm của hệ sinh thái công nghệ tương lai”, Xin Sun, giảng viên cao cấp về kinh doanh Trung Quốc và Đông Á tại King’s College London, trả lời CNBC qua email. “Các mô hình kinh doanh trong tương lai sẽ dựa vào việc các nhà phát triển tham gia hệ sinh thái, phát triển ứng dụng mới dựa trên LLM và thu hút người dùng. Lợi nhuận có thể được tạo ra sau đó thông qua nhiều phương tiện khác nhau”.
Trong khoảng một năm trở lại đây, Mỹ tăng cường các hạn chế xuất khẩu thiết bị sản xuất chip và chất bán dẫn tiên tiến sang Trung Quốc. Điều này có nghĩa là các chip tiên tiến của Nvidia không thể xuất khẩu sang quốc gia này và công ty đã phải tạo ra các chất bán dẫn tuân thủ lệnh trừng phạt để xuất khẩu.
Tuy nhiên, bất chấp những hạn chế này, các công ty Trung Quốc vẫn có thể tung ra các mô hình AI tiên tiến. “Các nền tảng công nghệ lớn của Trung Quốc hiện có đủ khả năng tiếp cận sức mạnh tính toán để tiếp tục cải thiện mô hình. Điều này là do họ đã tích trữ một lượng lớn GPU Nvidia và cũng đang tận dụng GPU trong nước từ Huawei và các công ty khác”, Triolo của DGA Group cho biết.
Theo: CNBC, TechCrunch-Vũ Anh-Nhịp sống thị trường