Xây dựng mô hình ngôn ngữ lớn "nội địa" - khát vọng tự chủ, tự cường công nghệ

Tạp chí Nhịp sống số - Không có tiềm lực như các "ông lớn" công nghệ trên thế giới, việc phát triển mô hình ngôn ngữ lớn của doanh nghiệp Việt Nam gặp khá nhiều khó khăn.

Thị trường đầy tiềm năng cho mô hình ngôn ngữ lớn

Theo báo cáo từ Grand View Research, quy mô thị trường mô hình ngôn ngữ lớn (LLM) toàn cầu ước tính đạt 5.617 triệu USD năm 2024 và dự kiến sẽ có tốc độ tăng trưởng kép hằng năm (CAGR) là 36,9% từ năm 2025 tới 2030.

Ở phạm vi hẹp hơn, lĩnh vực này tại khu vực Đông Nam Á ít được quan tâm hơn nhưng cũng đang cho thấy những bước tiến mạnh mẽ. Theo đó, mặc dù nguồn dữ liệu bị hạn chế so với các ngôn ngữ phổ biến toàn cầu như tiếng Anh, tiếng Trung..., nhưng các doanh nghiệp trong khu vực đã bắt đầu nắm bắt cơ hội xây dựng các mô hình ngôn ngữ lớn. Đơn cử, Singapore đã cho ra mắt mô hình ngôn ngữ lớn đầu tiên của quốc gia này mang tên SEA-LION LLM với 13% tập dữ liệu được đào tạo bằng các ngôn ngữ Đông Nam Á.

Không nằm ngoài xu thế, Việt Nam bước đầu đã có những bước tiến mạnh mẽ trong nỗ lực phát triển mô hình ngôn ngữ lớn của riêng mình. Với nguồn lực hạn chế so với các ông lớn công nghệ trên thế giới, giai đoạn đầu phát triển mô hình ngôn ngữ lớn của Việt Nam gặp khá nhiều khó khăn. Bên cạnh vấn đề thiếu hụt dữ liệu (tiếng Việt được xếp vào nhóm có tài nguyên dữ liệu nghèo nàn hơn hàng chục lần so với tiếng Anh hay tiếng Trung), các kỹ sư Việt cũng chưa được trang bị đầy đủ hạ tầng máy chủ cần thiết. Trong khi đó, các công ty lớn trên thế giới đã sở hữu hàng nghìn GPU mới nhất từ Nvidia. Cùng đó, Việt Nam cũng gặp hạn chế về nhân lực và kinh nghiệm huấn luyện mô hình ngôn ngữ lớn.

Xây dựng mô hình ngôn ngữ lớn "nội địa" - khát vọng tự chủ, tự cường công nghệ

Trong bối cảnh đó, tại Việt Nam, Zalo là một trong những đơn vị "dấn thân" vào xây dựng mô hình ngôn ngữ lớn nội địa. Với mục tiêu tự chủ công nghệ AI, đồng thời giảm phụ thuộc vào công nghệ của nước ngoài, mô hình với 13 tỷ tham số đã được Zalo phát triển bằng kỹ thuật huấn luyện từ đầu - triển khai tất cả quy trình từ khởi tạo tham số, quyết định kiến trúc mô hình tới thuật toán huấn luyện trên tập dữ liệu nhất định.

Kỹ thuật huấn luyện này giúp người Việt làm chủ và kiểm soát toàn bộ quá trình huấn luyện cũng như mô hình. Tới nay, sự ra đời của mô hình này đã đưa Việt Nam trở thành một trong số ít các quốc gia ở khu vực Đông Nam Á sở hữu mô hình ngôn ngữ lớn nội địa.

Nhờ trang bị hạ tầng tính toán với 8 máy chủ DGX H100, mô hình LLM của Zalo đã được phát triển trực tiếp bằng dòng GPU mới và khan hiếm nhất của Nvidia lúc đó với hiệu suất lên đến 256 petaFLOPS (FLoating-point Operations Per Second - một petaFLOP tương đương với 10 triệu tỷ phép tính/giây). Zalo cũng tăng cường phát triển dữ liệu tiếng Việt để bù đắp sự thiếu hụt của thị trường, đồng thời trang bị kiến thức và năng lực huấn luyện LLM cho các kỹ sư Việt thông qua hàng loạt nghiên cứu thực hiện trên các GPU dân dụng nhỏ. Từ đó tạo nền tảng sẵn sàng ngay khi sở hữu hạ tầng tính toán lớn hơn sau này.

Những thành tựu bước đầu

Định hướng phát triển đúng đắn đã giúp Zalo phát triển thành công mô hình ngôn ngữ lớn với 7 tỷ tham số tập trung vào tiếng Việt chỉ sau 6 tháng huấn luyện vào năm 2023, đạt 150% năng lực so với GPT3.5 của OpenAI theo đánh giá của VMLU - Nền tảng đánh giá và xếp hạng năng lực tiếng Việt của các LLM (Vietnamese Multitask Language Understanding Benchmark Suite for Large Language Models).

Tới hết năm 2024, mô hình ngôn ngữ lớn của Zalo đã vươn lên vị trí số 2 trên bảng xếp hạng các mô hình được huấn luyện từ đầu của VMLU. Cụ thể, mô hình chỉ xếp sau Llama-3-70B của Meta, chính thức vượt qua các tên tuổi lớn như GPT-4 (OpenAI), gemma-2-9b-it (Google), microsoft/Phi-3-small-128k-instruct (Microsoft).

Xây dựng mô hình ngôn ngữ lớn "nội địa" - khát vọng tự chủ, tự cường công nghệ

TS. Nguyễn Trường Sơn, Giám đốc Khoa học tại Zalo AI, cho biết: “Mặc dù xuất phát điểm gặp nhiều khó khăn so với các công ty lớn trên thế giới nhưng Zalo vẫn quyết định nhập cuộc chơi từ sớm với mục tiêu phát triển thành công mô hình AI của riêng Việt Nam. Chúng tôi đã tham vấn kinh nghiệm từ các nhà nghiên cứu, kỹ sư tại nhiều viện nghiên cứu hàng đầu trên thế giới để có chiến lược phát triển phù hợp. Những dấu mốc thành công tới hiện tại là động lực để các kỹ sư Zalo tiếp tục tối ưu mô hình lớn hơn về lượng và tốt hơn về chất.”

Những dấu mốc thành công trong việc nghiên cứu và huấn luyện mô hình đã tạo động lực cho các kỹ sư của Zalo đưa mô hình LLM vào phát triển các ứng dụng hữu ích cho người dùng Việt, tiêu biểu phải kể đến Trợ lý hỏi đáp tổng hợp Kiki Info đang được vận hành dưới dạng một OA - Official Account (Tài khoản chính thức) trên Zalo. Theo thống kê của Zalo, trợ lý Kiki Info đã có tới 1 triệu lượt người dùng truy cập vào tài khoản OA trên Zalo chỉ trong chưa đầy 2 tháng.

Trong nỗ lực góp sức phát triển nền công nghệ của đất nước, Zalo không chỉ định hướng làm chủ công nghệ tiên tiến nói chung và AI nói riêng mà còn đồng hành cùng cộng đồng công nghệ Việt thúc đẩy kiến tạo sản phẩm công nghệ AI của người Việt phục vụ cho người Việt.

Chia sẻ niềm tin về tương lai của công nghệ Việt Nam, Nhà sáng lập Zalo - Vương Quang Khải khẳng định: “Về mặt phát triển ứng dụng AI, tôi khá lạc quan và có niềm tin rằng người Việt Nam mình không thua kém ai, không chỉ làm ứng dụng nội địa mà còn xuất khẩu ra thế giới”.

Tin liên quan

Có thể bạn quan tâm