Nhóm nghiên cứu cho biết, hệ thống dịch Microsoft AI đạt được sự tương đồng khi thực hiện chương trình kiểm tra các bài báo có tên gọi newstest2017. Đây là chương trình được phát triển bởi một nhóm đối tác công nghệ và giáo dục, ra mắt tại hội nghị nghiên cứu WMT17 vào mùa thu năm ngoái.
Để đảm bảo kết quả chính xác và tương đương với những gì con người làm được, nhóm đã tuyển vào hai chuyên viên đánh giá song ngữ nhằm so sánh kết quả của Microsoft với phần dịch thuật của hai người dịch độc lập.
Xuedong Huang, nhà nghiên cứu kỹ thuật phụ trách mảng lời nói, ngôn ngữ tự nhiên và dịch thuật tự động của Microsoft, gọi đây là một cột mốc quan trọng của một trong những quy trình xử lý ngôn ngữ tự nhiên phức tạp nhất.
“Đạt được sự tương đồng với con người trong việc dịch tự động là ước mơ của tất cả chúng tôi”, Huang cho hay. “Chúng tôi chỉ không nhận ra rằng mình có thể thành công sớm như vậy”.
Huang cũng là người dẫn đầu nhóm nghiên cứu gần đây đạt được hiệu quả nhận diện giọng nói hội thoại tương đồng như con người.
Ông chia sẻ rằng cột mốc dịch thuật này đặc biệt đáng ghi nhớ vì khả năng giúp con người hiểu nhau tốt hơn. “Giúp xóa bỏ rào cản ngôn ngữ mang con người đến gần hơn với nhau là điều rất tuyệt,” ông nói. “Tôi tự hào về điều đó”.
Dịch tự động là một vấn đề mà các nhà chuyên gia đã nghiên cứu hàng thập kỷ, và hầu hết thời gian đó, nhiều người tin việc tương đương với con người là không bao giờ đạt được. Tuy nhiên, đạt được cột mốc này không có nghĩa là những thách thức của việc dịch tự động đã được giải quyết.
Ming Zhou, phó giám đốc Khối Nghiên cứu Microsoft châu Á và trưởng bộ phận xử lý ngôn ngữ tự nhiên cùng làm việc trong dự án, nói rằng: Nhóm rất vui mừng khi đạt được cột mốc tương đồng con người trên bộ dữ liệu. Nhưng ông cho rằng vẫn còn nhiều khó khăn phía trước, như thử nghiệm hệ thống trên các tin tức thời gian thực.
Arul Menezes, Giám đốc quản lý đối tác nghiên cứu của nhóm dịch tự động của Microsoft chia sẻ rằng nhóm đã bắt đầu chứng minh hệ thống của họ có thể làm việc tốt được như con người khi xử lý song song hai ngôn ngữ Trung Quốc – Tiếng Anh - có rất nhiều dữ liệu cần xử lý và kiểm tra, bao gồm từ vựng thông thường trong các tin tức phổ biến.
“Trong trường hợp tốt nhất, khi lượng dữ liệu và công nghệ cho phép, chúng tôi muốn thử xem mình có thể đạt được đến trình độ dịch thuật chuyên nghiệp hay không“, ông Menezes, người giúp quản lý dự án nói.
Menezes cũng cho biết nhóm nghiên cứu có thể áp dụng những phát minh kỹ thuật mà họ đã làm được trong dự án này cho các sản phẩm thương mại về dịch thuật đa ngôn ngữ của Microsoft.
Đây sẽ là khởi đầu cho các dịch thuật chính xác và tự nhiên hơn giữa các ngôn ngữ và những đoạn văn có các từ vựng phức tạp và chuyên biệt hơn.