Theo TheNextWeb, mô hình của Facebook tên là M2M-100, thực chất là một dự án nghiên cứu, nhưng có thể sẽ được áp dụng để dịch bài đăng cho người dùng Facebook. Gần hai phần ba số người dùng của nền tảng này sử dụng các ngôn ngữ khác tiếng Anh.
Trợ lý nghiên cứu tại Facebook Angela Fan cho biết các nhà nghiên cứu AI đã làm việc trong nhiều năm để xây dựng một mô hình chung có khả năng hiểu tất cả ngôn ngữ trong những tác vụ khác nhau. Mô hình được kỳ vọng sẽ hỗ trợ tốt hơn cho nhiều người, khả năng dịch luôn được cập nhật và tạo ra những trải nghiệm mới đồng đều cho hàng tỉ người.
Mô hình này được đào tạo dựa trên bộ dữ liệu gồm 7,5 tỉ cặp câu trên 100 ngôn ngữ được khai thác từ các website. Facebook nói tất cả tài nguyên này đều là nguồn mở và sử dụng dữ liệu công khai sẵn có.
Để quản lý quy mô khai thác, nhóm nghiên cứu tập trung vào các bản dịch ngôn ngữ được yêu cầu phổ biến nhất và tránh trường hợp hiếm hơn, chẳng hạn như cặp ngôn ngữ Sinhala - Java. Sau đó, các ngôn ngữ được phân thành 14 nhóm khác nhau, dựa trên điểm tương đồng về ngôn ngữ, địa lý và văn hóa. Cách tiếp cận này được chọn vì người dùng ở chung một nhóm ngôn ngữ sẽ có thể hưởng lợi nhiều hơn từ các bản dịch giữa chúng.
Đối với ngôn ngữ thiếu dữ liệu dịch chất lượng, nhóm nghiên cứu đã sử dụng một phương pháp gọi là dịch ngược để tạo ra các bản dịch tổng hợp có thể bổ sung cho dữ liệu đã khai thác.
Mô hình vẫn chưa được tích hợp trong bất kỳ sản phẩm nào, nhưng các thử nghiệm cho thấy nó có thể hỗ trợ nhiều bản dịch trên Facebook, nơi có hơn 160 ngôn ngữ được sử dụng. Trên thước đo BLEU để đánh giá các bản dịch máy, công ty cho biết mô hình đã đạt kết quả cao hơn 10 điểm so với những hệ thống dịch lấy tiếng Anh làm trọng tâm.