Trên thế giới, công nghệ giọng nói được nghiên cứu và có những bứt phá mạnh mẽ trong khoảng 10 năm trở lại đây. Những “ông trùm” công nghệ lớn trên thế giới đều sở hữu nhiều giọng máy riêng với chất lượng giọng tự nhiên như người thật. Những giọng máy nổi tiếng và gần gũi nhất có thể kể đến Google Assistant, Amazon Alexa, Trợ lý ảo Siri của Apple hay Samsung Bixby…
Để tiếp cận thị trường Việt Nam, nhiều công ty công nghệ toàn cầu đã phát triển giọng nói tiếng Việt như Google, Nuance. Tuy nhiên chất lượng giọng không tự nhiên và gặp nhiều hạn chế về tính vùng miền. Giọng máy tiếng Việt “Made in Vietnam” thì có ngữ điệu gần gũi với người Việt hơn nhưng lại bị hạn chế về hiệu năng, khả năng tích hợp với các hệ thống lớn.
Mới đây, FPT.AI đã ra mắt thêm hàng loạt các giọng máy mới ứng dụng công nghệ AceSound vượt trội.
Đại diện FPT cho biết, AceSound vận dụng những công nghệ tiên tiến nhất về tổng hợp giọng nói, khai thác triệt để công nghệ học sâu (deep learning). Do đó, mô hình máy tính có thể học được hàng nghìn đặc trưng về ngữ điệu, biểu cảm trong giọng nói tự nhiên của con người. Kiến trúc mô hình học sâu được tinh chỉnh riêng để tối ưu cho từng giọng nói theo giới tính, vùng miền. Để giọng máy hoàn thiện và có chất lượng tự nhiên như người thật, đội ngũ kĩ sư, các nhà khoa học của FPT.AI đã thực hiện hàng nghìn thí nghiệm nhằm phân tích mẫu, liên tục cải tiến chất lượng âm học.
Phiên bản mới thay đổi về cao độ, tốc độ, cách phát âm, khả năng ngắt nghỉ… khiến giọng máy AceSound trở nên mượt mà, sống động hơn. Các giọng mới như giọng Ban Mai AceSound, giọng Minh Quang AceSound, giọng Thu Minh AceSound… có ngữ điệu, biểu cảm gần như tiệm cận với người thật, chất lượng ngang với giọng đọc của các MC chuyên nghiệp. Hầu hết người nghe không phân biệt được giọng máy AceSound với giọng người thật trong 10 giây đầu tiên. Hơn thế nữa, giọng máy AceSound có hiệu năng triển khai vượt trội, sẵn sàng tích hợp với các hệ thống lớn trong thời gian ngắn.
Đến nay, giọng máy FPT.AI đã được tích hợp vào Trợ lý ảo của các trung tâm tổng đài Chăm sóc khách hàng (CSKH) tại nhiều doanh nghiệp lớn như Home Credit, ngân hàng VIB, công ty dược Boston Pharma, v.v. Với hiệu năng triển khai vượt trội và khả năng tích hợp vào các hệ thống tổng đài lớn, giọng máy FPT.AI hiện đang phục vụ hàng triệu khách hàng mỗi tháng với số điểm hài lòng trung bình lên tới 4,5/5 điểm.
Với công nghệ AceSound, giọng máy có thể hoạt động như người phát ngôn của thương hiệu, truyền bá thông điệp của doanh nghiệp bằng một giọng nói đặc trưng, tạo ra dấu ấn riêng các doanh nghiệp Việt thời 4.0.
Trong bối cảnh đại dịch Covid-19 diễn biến phức tạp, Trợ lý ảo AI hỗ trợ đắc lực công tác phòng chống dịch như tiếp nhận các cuộc gọi cần hỗ trợ từ người dân, thực hiện cuộc gọi sàng lọc người bệnh, thông báo lịch tiêm vắc-xin, thăm hỏi sức khỏe của người dân sau khi tiêm vắc-xin. Các ứng dụng sử dụng giọng máy để giao tiếp ngày càng trở nên phổ biến hơn trên thế giới. Không chỉ mang lại lợi ích cho công đồng người khuyết tật, người khiếm thị, những người mất khả năng đọc, giọng máy còn được ứng dụng nhiều vào lĩnh vực giáo dục như sách nói, các bài giảng điện tử.
Quý độc giả có thể trải nghiệm giọng máy tiếng Việt FPT.AI AceSound tại đây.