Theo Engadget, bạn có thể nhận thấy sự cải thiện rõ rệt về chất lượng âm thanh của Stories trên YouTube trong thời gian tới nhờ vào tính năng mới. Vài năm trước, Google từng giới thiệu công nghệ AI “Looking to Listen” với khả năng lọc ra giọng nói từ một đám đông. Giờ đây họ sẽ áp dụng nó cho YouTube Stories trên các thiết bị iOS.
Bằng một bộ sưu tập lớn các video trực tuyến, Google đã đào tạo Looking to Listen về mối tương quan giữa tín hiệu giọng nói và hình ảnh, chẳng hạn như cử động miệng và nét mặt của người nói. Để đảm bảo nó sẽ hoạt động với tất cả mọi người và không thiên vị, Google tiến hành một loạt thử nghiệm để tìm hiểu hiệu quả dựa trên thuộc tính thính giác và thị giác khác nhau. Các thuộc tính này gồm tuổi của người nói, màu da, ngôn ngữ, cao độ giọng nói, độ hiển thị của khuôn mặt, tư thế đầu, lông mặt, sự hiện diện của kính, mức độ của tiếng ồn xung quanh. Google đã có thể xác định khả năng cải thiện giọng nói của công nghệ vẫn khá nhất quán giữa những ngôn ngữ của người nói.
Công ty cũng giải thích cách họ đã cải thiện loại công nghệ này trong những năm qua. Các lập trình viên đã đảm bảo nó vẫn có thể thực hiện tất cả quá trình xử lý ngay trên thiết bị, nên không cần phải gửi dữ liệu đến máy chủ từ xa. Họ cũng dùng một kỹ thuật hỗ trợ nó nhanh chóng trích xuất hình ảnh thu nhỏ chứa khuôn mặt từ video. Điều đó cho phép Looking to Listen thực hiện nhiệm vụ ngay trong lúc video đang được quay. Ngoài ra, Google cũng tăng đáng kể hiệu suất về thời gian, khi nó chỉ cần vài giây để xử lý một video khoảng 15 giây.
Để kích hoạt tính năng này, người dùng chỉ cần bật Enhance speech (Nâng cao giọng nói) trong mục điều khiển âm lượng trên iOS.