Các nhà nghiên cứu từ Google, Đại học California-Berkeley và Viện Công nghệ Georgia đã xuất bản một bài báo trên cơ sở dữ liệu lưu trữ các bài báo khoa học arXiv, mô tả một kỹ thuật trí thông minh nhân tạo (AI) được gọi là học tăng cường sâu (deep Reinforcement Learning) mà họ đã sử dụng để tạo ra robot Rainbow Dash.
Thành tựu trên rất có ý nghĩa vì nhiều lý do. Hầu hết những triển khai thuật toán học tăng cường sâu diễn ra trong môi trường mô phỏng máy tính. Nhưng Rainbow Dash lại được áp dụng công nghệ này để học cách bước đi trong môi trường vật lý thực tế. Hơn nữa, nó có thể tự bước đi mà không cần bất kỳ một cơ chế giảng dạy chuyên dụng nào, chẳng hạn như người hướng dẫn hoặc dữ liệu đào tạo được dán nhãn. Cuối cùng, Rainbow Dash đã thành công khi bước đi trên nhiều bề mặt, bao gồm nệm xốp mềm, thảm chùi chân.
Kỹ thuật học tăng cường sâu áp dụng trên Rainbow Dash bao gồm một loại học máy trong đó một tác nhân tương tác với một môi trường để học bằng cách thử nghiệm và mắc lỗi sai. Hầu hết kỹ thuật học tăng cường đều sử dụng những trường hợp liên quan đến các trò chơi trên máy tính mà ở đó các tác nhân kỹ thuật số tự học cách chơi để giành chiến thắng.
Hình thức học máy này khác biệt rõ ràng so với học có giám sát hoặc không có giám sát theo lối truyền thống, theo đó các mô hình học máy đòi hỏi cần có dữ liệu đào tạo được dán nhãn để học. Học tăng cường sâu kết hợp các phương pháp học tăng cường với học sâu, giúp quy mô của học máy truyền thống được mở rộng đáng kể với sức mạnh tính toán khổng lồ.
Mặc dù Rainbow Dash tự học cách di chuyển, nhưng sự can thiệp của con người vẫn đóng vai trò quan trọng trong việc đạt được mục tiêu đó. Nhóm các nhà nghiên cứu đã phải tạo ra các ranh giới để robot vừa học cách tự bước đi nhưng cũng giữ cho nó không rời khỏi khu vực cho phép. Họ cũng đã phải nghĩ ra thuật toán cụ thể để ngăn robot rơi xuống, một số trong các thuật toán này tập trung vào việc kìm hãm chuyển động của robot. Áp dụng công nghệ học tăng cường thường diễn ra trong môi trường kỹ thuật số trước khi chuyển sang môi trường vật lý để bảo vệ sự an toàn cho robot. Thành công của Rainbow Dash đến sau khoảng một năm kể từ khi các nhà nghiên cứu tìm ra cách giúp robot tự học trong môi trường vật lý, thay vì trong môi trường thực tế ảo.
“Loại bỏ con người ra khỏi quá trình học tập thực sự khó khăn. Nhưng bằng cách cho phép robot tự chủ hơn sẽ giúp nó có thể tiến gần hơn đến khả năng học tập trong thế giới thực mà chúng ta đang sống”, Chelsea Finn, Giáo sư trợ lý tại Đại học Stanford làm việc với Google, nhưng không tham gia nghiên cứu, nhận xét.