Trí tuệ nhân tạo vẫn chưa có khả năng suy luận như con người

- Bài kiểm tra đánh giá trình độ ngôn ngữ tại Đại học Nam California cho thấy trí tuệ nhân tạo (AI) chưa thể soạn những câu văn hợp lý và đúng ngữ cảnh, theo Techxplore.

Xử lý ngôn ngữ tự nhiên (Natural language processing - NLP) là một nhánh quan trọng của ngành trí tuệ nhân tạo, tập trung vào việc nghiên cứu tương tác giữa máy tính và ngôn ngữ tự nhiên của con người, với mục tiêu giúp máy tính có thể thực hiện những nhiệm vụ liên quan đến ngôn ngữ.

Trong bài báo công bố vào ngày 16/11 tại hội nghị Phát hiện Phương pháp Thực nghiệm trong Xử lý Ngôn ngữ Tự nhiên (Findings of Empirical Methods in Natural Language Processing - EMNLP), trợ lý giáo sư Xiang Ren và học trò Yuchen Lin trình bày thử nghiệm mới nhất của họ trong lĩnh vực NLP. Hai thầy trò đưa ra một loạt danh từ và động từ rồi giao cho máy tính soạn những câu mô tả tình huống hằng ngày. Chẳng hạn, với tập hợp từ "chó", "đĩa", "ném", "bắt", máy tính đặt câu: “hai con chó ném đĩa vào nhau”. Sau nhiều lần thử nghiệm, Xiang Ren và học trò nhận thấy rằng các câu mà máy tính tạo ra đều đúng ngữ pháp nhưng sai logic.

Bài kiểm tra này dựa trên giả định rằng trí tuệ nhân tạo vẫn chưa nắm vững những ý niệm thông thường như người ném đĩa và chó bắt đĩa. Mặt khác, một người có khả năng suy luận bình thường sẽ biết rằng hai con chó không thể ném đĩa vào nhau.

Yuchen Lin nhận định: "Robot cần hiểu các kịch bản tự nhiên trong cuộc sống hằng ngày trước khi thực hiện những hành động tương tác với con người. Con người có được khả năng đặt câu nhờ hiểu và ứng dụng các khái niệm mà họ nhận ra trong môi trường xung quanh. Khi AI đạt được khả năng này thì đây sẽ là một cột mốc quan trọng trong sự phát triển của nhân loại. Nhưng chúng tôi muốn kiểm tra xem máy tính có thể đạt được khả năng suy luận phổ quát hay không".

Hiện giờ AI đã có thể viết báo nhưng Yuchen Lin cho rằng chúng chỉ bắt chước từ những gì đã học. Nói cách khác, khả năng suy luận còn quan trọng hơn kiến thức về ngôn ngữ. Nếu không có khả năng suy luận, rất dễ xảy ra những tình huống như chủ nhân yêu cầu robot lấy sữa nóng nhưng robot không hiểu nên lấy một cốc sữa hay cả hộp sữa.

Hai thầy trò đã tạo chương trình CommonGen để kiểm tra nhiều mô hình máy tính khác nhau. CommonGen tích hợp một tập dữ liệu gồm 35.141 khái niệm, có thể tạo ra 77.449 câu. Ngay cả mô hình ngôn ngữ hoạt động tốt nhất cũng chỉ đạt tỉ lệ chính xác là 31,6%, trong khi đó tỉ lệ này ở con người lên đến 63,5%. Xiang Ren và Yuchen Lin mong rằng chương trình của họ sẽ hỗ trợ các nghiên cứu liên quan đến NLP trong tương lai.
Bộ đôi cũng cho rằng những bài kiểm tra của các nhà nghiên cứu đi trước chủ yếu là làm trắc nghiệm nên không đủ độ khó đối với máy tính. Ví dụ, khi họ đặt câu hỏi là "Người lớn dùng keo dính ở đâu?" với ba đáp án A: phòng học, B: văn phòng, C: ngăn bàn thì các máy tính đều dễ dàng chọn đúng đáp án B. Còn các bài kiểm tra của CommonGen thì đòi hỏi khả năng suy luận phức tạp hơn.
"Bằng cách giới thiệu khả năng suy luận và kiến thức chuyên sâu cho máy tính, tôi tin rằng một ngày nào đó chúng ta sẽ thấy các AI như Samantha trong bộ phim Her, có thể phản ứng và tương tác với chúng ta một cách tự nhiên", Yuchen Lin chia sẻ.