Là một phần trong chương trình thảo luận bàn tròn từ xa của Nhà Trắng với giới công nghệ tháng trước, Viện AI Allen (AI2) đã giới thiệu CORD-19 (bộ dữ liệu nghiên cứu mở COVID-19). Tìm kiếm CORD-19 được xây dựng dựa trên bộ dữ liệu này, ban đầu bao gồm khoảng 24.000 tài liệu nghiên cứu và khoa học về COVID-19, SARS-CoV-2, và coronavirus. Kể từ khi ra mắt, bộ dữ liệu CORD-19 đã tăng gần gấp đôi tới 47.000 công trình và tài liệu nghiên cứu từ các tạp chí thẩm định và máy chủ lưu trữ uy tín.
Cộng đồng khoa học đang đối phó với mối đe dọa COVID-19 thông qua việc nghiên cứu chủng virus nCoV mới và công bố các công trình nghiên cứu quan trọng về phát hiện và điều trị bệnh. Các hoạt động này đang tạo nên các bằng chứng khoa học và y tế về COVID-19 với quy mô tăng nhanh theo cấp số nhân đến mức khó có thể khai thác và phân tích. Có những thấu hiểu quan trọng từ một lượng lớn thông tin có thể tìm thấy này là rất quan trọng trong việc phát triển các biện pháp ứng phó sự lây lan dịch bệnh cũng như điều trị, bao gồm tìm phương thuốc hoặc vắc-xin cho COVID-19.
CORD-19 Search sẽ giúp các nhà nghiên cứu điều hướng các tài liệu coronavirus đang gia tăng nhanh chóng để tìm kiếm các thông tin liên quan và cập nhật một cách hiệu quả. CORD-19 Search cung cấp một giao diện tìm kiếm đơn giản, giúp các nhà nghiên cứu có thể sử dụng ngôn ngữ tự nhiên để đặt câu hỏi, như “Khi nào thì lượng virus COVID-19 có trong nước bọt là cao nhất?” hay “Liệu pháp điều trị dùng huyết tương của người đã khỏi bệnh có phải là tiền đề để chế tạo vắc-xin không?” CORD-19 Search sẽ tạo ra các câu trả lời chính xác cũng như đưa ra các tài liệu nguồn.
Ví dụ, câu trả lời về lượng virus cao nhất của COVID-19 sẽ là, “Lượng virus trong nước bọt là cao nhất trong tuần đầu tiên sau khi có triệu chứng khởi phát và giảm dần theo thời gian”. Tương tự như vậy, CORD-19 Search sẽ phản hồi về các liệu pháp huyết tương của người đã khỏi bệnh, “khi chưa có vắc-xin để ngăn chặn dịch bệnh, lý tưởng nhất là cân nhắc sử dụng liệu pháp này với những người có nguy cơ bị lây nhiễm hoặc sớm có triệu chứng bệnh (như một biện pháp phòng ngừa)”, và đi kèm là các bài báo khoa học liên quan từ các thử nghiệm trước đây trong dịch SARS và Ebola. CORD-19 Search cung cung cấp các chủ đề dựa trên bằng chứng về việc ủ bệnh, truyền nhiễm, chữa bệnh và các yếu tố rủi ro khác. Tính năng này có giá trị o lớn đối với các nhà khoa học, giúp họ có thể nhanh chóng truy vấn, xác thực công trình nghiên cứu và thúc đẩy các nghiên cứu chuyên sâu của họ.
Ví dụ về kết quả tìm kiếm của CORD-19 Search
CORD-19 Search sử dụng các dịch vụ machine learning (ML - học máy) của AWS để tăng cường các kết quả toàn diện và khả thi. Bộ dữ liệu ban đầu đã được phong phú hơn với Amazon Comprehend Medical, một dịch vụ xử lý ngôn ngữ tự nhiên sử dụng ML để trích xuất các thông tin y tế liên quan từ các dữ liệu text phi cấu trúc về dịch bệnh, điều trị và dòng thời gian. Sau đó dữ liệu này được ánh xạ tới các mô hình điều trị và chủ đề y tế liên quan tới COVID-19, sử dụng một mô hình phân loại đa nhãn và suy luận, chẳng hạn như virus học, miễn dịch học và các thử nghiệm lâm sàng. Thông tin sau đó được lập chỉ mục trong Amazon Kendra, một dịch vụ tìm kiếm doanh nghiệp có độ chính xác cao dựa trên ML, cung cấp các tính năng truy vấn ngôn ngữ tự nhiên mạnh mẽ giúp tìm kiếm và xếp hạng các bài viết liên quan dễ dàng hơn. Amazon Comprehend Medical giúp làm giàu dữ liệu và tìm kiếm Amazon Kendra được xây dựng từ dữ liệu sẵn có trong hồ dữ liệu AWS COVID-19 công cộng, nơi mọi người có thể thử nghiệm và phân tích các dữ liệu có quản lý liên quan tới dịch bệnh, cũng như chia sẻ các kết quả của họ.
Tiến sĩ Oren Etzioni, Giám đốc điều hành của Viện AI Allen, cho biết: “Một trong những ứng dụng tức thời và có ảnh hưởng nhất của AI là khả năng giúp các nhà khoa học, học giả và chuyên gia công nghệ tìm thấy thông tin phù hợp trong vô vàn các tài liệu khoa học để đẩy nhanh quá trình nghiên cứu nhanh hơn. Viện AI Allen, đặc biệt là nhóm Học giả ngôn ngữ, cam kết cung cấp các tài nguyên quan trọng này và hỗ trợ các phương pháp AI liên quan mà cộng đồng đang sử dụng để giải quyết đại dịch này”.
Kiến trúc của CORD-19 Search
AWS đang ứng dụng ML vào bộ dữ liệu CORD-19 để đẩy nhanh quá trình tìm kiếm, trong đó tốc độ can thiệp, tiến triển và điều trị bệnh dịch COVID-19 là đặc biệt quan trọng. Tầm nhìn dài hạn của chúng tôi là xây dựng các tính năng trong tương lai dựa trên kiến trúc CORD-19 Search này để tổng hợp các nguồn dữ liệu khác nhau, bao gồm các dữ liệu nghiên cứu lâm sàng, cho phép các nhà nghiên cứu trên toàn thế giới có thể tổng hợp các mẫu tiến triển bệnh theo từng bệnh nhân, đưa ra các quyết định dựa trên phân tích dữ liệu và tác động tích cực tới kết quả điều trị bệnh nhân ở quy mô lớn.
Chúng tôi cam kết phục vụ cộng đồng khoa học và công chúng nói chung để hỗ trợ các phản ứng toàn cầu đối với đại dịch COVID-19. CORD-19 Search hiện đã sẵn sàng tại https://cord19.aws.