Đề tài tự động tóm tắt văn bản bằng AI được đăng trên tạp chí về lĩnh vực Xử lý ngôn ngữ tự nhiên

(VOH) - Nội dung bài báo là một phần của luận văn tốt nghiệp đại học của hai sinh viên, dưới sự hướng dẫn của PGS. TS Quản Thành Thơ (Phó trưởng khoa Khoa học và Kỹ thuật Máy tính)

Hai sinh viên Nguyễn Thành Thông và Lữ Ngọc Thiên Trúc, cùng là sinh viên năm cuối khoa Khoa học và Kỹ thuật Máy tính - trường ĐH Bách khoa (ĐHQG-HCM) đã có bài báo được chấp thuận tại hội nghị Empirical Methods in Natural Language Processing - EMNLP 2021 có chủ đề "Enriching and Controlling Global Semantics for Text Summarization".

Nội dung bài báo là một phần của luận văn tốt nghiệp đại học của hai sinh viên, dưới sự hướng dẫn của PGS. TS Quản Thành Thơ (Phó trưởng khoa Khoa học và Kỹ thuật Máy tính) và PGS. TS Lưu Anh Tuấn (Cựu sinh viên Bách khoa, hiện đang công tác tại trường Nanyang Technological University - Singapore).

Đề tài tự động tóm tắt văn bản bằng AI được đăng tại tạp chí hội nghị về lĩnh vực Xử lý ngôn ngữ tự 1
SV Nguyễn Thành Thông và SV  Lữ Ngọc Thiên Trúc - Ảnh minh họa: Trường ĐH Bách Khoa

Theo nội dung bài báo "Enriching and Controlling Global Semantics for Text Summarization" (tạm dịch: “Làm giàu và Điều khiển ngữ nghĩa toàn cục để tóm tắt văn bản") hướng đến vấn đề tự động tóm tắt văn bản bằng trí tuệ nhân tạo (AI). Đây là một công việc rất cần thiết cho những người làm việc trong môi trường học thuật cần phải đọc và nắm được các thông tin chính yếu của một lượng lớn tài liệu. “Hệ thống AI được đề xuất từ phương pháp của bài báo có thể tóm tắt một đoạn văn bản dài thành một nội dung cô đọng nhưng vẫn đầy đủ các thông tin chính yếu nhất” - sinh viên Nguyễn Thành Thông chia sẻ về kết quả nghiên cứu.

Các thành tựu mới nhất trong lĩnh vực này thường dựa trên Transformer, một trong những mô hình học sâu tiên tiến nhất trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên. Tuy nhiên các phương pháp hiện nay thường bị thiếu những từ khóa và thông tin quan trọng nhất khi tóm tắt các văn bản dài.

Với vai trò hướng dẫn, PGS.TS Quản Thành Thơ nhận xét: “Hệ thống được đề cập trong bài báo của hai sinh viên Thông và Trúc sẽ tìm cách hệ thống hóa thông tin toàn cục của bài báo gốc trước khi tích hợp vào kết quả tóm tắt. Nhờ vậy, bản tóm tắt của nhóm được đánh giá là có đầy đủ thông tin nhất trong số các phương pháp tóm tắt văn bản tự động hiện nay”.

EMNLP là một trong hai hội nghị lớn nhất thế giới về lĩnh vực Xử lý Ngôn ngữ Tự nhiên (Natural Language Processing - NLP). Tạp chí được xếp hạng A1 bởi bảng xếp hạng hội nghị Qualis và xếp hạng A bởi bảng xếp hạng hội nghị ERA, tức là được xếp loại cao nhất bởi hai bảng xếp hạng này. Đây là các bảng xếp hạng chuyên dùng đánh giá hội nghị, tương tự như bảng xếp hạng bằng chỉ số SJR của SCImago dành cho tạp chí.

Hiện nay, SV Nguyễn Thành Thông đang là thành viên của VinAI Research, còn SV Lữ Ngọc Thiên Trúc đang được đào tạo tại Vingroup Big Data Institute.