Luận án Nghiên cứu một số bài toán trong hỏi đáp cộng đồng

128 trang vuhoa 21040

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu một số bài toán trong hỏi đáp cộng đồng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

luan_an_nghien_cuu_mot_so_bai_toan_trong_hoi_dap_cong_dong.pdf

Nội dung text: Luận án Nghiên cứu một số bài toán trong hỏi đáp cộng đồng

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HÀ THỊ THANH NGHIÊN CỨU MỘT SỐ BÀI TOÁN TRONG HỎI ĐÁP CỘNG ĐỒNG LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HÀ THỊ THANH NGHIÊN CỨU MỘT SỐ BÀI TOÁN TRONG HỎI ĐÁP CỘNG ĐỒNG Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN TẬP THỂ HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. NGUYỄN THỊ KIM ANH 2. TS. NGUYỄN KIÊM HIẾU HÀ NỘI−2021
LỜI CAM ĐOAN Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiên cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu tại Đại học Bách khoa Hà Nội dưới sự hướng dẫn của tập thể hướng dẫn khoa học. Các số liệu, kết quả trình bày trong luận án là hoàn toàn trung thực. Các kết quả sử dụng tham khảo đều đã được trích dẫn đầy đủ và theo đúng quy định. Hà Nội, ngày tháng năm 2021 Nghiên cứu sinh Hà Thị Thanh TẬP THỂ HƯỚNG DẪN KHOA HỌC PGS.TS. Nguyễn Thị Kim Anh TS. Nguyễn Kiêm Hiếu
LỜI CẢM ƠN Trong quá trình nghiên cứu và hoàn thành luận án này, nghiên cứu sinh đã nhận được rất nhiều sự giúp đỡ và đóng góp quý báu. Đầu tiên, nghiên cứu sinh xin được bày tỏ lòng biết ơn sâu sắc tới tập thể hướng dẫn: PGS.TS. Nguyễn Thị Kim Anh và TS. Nguyễn Kiêm Hiếu. Các thầy cô luôn luôn tận tình hướng dẫn, chỉ bảo, giúp đỡ và động viên nghiên cứu sinh trong suốt quá trình nghiên cứu. Nghiên cứu sinh xin chân thành cảm ơn các thầy cô trong Bộ môn Hệ thống thông tin và Phòng thí nghiệm Khoa học dữ liệu, Viện Công nghệ thông tin và truyền thông - Trường Đại học Bách khoa Hà Nội, nơi nghiên cứu sinh học tập đã tạo điều kiện cho nghiên cứu sinh có thể tham gia nghiên cứu trong suốt thời gian học tập. Trong thời gian này, nghiên cứu sinh đã nhận được rất nhiều kiến thức và kinh nghiệm từ các thầy cô và các bạn sinh viên trong lab và đặc biệt là trong nhóm nghiên cứu. Nghiên cứu sinh xin chân thành cảm ơn Phòng Đào tạo - Trường Đại học Bách Khoa Hà Nội đã tạo điều kiện để nghiên cứu sinh có thể hoàn thành các thủ tục bảo vệ luận án tiến sĩ. Nghiên cứu sinh cảm ơn trường ĐH CNTT&TT Thái Nguyên - nơi NCS đang làm việc, đã tạo điều kiện về thời gian và hỗ trợ học phí cho nghiên cứu sinh tham gia học tập và nghiên cứu tại trường ĐH Bách Khoa Hà Nội. Nghiên cứu sinh xin cảm ơn chương trình 911 và Công ty TNHH Đầu tư và Phát triển đô thị Gia Lâm thuộc Tập đoàn Vingroup và hỗ trợ bởi Quỹ Đổi mới sáng tạo Vingroup (VINIF) trong Dự án mã số VINIF.2019.DA18 đã tài trợ cho NCS trong thời gian nghiên cứu và thực hiện luận án. Cuối cùng, nghiên cứu sinh xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè đồng nghiệp đã luôn động viên, giúp đỡ nghiên cứu sinh, giúp nghiên cứu sinh yên tâm nghiên cứu và vượt qua khó khăn để hoàn thành luận án.
MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ . . . . . . . . . . iv DANH MỤC HÌNH VẼ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi DANH MỤC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii DANH MỤC KÝ HIỆU TOÁN HỌC . . . . . . . . . . . . . . . . . . . . . . . . . . . x MỞ ĐẦU 1 CHƯƠNG 1. TỔNG QUAN VỀ HỆ THỐNG HỎI ĐÁP VÀ CÁC KIẾN THỨC NỀN TẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1. Hệ thống hỏi đáp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.1. Định nghĩa hệ thống hỏi đáp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.2. Kiến trúc của hệ thống QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.1.3. Các cách tiếp cận tới các hệ thống QA . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.4. Thách thức của hệ thống QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2. Hỏi đáp cộng đồng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.1. Kiến trúc của hệ thống CQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2.2. So sánh hệ thống QA và CQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3. Các bài toán trong hệ thống hỏi đáp cộng đồng CQA . . . . . . . . . . . . . . 16 1.3.1. Xác định chất lượng của câu trả lời . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3.2. Bài toán tìm câu hỏi tương đồng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.4. Thách thức của hệ thống hỏi đáp CQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.5. Tập dữ liệu hỏi đáp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.6. Kiến thức nền tảng về học sâu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.6.1. Mô hình mạng truy hồi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.6.2. Mô hình LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.6.3. Mô hình mạng tích chập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.6.4. Cơ chế chú ý . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.6.5. Mô hình Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.6.6. Học biểu diễn từ nhúng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.7. Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 i
CHƯƠNG 2. BÀI TOÁN LỰA CHỌN CÂU TRẢ LỜI ĐÚNG TRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG. . . . . . . . . . . . . . . . . . . . . . . . . 36 2.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.2. Các công trình liên quan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2.1. Các nghiên cứu về bài toán lựa chọn câu trả lời . . . . . . . . . . . . . . . . 39 2.2.2. Các nghiên cứu dựa vào cơ chế chú ý trong NLP . . . . . . . . . . . . . . . 44 2.2.3. Các nghiên cứu về cơ chế chú ý có giám sát trong bài toán NLP 44 2.3. Mô hình đề xuất. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.3.1. Mô hình match-LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.3.2. Mở rộng mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.3.3. Cơ chế chú ý có giám sát . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.4. Các thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.4.1. Tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.4.2. Chọn các tham số trong các mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.4.3. Kết quả và các thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.4.4. Trực quan hóa các trọng số chú ý . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.5. Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 CHƯƠNG 3. BÀI TOÁN TÓM TẮT CÂU TRẢ LỜI TRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.2. Các công trình liên quan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.3. Mô hình tóm tắt câu trả lời cho các câu hỏi non-factoid. . . . . . . . . . . . 60 3.3.1. Biểu diễn câu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.3.2. Trích rút tóm tắt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.4. Đánh giá mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.4.1. Tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.4.2. Thiết lập thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.4.3. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.5. Kết luận chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 CHƯƠNG 4. BÀI TOÁN TÌM CÂU HỎI TƯƠNG ĐỒNG TRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG. . . . . . . . . . . . . . . . . . . . . . . . . 71 4.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 ii
4.2. Các công trình liên quan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.3. Tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.4. Mô hình BERT cho bài toán tìm kiếm câu hỏi tương đồng . . . . . . . . . 78 4.4.1. Mô hình BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.4.2. BERT cho bài toán tìm kiếm câu hỏi tương đồng . . . . . . . . . . . . . . 79 4.4.3. Các kết quả thực nghiệm và thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.5. Mô hình SBERT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.5.1. Mô hình SBERT cho bài toán tìm câu hỏi tương đồng . . . . . . . . . 88 4.5.2. Các thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.6. Kết luận chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ. . . . . . . . . . . . . 97 TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 iii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Viết tắt Tiếng Anh Tiếng Việt CQA Community Question Answering Hỏi đáp cộng đồng AQ Question Answering Hệ thống hỏi đáp MMR Maximal Marginal Relevance Thuật toán MMR MAP Mean Average Presision Độ đo MAP MRR Mean Reciprocal Rank Độ đo MRR LSTM Long Short - Term Memory Mô hình LSTM RNN Recurent Neural Network Mô hình mạng truy hồi RNN AE Auto Encoder Mô hình AE BERT Bidirectional Encoder Represen- Mô hình biểu diễn mã hóa hai chiều tation from Transformers từ Transformer - Mô hình BERT SBERT Sentence BERT Mô hình SBERT NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên tf.idf Term Frequency – Inverse Docu- Trọng số tf.idf ment Frequency BM25 Best Match25 Mô hình BM25 IR Information Retrieval Tìm kiếm thông tin WE Word Embedding Từ nhúng PE Position Embedding Nhúng vị trí POS Part of Speech Gán nhãn từ loại NER Named Entity Recognition Nhận dạng thực thể có tên OOV Out Of Vocabulary Ngoài tập từ vựng LCS Longest Common Subsequence Dãy con chung lớn nhất ILP Interger Linear Programming Thuật toán ILP SemEval International workshop on Se- Hội thảo về đánh giá ngữ nghĩa mantic Evaluation SNLI Stanford Natural Language Infer- Tập dữ liệu về suy diễn ngôn ngữ ence SVM Support Vector Machine Mô hình máy véc tơ hỗ trợ SVM LDA Latent Dirichlet allocation Mô hình chủ đề ẩn LDA CNN Covolutional Neural Network Mô hình mạng tích chập CNN iv
ROUGE Recall-Oriented Understudy for Độ đo ROUGE Gisting Evaluation ROC Receiver Operating Characteris- Đường cong ROC tic AUC Area Under the Curve Diện tích dưới đường cong AUC ABCNN Attention-Based Convolutional Mô hình mạng tích chập dựa vào cơ Neural Network chế sự chú ý - ABCNN v
DANH MỤC HÌNH VẼ 1.1 Kiến trúc chung của hệ thống QA . . . . . . . . . . . . . . . . . . . . .8 1.2 Ví dụ hỏi đáp trên Yahoo!answer. . . . . . . . . . . . . . . . . . . . . . 14 1.3 Kiến trúc của hệ thống CQA[1] . . . . . . . . . . . . . . . . . . . . . . 15 1.4 Mô hình RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.5 Mô hình LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.6 Mô hình CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.7 Mô hình attention trong bài toán dịch máy của Bahdanau . . . . . . 28 1.8 Mô hình Transformer[2] . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.9 Quá trình tính sự chú ý . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.10 Mô hình CBOW và Skip-gram [3] . . . . . . . . . . . . . . . . . . . . . 33 2.1 Ví dụ về câu hỏi và các câu trả lời của nó trong tập dữ liệu SemEval 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.2 Một ví dụ về cơ chế chú ý theo từng từ được học bởi mô hình match-LSTM. Các từ chứa nội dung của của câu hỏi và câu trả lời có trọng số thấp. Trong khi đó, tại hình (a), chú ý lại tập trung vào các từ dừng như từ ’not’ và từ ’anyone’ trong câu hỏi lại là từ quan trọng với câu trả lời tương ứng. Hình (b) chú ý của một số từ trong câu hỏi lại tập trung vào phần chào hỏi của câu trả lời . 40 2.3 Mô hình match-LSTM [4] cho bài toán lựa chọn câu trả lời . . . . . . 45 2.4 Mô hình mở rộng từ mô hình match-LSTM cho bài toán lựa chọn câu trả lời . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.5 Một ví dụ minh họa trọng số chú ý được học bởi mô hình match- LSTM kết hợp với cơ chế chú ý có giám sát với cặp câu hỏi và câu trả lời tốt của nó. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.6 Một ví dụ về trọng số chú ý được học bởi mô hình match-LSTM kết hợp với cơ chế chú ý có giám sát với cặp câu hỏi và câu trả lời không tốt của nó. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.1 Ví dụ về câu hỏi, các câu trả lời và đoạn tóm tắt câu trả lời theo kiểu trích rút trên tập dữ liệu Yahoo!Answer. . . . . . . . . . . . . . . 58 vi
3.2 Mô hình tóm tắt câu trả lời cho các câu hỏi non-factoid trong hệ thống CQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.3 Mô hình Auto-Encoder, h (khối màu đỏ) được dùng làm véc tơ biểu diễn câu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.4 Mô hình Long-short-term-memory Auto-Encoder: Lớp mã hóa LSTM cuối cùng (nút màu đỏ) được dùng làm véc tơ biểu diễn câu. . 63 3.5 Độ đo ROUGE trên các tham số κ khác nhau trong thuật toán MMR.68 4.1 Ví dụ về các cặp câu hỏi tương đồng với cùng ý hỏi nhưng cách diễn đạt khác nhau trên tập dữ liệu tiếng Việt . . . . . . . . . . . . . 73 4.2 Mô hình BERT [5] cho bài toán tìm câu hỏi tương đồng . . . . . . . . 80 4.3 Đường cong ROC của các mô hình dự đoán. . . . . . . . . . . . . . . . 83 4.4 Các mô hình học sâu LSTM/CNN trong bài toán tìm kiếm câu hỏi . 84 4.5 Trực quan hóa ma trận trọng số chú ý của các mô hình BERT với mô hình ABCNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.6 Mô hình SBERT với kiến trúc bộ ba để học ra biểu diễn câu trong không gian có số chiều thấp cố định . . . . . . . . . . . . . . . . . . . 89 vii
DANH MỤC BẢNG 1.1 Thống kê một số tập dữ liệu CQA được các nhà khoa học dùng để đánh giá các mô hình đề xuất. . . . . . . . . . . . . . . . . . . . . . 21 1.2 Bảng kết quả MAP và MRR của một số mô hình được đề xuất và công bố trên tập TREC QA cho bài toán xếp hạng các câu trả lời ứng viên [6, 7] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.3 Bảng kết quả của một số mô hình được đề xuất và công bố trên tập Quora trên bài toán tìm câu hỏi tương đồng . . . . . . . . . . . . 22 1.4 Bảng kết quả của một số mô hình được đề xuất và công bố trên tập Yahoo!answer cho bài toán lựa chọn câu trả lời . . . . . . . . . . . 22 1.5 Bảng kết quả của một số mô hình được đề xuất và công bố trên tập Yahoo!answer cho bài toán so sánh ngữ nghĩa câu hỏi (Question semantic matching) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.1 Bảng thống kê số cặp câu hỏi-câu trả lời trong tập dữ liệu SemEval CQA 49 2.2 Các tham số của các mô hình thực nghiệm . . . . . . . . . . . . . . . 51 2.3 Kết quả so sánh mô hình đề xuất với các mô hình khác trên tập dữ liệu SemEval 2016 và 2017 . . . . . . . . . . . . . . . . . . . . . . . 51 2.4 Bảng kết quả so sánh mô hình math-LSTM và các mô hình mở rộng từ mô hình này khi thực hiện nối subject+body của câu hỏi . . 53 2.5 Bảng so sánh độ đo MAP với trọng số chú ý gkj được tính từ các biểu diễn từ khác nhau để hướng dẫn mô hình Enhanced match-LSTM + supervised attention học trọng số chú ý trên tập SemEval 2017. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.1 Tập dữ liệu Yahoo Webscope. . . . . . . . . . . . . . . . . . . . . . . . 65 3.2 Tập test đánh giá thuật toán tóm tắt câu trả lời. . . . . . . . . . . . . 66 3.3 Kết quả tóm tắt trên hai mô hình cơ bản. . . . . . . . . . . . . . . . . 67 3.4 Kết quả tóm tắt khi sử dụng mô hình AE biểu diễn câu với trong trường hợp số lớp mã hóa-giải mã khác nhau với số chiều khác nhau 67 3.5 Bảng so sánh hiệu năng của mô hình LSTM-AE với các mô hình khác.68 viii
3.6 Kết quả tóm tắt khi thực hiện tổng hợp ngữ nghĩa của hai câu qua việc kết hợp tuyến tính hai độ đo tương đồng của cả hai biểu diến AE và LSTM-AE theo công thức 3.23 . . . . . . . . . . . . . . . 70 4.1 Bảng thống kê tập dữ liệu có nhãn trên miền thương mại điện tử tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.2 Bảng thống kê tập dữ liệu không gán nhãn được thu thập trên website Thế giới di động. . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.3 Độ đo MAP của một số mô hình trên tập dữ liệu tiếng Anh - Semeval 2017 với cả hai bài toán tìm câu hỏi tương đồng (task B) và lựa chọn câu trả lời (task A) . . . . . . . . . . . . . . . . . . . . 81 4.4 Độ đo MAP của các mô hình trên tập dữ liệu tiếng Việt. . . . . . . . 82 4.5 Bảng chọn siêu tham số cho các mô hình LSTM/CNN . . . . . . . . . 85 4.6 Bảng chọn các siêu tham số của mô hình BERT khi điều chỉnh trên bài toán tìm kiếm câu hỏi trên tập dữ liệu thương mại điện tử có nhãn tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.7 Bảng so sánh độ đo MAP và thời gian của mô hình BERT và SBERT trên tập dữ liệu tiếng Việt. . . . . . . . . . . . . . . . . . . . . 90 4.8 Độ đo MAP của SBERT với các hàm mất mát khác nhau . . . . . . . 91 ix
DANH MỤC KÝ HIỆU TOÁN HỌC Ký hiệu Ý nghĩa x, y, N, k In nghiêng, chữ thường hoặc hoa, là các số vô hướng x, y In đậm, chữ thường, là các véc-tơ xi Phần tử thứ i của véc tơ x A, B In đậm, chữ hoa, là các ma trận AT chuyển vị của ma trận A A−1 Ma trận nghịch đảo của ma trận A kxk Chuẩn của véc tơ x } Phép toán với từng phần tử element-wise R Tập hợp các số thực N Tập hợp các số tự nhiên Rn Không gian véc tơ số thực n chiều ∈ Thuộc về log(x) logarit tự nhiên của số thực dương x exp(x) Hàm mũ ex x
MỞ ĐẦU 1. Bối cảnh nghiên cứu Nhu cầu đặt câu hỏi và tìm kiếm câu trả lời của người dùng hàng ngày là rất lớn. Nguồn thông tin lớn nhất hiện nay là thông tin tìm kiếm trên mạng thông qua các trang web. Trong đó hệ thống hỏi đáp cộng đồng (Community Question Answering - CQA) là một trong những hệ thống hiệu quả và phổ biến trong việc tìm kiếm thống tin trên web. Một người dùng muốn có câu trả lời họ phải đăng câu hỏi lên hệ thống và chờ các thành viên khác tham gia trả lời. Qua thời gian, hệ thống hỏi đáp cộng đồng chứa lượng thông tin rất lớn và hữu ích. Từ đó hệ thống phát sinh các bài toán cần giải quyết giúp cho người dùng truy cập thông tin một cách thuận tiện hơn, rút ngắn thời gian truy cập và tìm kiếm thông tin. Thứ nhất, trong hệ thống hỏi đáp cộng đồng, khi một câu hỏi được đưa lên hệ thống, nếu câu hỏi thú vị và được nhiều người quan tâm thì câu hỏi đó sẽ nhận được rất nhiều câu trả lời. Thậm chí có những câu hỏi có đến hàng trăm câu trả lời. Bên cạnh thuận lợi là người hỏi sẽ nhận được nhiều phản hồi về câu hỏi của mình thì điều này cũng có bất lợi đó là người hỏi cũng như những người dùng khác quan tâm tới câu hỏi phải mất khá nhiều thời gian để đọc qua tất cả các câu trả lời và chọn cho mình câu trả lời tốt nhất. Vì vậy, hệ thống CQA cũng cần có công cụ hỗ trợ người dùng giúp người dùng có thể lựa chọn ra các câu trả lời đúng nhất với thời gian nhanh nhất. Vì vậy, bài toán lựa chọn câu trả lời được đặt ra để giải quyết vấn đề này. Thứ hai, theo thống kê thì có ít nhất 78% câu trả lời tốt nhất của câu hỏi được sử dụng lại khi câu hỏi tương tự được hỏi lại. Trong số đó chỉ có 48% câu hỏi là có duy nhất một câu trả lời tốt nhất, còn lại trong số đó có chứa nhiều câu trả lời liên quan hoặc những câu trả lời không đầy đủ [8]. Nguyên nhân của việc câu trả lời không đầy đủ có thể do câu hỏi chứa nhiều ý hỏi. Hơn nữa mỗi người dùng có tri thức về từng lĩnh vực khác nhau, cách tiếp cận và quan điểm khác nhau dẫn tới câu trả lời khác nhau. Người hỏi phải mất thời gian đọc và tổng hợp các ý kiến để thu được câu trả lời chứa đầy đủ chứa các thông tin mình cần. Một cách tiếp cận hiệu quả đó là kết hợp nhiều câu trả lời để sinh ra một đoạn tóm tắt giúp tạo ra câu trả lời hoàn chỉnh. Thứ ba, khi một câu hỏi được đăng lên hệ thống hỏi đáp cộng đồng thì không 1
phải câu hỏi nào cũng nhận ngay được câu trả lời từ cộng đồng. Có câu hỏi khi đăng lên hệ thống sau vài giờ có thể nhận được câu trả lời nhưng có những câu hỏi phải mất vài ngày. Để khắc phục tình trạng chậm trễ này, bài toán tìm câu hỏi tương đồng trong kho dữ liệu được đặt ra có thể giải quyết vấn đề này. Người dùng hi vọng rằng những câu trả lời của các câu hỏi tương đồng có thể là câu trả lời của câu hỏi mới. Hơn nữa, vì dữ liệu được tích lũy qua nhiều năm sẽ rất lớn nên khả năng người dùng hỏi lại những câu hỏi trước đó là rất cao. Do vậy, bài toán tìm câu hỏi tương đồng càng trở lên có ý nghĩa. Để giải quyết các vấn đề trên, rất nhiều nghiên cứu đã được đề xuất. Khi giải quyết những bài toán này, các nhà nghiên cứu phần lớn giải quyết thách thức lớn nhất đó là khoảng cách từ vựng (lexical gap) giữa câu hỏi với câu hỏi, giữa câu hỏi với câu trả lời. Các nghiên cứu tập trung vào hướng: khai thác đặc trưng từ vựng, đặc trưng kĩ thuật về cú pháp và ngữ nghĩa của câu. Thời gian gần đây các nghiên cứu tập trung vào đề xuất mô hình mạng nơ ron học sâu với kiến trúc Siamese, mô hình dựa trên so sánh tổng hợp (compare-aggregate) đến các mô hình dựa trên cơ chế chú ý (attention). Bên cạnh đó các mô hình dựa vào các mô hình ngôn ngữ và các mô hình riêng biệt cho hệ thống hỏi đáp cũng được đề xuất. Tất cả các nghiên cứu này đều với mục đích học ra được ngữ nghĩa và mối quan hệ giữa câu hỏi với câu hỏi và câu hỏi với câu trả lời để đưa ra dự đoán tốt nhất. 2. Động lực thúc đẩy Từ bối cảnh trên, ba bài toán: bài toán tìm câu trả lời tốt nhất, bài toán tóm tắt câu trả lời và bài toán tìm câu hỏi tương đồng là các bài toán rất quan trọng trong hệ thống hỏi đáp cộng đồng. Việc cải thiện chất lượng dự đoán của ba bài toán tương ứng với việc phát triển chức năng hỗ trợ người dùng, giúp người dùng cảm thấy tiện lợi nhất khi sử dụng hệ thống hỏi đáp cộng đồng. Nhận thức được điều này, luận án tập trung vào việc nghiên cứu các bài toán trong hệ thống hỏi đáp cộng đồng. Mặc dù có rất nhiều nghiên cứu trên các bài toán NLP cũng như các bài toán của hệ thống hỏi đáp cộng đồng và đề xuất được rất nhiều giải pháp cải tiến để nâng cao hiệu suất và độ chính xác của mô hình nhưng vẫn còn khoảng cách rất lớn giữa hiệu quả thực tế của mô hình đạt được với mong muốn của người dùng. Dữ liệu trên hệ thống hỏi đáp cộng đồng vẫn có rất nhiều thách thức. Một trong những thách thức đó là dữ liệu văn bản trên các mạng xã hội. Dữ liệu này thường nhiều nhiễu, câu ở dạng văn nói, nhiều từ viết sai chính tả, viết tắt. Hơn nữa, có những câu trả lời hoặc câu hỏi chứa nhiều nội dung không liên 2
quan. Lý do này làm cho thách thức về khoảng cách từ vựng giữa câu hỏi với câu hỏi và câu hỏi với câu trả lời càng khó và phức tạp. Một lý do khác, các nghiên cứu về các bài toán hỏi đáp cộng đồng phần lớn được thực hiện trên tập dữ liệu tiếng Anh. Nghiên cứu về hệ thống hỏi đáp cộng đồng trên dữ liệu tiếng Việt còn hạn chế, đặc biệt là trên các miền dữ liệu cụ thể. Các nghiên cứu cũng chỉ ra rằng khi làm việc trên miền dữ liệu cụ thể giúp cho mô hình học tốt hơn khi làm việc trên dữ liệu mang nhiều chủ đề chung chung. Cuối cùng, các nghiên cứu phần lớn tập trung vào cải thiện hiệu năng về độ chính xác của mô hình mà chưa chú ý nhiều về thời gian. Cụ thể đó là yêu cầu về thời gian phản hồi khi câu hỏi mới được đăng lên. Đây cũng là yêu cầu cần thiết của các hệ thống phần mềm để thỏa mãn yêu cầu của người dùng một cách tốt nhất và thuận tiện nhất. 3. Mục tiêu và phạm vi nghiên cứu Mục tiêu chính của luận án là giải quyết các thách thức trên qua việc đề xuất các mô hình học sâu kết hợp với cơ chế chú ý được đề xuất cho một số toán trong hệ thống CQA giúp nâng cao hiệu quả của các mô hình dự đoán. Các mô hình học sâu là mô hình end-to-end mà từ dữ liệu thô đầu vào đi qua các các lớp ẩn trong mạng nơ ron và đưa ra kết quả đầu ra. Trong mô hình này, việc học đặc trưng ngữ nghĩa của văn bản và lớp dữ đoán được tích hợp và học một cách đồng thời thay vì thực hiện một cách tuần tự. Các mô hình này đã được chứng minh phù hợp với dữ liệu cộng đồng trong các bài toán hỏi của hệ thống hỏi đáp CQA. Qua việc phân tích kiến trúc của hệ thống hỏi đáp cộng đồng, nhiều bài toán đã được đặt ra để đặt ra như bài toán đánh giá chất lượng câu trả lời, bài toán tìm câu hỏi tương đồng, bài toán tìm câu trả lời cho câu hỏi mới, bài toán tìm chuyên gia. Tuy nhiên do dữ liệu không đầy đủ và thống nhất cho nên phạm vi nghiên cứu chính của đề tài tập trung vào ba bài toán: bài toán lựa chọn câu trả lời đúng, bài toán tóm tắt câu trả lời và bài toán tìm câu hỏi tương đồng. Các thông tin liên quan tới người dùng chuyên gia không được giải quyết trong luận án. Các mô hình đề xuất và các thử nghiệm minh họa cho các nghiên cứu của đề tài được tiến hành trên các mô hình học sâu và kết hợp với cơ chế chú ý. Kết quả đạt được của luận án góp phần giải vào việc phân tích tổng thể các mô hình học sâu ứng dụng vào các bài toán của hệ thống CQA. Các mục tiêu được thể hiện cụ thể qua các đóng góp dưới đây. 3
4. Các đóng góp chính của luận án Để thực hiện mục tiêu trên của đề tài, luận án tập trung vào các đề xuất sau đây: • Thứ nhất, luận án đã đề xuất mô hình match-LSTM kết hợp với cơ chế chú ý có giám sát (supervised attention) để giúp mô hình học trọng số chú ý tốt hơn từ đó giúp cho mô hình dự đoán tốt hơn. Thực nghiệm chứng minh rằng mô hình đề xuất giúp xác định các nội dung quan trọng của câu hỏi và câu trả lời. Qua đó, các phần không liên quan tới nội dung chính (phần dư thừa) cũng được mô hình phát hiện. Từ đó, mô hình đề xuất giúp cho quá trình dự đoán câu trả lời tốt hơn so với mô hình gốc ban đầu. • Đóng góp thứ hai là đưa ra một phương pháp tóm tắt câu trả lời của các câu hỏi non-factoid. Cụ thể, mô hình học không giám sát LSTM-AE được đề xuất để học ra biểu diễn của câu mà không cần dữ liệu có nhãn. Mô hình này khai thác ngữ nghĩa và cú pháp của câu thông qua trật tự từ trong câu. Mô hình đề xuất cho chất lượng tóm tắt tốt tương đương với phương pháp học biểu diễn có giám sát và thậm chí cho chất lượng tốt hơn trên một số độ đo mà không mất công gán nhãn dữ liệu. Thuật toán MMR được sử dụng để trích rút các câu tóm tắt giải quyết thách thức về sự đa dạng và trùng lặp dữ liệu trong tóm tắt. • Thứ ba, mô hình BERT được sử dụng cho bài toán tìm kiếm câu hỏi tương đồng trên tập dữ liệu tiếng Việt giúp cải thiện hiệu năng về độ chính xác của mô hình. Đồng thời, mô hình SBERT được đề xuất sử dụng vào bài toán tìm câu hỏi tương đồng giúp giảm thời gian phản hồi lại người dùng về các câu hỏi tương đồng khi câu hỏi mới được đăng lên hệ thống. Mô hình SBERT giải quyết mục tiêu về mặt thời gian phản hồi của hệ thống mà vẫn đảm bảo độ chính xác cao. Các mô hình đề xuất trong luận án có ưu điểm hơn so với các mô hình đã có xét trên một số độ đo như độ đo MAP, MRR (đối với bài toán tìm kiếm câu trả lời và bài toán tìm kiếm câu hỏi tương đồng), Rouge-N đối với bài toán tóm tắt câu trả lời. Hơn nữa, mô hình kết hợp tại chương 2 và mô hình đề xuất tại chương 4 còn có tính giải thích tốt hơn thông qua việc trực quan hóa các trọng số chú ý của từng từ trong câu. Trên đây là các đóng góp của luận án. Luận án tập trung giải quyết một số thách thức cơ bản của các bài toán trong hệ thống hỏi đáp cộng đồng qua việc đề xuất các mô hình học sâu kết hợp với các cơ chế chú ý. Các mô hình này 4
được trình bày cụ thể trong các chương của luận án. 5. Bố cục của luận án Với các đóng góp của luận án trình bày ở mục trên, luận án bao gồm 4 chương với bố cục như sau: • Chương 1: Chương này trình bày cách khái quát một số hệ thống tìm kiếm thông tin bao gồm: hệ thống hỏi đáp tự động và hệ thống hỏi đáp cộng đồng cùng với các thách thức cơ bản trong từng hệ thống. Nội dung tiếp theo giới thiệu về một số bài toán của hệ thống hỏi đáp cộng đồng được đề cập chính trong luận án và các mô hình học sâu cơ bản. Những mô hình này là nền tảng để đề xuất một số mô hình cải tiến áp dụng vào các bài toán. • Chương 2: Mô hình match-LSTM được đề xuất sử dụng cho bài toán lựa chọn câu trả lời. Thực nghiệm cho thấy rằng cơ chế chú ý (attention) theo hướng từng từ (word-by-word) làm việc không hiệu quả trên mô hình gốc đối với cặp dữ liệu câu hỏi và câu trả lời trong mạng xã hội. Vì vậy, ngữ nghĩa của từ vựng từ tri thức bên ngoài được tận dụng để hướng dẫn mô hình học ra trọng số chú ý của cặp từ giữa câu hỏi và câu trả lời. Thực nghiệm cho thấy mô hình được đề xuất đã học được trọng số chú ý có ý nghĩa hơn, đồng thời qua đó giúp cho mô hình làm việc tốt hơn so với mô hình gốc. Mô hình cũng cho kết quả tương đương và tốt hơn so với kết quả của các đội đứng đầ trên tập dữ liệu của cuộc thi Semeval 2017. Tính hiệu quả của mô hình được giải thích thông qua việc trực quan hóa các trọng số chú ý học được giữa từng từ của câu hỏi với các từ trong câu trả lời. • Chương 3: Tiếp theo chủ đề về vấn đề xác định chất lượng câu trả lời, bài toán tóm tắt các câu trả lời được đề xuất giải quyết trong luận án. Chương này trình bày một phương pháp tóm tắt câu trả lời của các câu hỏi non- factoid trong hệ thống CQA. Trong đó, hai mô hình học không giám sát Auto-Encoder và mô hình LSTM-AutoEcoder được đề xuất để học ra biểu diễn câu và sử dụng trong phương pháp tóm tắt câu trả lời. Các biểu diễn câu được sử dụng trong thuật toán MMR (Maximal Marginal Relevance) để tóm tắt câu trả lời theo kiểu trích rút hướng truy vấn. Kết quả cho thấy rằng phương pháp biểu diễn câu không giám sát cho kết quả tương đương và thậm chí còn cao hơn với phương pháp biểu diễn có giám sát. • Chương 4: Chương này trình bày cách xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng trên miền dữ liệu thương mại điện 5