Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt

pdf 140 trang vuhoa 23/08/2022 10660
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_an_nghien_cuu_giai_phap_cai_tien_chat_luong_dich_tu_don.pdf

Nội dung text: Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt

  1. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA  NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, 12/2021
  2. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA  NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 9480101 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: 1. PGS.TS. Huỳnh Công Pháp 2. GS. Vincent Berment Đà Nẵng, 12/2021
  3. 3 LỜI CAM ĐOAN Tôi tên là Nguyễn Văn Bình. Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là trung thực và mọi tham khảo đều được trích dẫn, chỉ rõ nguồn tham khảo theo đúng quy định. Tác giả Nguyễn Văn Bình
  4. 4 MỤC LỤC LỜI CAM ĐOAN 3 MỤC LỤC 4 DANH MỤC CÁC TỪ VIẾT TẮT 7 DANH MỤC BẢNG BIỂU 8 DANH MỤC HÌNH VẼ 10 MỞ ĐẦU 13 1. Đặt vấn đề 13 2. Mục tiêu nghiên cứu 14 3. Đối tượng và phạm vi nghiên cứu 14 4. Phương pháp nghiên cứu 15 5. Bố cục của luận án 15 6. Đóng góp chính của luận án 16 TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY 19 1.1. Giới thiệu 19 1.2. Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải tiến và đánh giá chất lượng dịch tự động 21 Các phương pháp dịch tự động 21 Kho ngữ liệu trong dịch tự động 28 Đánh giá chất lượng hệ thống dịch tự động 33 1.3. Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động tiếng Việt 43 Nghiên cứu xây dựng hệ thống dịch và đánh giá chất lượng dịch . 43 Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt 45 1.4. Thực trạng chất lượng dịch tự động tiếng Việt 48 1.5. Kết luận Chương 1 52
  5. 5 GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT 53 2.1. Giới thiệu 53 2.2. Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt 54 Tổ chức đánh giá 55 Nhận xét, đánh giá 60 Đề xuất giải pháp đánh giá chất lượng dựa trên quá trình hiệu đính bản dịch 61 2.3. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn 69 Tổng quan 69 Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu 70 Giải pháp nâng cao chất lượng kho ngữ liệu 71 Đánh giá vai trò của kho ngữ liệu đối với kết quả hệ thống dịch 87 2.4. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mô hình máy học mạng nơ ron 91 Tổng quan 91 Giải pháp cải tiến chất lượng dịch tiếng Việt bằng mô hình học máy mạng nơ ron 91 Kết quả xây dựng hệ thống dịch 102 Giải pháp xây dựng hệ thống dịch ngữ nghĩa 104 2.5. Kết luận Chương 2 109 HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR 111 3.1. Giới thiệu 111 3.2. Xây dựng kho ngữ liệu 112 Quy trình các bước triển khai 112 Xây dựng kho ngữ liệu song ngữ số lượng lớn 113 Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ và ngữ nghĩa 117
  6. 6 Xây dựng kho ngữ liệu ontology 118 3.3. Kết quả thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn bản pháp luật (VIKI Translator) 122 Quy trình các bước triển khai 122 Tổ chức huấn luyện mô hình và điều chỉnh tham số mô hình 122 Xây dựng các mô đun của hệ thống dịch 124 3.4. Đánh giá kết quả 125 Kết quả thực nghiệm 125 Đánh giá của người dùng 128 3.5. Kết luận Chương 3 130 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 131 1. Kết luận 131 2. Hướng phát triển 132 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 133 TÀI LIỆU THAM KHẢO 135
  7. 7 DANH MỤC CÁC TỪ VIẾT TẮT Thuật ngữ Tiếng Anh Tiếng Việt Automatic Language Processing Ủy ban cố vấn xử lý ngôn ngữ ALPAC Advisory Committee tự động Chỉ số đánh giá chất lượng bản BLEU BiLingual Evaluation Understudy dịch BLEU CBOW Continuous Bag of Words Mô hình túi từ liên tục Example Based Machine Dịch máy dựa trên ví dụ EBMT Translation Google Neural Machine Hệ thống dịch tự động sử dụng GNMT Translation mạng nơ ron của Google Chỉ số lỗi khi dịch bởi con HTER Human Translation Error Rate người National Institute of Standards and Chỉ số đánh giá chất lượng bản NIST Technology dịch NIST NMT Neural Network Translation Dịch máy sử dụng mạng nơ ron POS Part of Speech Phân loại từ vựng RNN Recurrent Neural Networks Mạng nơ ron tái phát SMT Statistical Machine Translation Dịch máy thống kê TBL Transformation-Based Learning Dịch máy chuyển đổi TER Translation Edit Rate Chỉ số đo lỗi bản dịch WER Word Error Rate Chỉ số tỉ lệ lỗi theo từ Workshop on Statistical Machine Hội thảo về dịch máy thống kê WMT Translation
  8. 8 DANH MỤC BẢNG BIỂU Bảng 1.1. Chi tiết kho ngữ liệu EuroMatrix 30 Bảng 1.2. Tổng hợp một số kho ngữ liệu 31 Bảng 1.3. Bảng các thang đo tương ứng với mức độ đầy đủ và trôi chảy 36 Bảng 1.4. Mô phỏng kết quả đánh giá bằng hình thức xếp hạng 37 Bảng 1.5. Đánh giá chất lượng dịch Anh – Việt từ hệ thống dịch dựa trên MOSES 43 Bảng 1.6. So sánh kết quả dịch sử dụng MOSES và hệ thống Google, Microsoft 44 Bảng 1.7. Kết quả đánh giá trên tập dữ liệu TED tst2015 của IWSLT 2015 44 Bảng 1.8. Đánh giá chất lượng hệ thống dịch sử dụng ngôn ngữ trung gian 45 Bảng 1.9. Ví dụ về một số câu hệ thống dịch sai nghĩa 50 Bảng 2.1. Thông tin về dữ liệu phục vụ đánh giá 55 Bảng 2.2. Đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt 57 Bảng 2.3. Đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh 57 Bảng 2.4. Kết quả đánh giá bằng phương pháp chủ quan 59 Bảng 2.5. Trung bình các chỉ số trên 5 bộ dữ liệu 67 Bảng 2.6. Kết quả sau khi hiệu chỉnh bản dịch 67 Bảng 2.7. Bảng tóm tắt đặc trưng các kho ngữ liệu phổ biến 72 Bảng 2.8. Số liệu kho ngữ liệu sử dụng để đánh giá sự ảnh hưởng đến chất lượng . 89 Bảng 2.9. Chất lượng các mô hình dịch nhận được 90 Bảng 2.10. Mô tả dữ liệu phục vụ xây dựng hệ thống dịch 103 Bảng 2.11. So sánh chất lượng hệ thống dịch theo các phương pháp khác nhau 104 Bảng 3.1. Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng 114 Bảng 3.2. Tổng hợp quy mô kho ngữ liệu của một số công bố 115
  9. 9 Bảng 3.3. Kết quả đánh giá và so sánh chất lượng hệ thống dịch Anh-Việt 125 Bảng 3.4. So sánh điểm BLEU đạt được ở một số nghiên cứu xây dựng hệ thống dịch tiếng Việt 126 Bảng 3.5. So sánh số lượng câu dịch đúng 127 Bảng 3.6. Ví dụ về các câu, thuật ngữ mà hệ thống VIKI Translator đã dịch đúng 127
  10. 10 DANH MỤC HÌNH VẼ Hình 1.1. Tổng quan bài toán dịch tự động 19 Hình 1.2. Mô hình tổng quát của phương pháp dịch dựa trên ví dụ 22 Hình 1.3. Mô hình hóa phương pháp dịch thống kê 25 Hình 1.4. Một ánh xạ giữa các factor trong ngôn ngữ nguồn và ngôn ngữ đích 27 Hình 1.5. Tích hợp thêm các lớp thông tin về lemma, POS vào dữ liệu huấn luyện 27 Hình 1.6. Giao diện của phần mềm dịch EV-Shuttle và Cồ Việt 49 Hình 2.1. Hai yếu tố then chốt của hệ thống dịch tự động: Dữ liệu và Phương pháp dịch 53 Hình 2.2. Quy trình tổ chức đánh giá chất lượng dịch tiếng Việt 55 Hình 2.3. Chương trình hỗ trợ trích xuất kết quả dịch từ các hệ thống 56 Hình 2.4. Biểu đồ so sánh kết quả đánh giá bằng phương pháp chủ quan 60 Hình 2.5. Chương trình tính chỉ số Tpe và Ope thông qua quá trình hiệu đính 64 Hình 2.6. Sơ đồ quy trình kết hợp hậu xử lý với đánh giá chất lượng hệ thống dịch 65 Hình 2.7. Sự tương đồng giữa Tpe, Ope và ED, WER 68 Hình 2.8. Chỉ số BLEU, NIST trước và sau khi hiệu chỉnh 69 Hình 2.9. Quan hệ giữa các dạng dữ liệu của các kho ngữ liệu 72 Hình 2.10. Định dạng chuẩn biểu diễn kho ngữ liệu 74 Hình 2.11. Giải pháp chuyển đổi các kho ngữ liệu 77 Hình 2.12. Giải pháp mở rộng ngôn ngữ cho kho ngữ liệu 77 Hình 2.13. Giải pháp thêm dữ liệu vào kho ngữ liệu 79 Hình 2.14. Hệ thống nhận dạng và phân loại thực thể danh từ riêng từ kho ngữ liệu 84
  11. 11 Hình 2.15. Trích nội dung tập tin từ điển khi sử dụng mô hình dịch thống kê và dịch sử dụng mạng nơ ron 85 Hình 2.16. Kết quả xác định ranh giới từ tiếng Việt 87 Hình 2.17. Quy trình đánh giá sự ảnh hưởng của số lượng kho ngữ liệu đến chất lượng bản dịch 89 Hình 2.18. So sánh tương quan giữa số lượng kho ngữ liệu và chất lượng hệ thống dịch 90 Hình 2.19. Mô hình dịch tự động sử dụng mạng nơ ron 92 Hình 2.20. Nguyên tắc hoạt động của mạng RNN 93 Hình 2.21. Minh họa bộ mã hóa – giải mã 94 Hình 2.22. Minh họa mô hình seq2seq dùng attention trong bài toán dịch máy [57] 95 Hình 2.23. Mô hình CBOW và Skip-gram trình bày tại [63] 98 Hình 2.24. Kiến trúc Bộ Mã hóa và Bộ Giải mã 99 Hình 2.25. Quá trình mã hóa câu nguồn để tạo véc tơ ngữ nghĩa 100 Hình 2.26. Minh họa Bộ Giảm mã thực hiện các bước dịch một câu 101 Hình 2.27. Quá trình giải mã tái tạo câu được dịch 102 Hình 2.28. Tích hợp cơ chế attention trong Bộ Giải mã 102 Hình 2.29. Mô hình hệ thống dịch ngữ nghĩa 107 Hình 2.30. Giao diện hệ thống dịch ngữ nghĩa 109 Hình 3.1. Quy trình triển khai thực nghiệm hệ thống dịch Anh - Việt 112 Hình 3.2. Sơ đồ trình tự các bước xây dựng kho ngữ liệu 112 Hình 3.3. Môi trường cho phép mở rộng kho ngữ liệu 118 Hình 3.4. Phân cấp các lớp và thuộc tính các lớp 119 Hình 3.5. Minh họa phân lớp dữ liệu 120
  12. 12 Hình 3.6. Mô tả ngữ nghĩa của kho ngữ liệu 121 Hình 3.7. Sơ đồ trình tự các bước xây dựng hệ thống dịch 122 Hình 3.8. Mô hình tổ chức của hệ thống website dịch tự động 124 Hình 3.9. Giao diện hệ thống dịch tự động VIKI Translator 128 Hình 3.10. Biểu đồ số lượng người sử dụng hàng tháng (Nguồn: Google Analytics) 129 Hình 3.11. Thống kê tổng số người dùng (Nguồn: Google Analytics) 130 Hình 3.12. Thống kê số lượng liên kết (Nguồn: ahrefs.com) 130
  13. 13 MỞ ĐẦU 1. Đặt vấn đề Nhu cầu trao đổi thông tin giữa các quốc gia, các nền văn hóa, giữa mỗi người trong xã hội hiện đại ngày càng tăng làm cho việc dịch thuật trở nên quan trọng và cần thiết. Dịch thuật sử dụng con người là công việc thủ công, tuy chất lượng cao nhưng tốc độ chậm, năng suất thấp và giá thành cao mà không thể tái sử dụng. Trong khi đó, một phiên dịch viên dù giỏi đến đâu cũng không thể cập nhật hết được một lượng thông tin khổng lồ trong nền kinh tế toàn cầu đang phát triển như vũ bão. Vì vậy, sử dụng hệ thống dịch tự động bằng máy tính để trợ giúp cho quá trình dịch thuật là cần thiết. Dịch tự động bằng máy tính nếu cho kết quả dịch tốt sẽ mang lại hiệu quả với chi phí bỏ ra ít, có thể dịch nhanh với khối lượng tài liệu lớn thuộc các lĩnh vực chuyên môn khác nhau. Khi đó các hệ dịch máy sẽ trở thành công cụ giúp con người tiếp cận kho tri thức khổng lồ viết bằng các ngôn ngữ khác nhau. Những chương trình máy tính đầu tiên thực hiện công việc dịch tự động đã được các nhà khoa học trên thế giới nghiên cứu và phát triển từ giữa thế kỷ 20 [1]. Đối với dịch tự động từ tiếng Việt sang các ngôn ngữ khác, đã có nhiều nghiên cứu và các sản phẩm ứng dụng được nhiều người dùng quan tâm và sử dụng, điển hình là hệ thống dịch của Google, Microsoft, EVTran [2] Các hệ thống này cho phép dịch tự động văn bản với một cặp ngôn ngữ đã chọn trước, ví dụ dịch từ tiếng Anh sang tiếng Việt hoặc ngược lại. Khi sử dụng một hệ thống dịch tự động, người dùng quan tâm đến chất lượng của bản dịch. Tuy nhiên hiện nay chất lượng dịch tự động của giữa các cặp ngôn ngữ ít phổ biến (low-resource) khá thấp [3], kể cả dịch từ tiếng Việt sang tiếng Anh và các ngôn ngữ khác, nên kết quả dịch chủ yếu để tham khảo, nắm đại ý của văn bản. Trong một số trường hợp, bản dịch làm cho người đọc hiểu sai nội dung một phần hoặc toàn bộ nội dung chính của văn bản. Các hệ thống dịch tự động mặc dù đã được sử dụng rộng rãi nhưng cũng cần có nhiều cải tiến mới có thể mang lại kết quả dịch có chất lượng hơn, giúp cho người đọc hiểu được văn bản cần dịch.
  14. 14 Chính vì vậy, cần thiết phải có những đánh giá về mặt khoa học để có những số liệu cụ thể minh chứng cho chất lượng của các hệ thống dịch tiếng Việt, từ đó phân tích và đề xuất các giải pháp nhằm nâng cao chất lượng của dịch tự động tiếng Việt, giúp các hệ thống dịch tự động cho các kết quả dịch chính xác hơn, trở thành công cụ hiệu quả giúp cho người dùng hiểu được các văn bản tiếng nước ngoài mà không phải tốn thời gian tra từ điển. Các kết quả dịch cũng có thể trở thành bản dịch tham khảo hỗ trợ có hiệu quả trong công tác dịch thuật. Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cứu sinh đã chọn đề tài “Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt” làm nội dung nghiên cứu luận án Tiến sỹ kỹ thuật của mình. 2. Mục tiêu nghiên cứu Mục tiêu chung của nghiên cứu là đề xuất được các giải pháp cụ thể nhằm cải tiến chất lượng của các hệ thống dịch tiếng Việt nói chung, trong đó phân tích cụ thể cho bài toán dịch tự động giữa cặp ngôn ngữ Việt – Anh. Các mục tiêu cụ thể gồm: - Đánh giá được thực trạng của các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay; - Đề xuất được các giải pháp nhằm nâng cao chất lượng của hệ thống dịch giữa cặp ngôn ngữ Anh – Việt; - Xây dựng được hệ thống dịch tự động Anh – Việt trong lĩnh vực cụ thể là văn bản quy phạm pháp luật. 3. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu của luận án gồm: - Các phương pháp đánh giá chất lượng hệ thống dịch tự động - Kho ngữ liệu sử dụng để huấn luyện và xây dựng mô hình dịch tự động - Các phương pháp dịch tự động - Các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay
  15. 15 Với các mục tiêu và đối tượng nghiên cứu mô tả trên, phạm vi nghiên cứu của luận án giới hạn ở một số nội dung sau: - Tập trung nghiên cứu, đánh giá các hệ thống dịch tự động phổ biến hiện nay, đề xuất giải pháp cải tiến chất lượng dịch tự động đối với cặp ngôn ngữ tiếng Việt – tiếng Anh. - Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại ở một lĩnh vực hẹp là lĩnh vực văn bản quy phạm pháp luật. - Triển khai ứng dụng trên nền tảng website nhằm thuận tiện truy cập đối với người dùng. 4. Phương pháp nghiên cứu - Phương pháp lý thuyết: Nghiên cứu các tài liệu có liên quan đến các nội dung về đặc trưng của ngôn ngữ tiếng Việt, biểu diễn và lưu trữ văn bản bản, trích rút văn bản, phương pháp đánh giá, phương pháp xây dựng kho ngữ liệu, các phương pháp dịch máy, học máy sử dụng mạng nơ ron, xử lý dữ liệu. - Phương pháp thực nghiệm: Trên cơ sở kết quả nghiên cứu liên quan, triển khai thực nghiệm đánh giá các hệ thống dịch tự động, triển khai xây dựng kho ngữ liệu lớn phục vụ hệ thống dịch, cải tiến chất lượng kho ngữ liệu, xây dựng và huấn luyện mô hình dịch cho cặp ngôn ngữ Anh – Việt. 5. Bố cục của luận án Trên cơ sở các mục tiêu của nghiên cứu đã đề ra và giới hạn đối tượng, phạm vi nghiên cứu, nhằm đảm bảo tính hợp lý và trình tự nghiên cứu đã thực hiện trong thời gian triển khai nghiên cứu, luận án được tổ chức thành ba chương và phần mở đầu, kết luận, cụ thể như sau: Chương 1. Tổng quan về dịch tự động và chất lượng dịch tự động tiếng Việt hiện nay. Chương này trình bày tổng quan các vấn đề được triển khai nghiên cứu trong luận án, bao gồm các khái niệm cơ bản trong lĩnh vực dịch tự động, các phương pháp dịch, kho ngữ liệu dùng trong dịch tự động, các phương pháp đánh giá chất lượng hệ thống dịch và các nghiên cứu tổng quan của vấn đề cải tiến chất lượng dịch tự động. Nội dung chương này cũng giới thiệu các hệ thống dịch tiếng Việt hiện nay
  16. 16 và đánh giá khái quát chất lượng của hệ thống, phân tích các khía cạnh cần nghiên cứu và tổ chức thực nghiệm nhằm cải tiến chất lượng của hệ thống dịch, tập trung đến vấn đề quan trọng nhất là cải tiến kho ngữ liệu và áp dụng phương pháp dịch phù hợp. Chương 2. Giải pháp cải tiến chất lượng dịch tự động tiếng Việt. Trên cơ sở các phương pháp đánh giá chất lượng hệ thống dịch tiếng Việt đã được nghiên cứu, bao gồm phương pháp đánh giá chủ quan và khách quan, Chương 2 trình bày quy trình đánh giá và xây dựng kịch bản đánh giá chất lượng của một số hệ thống dịch tự động Anh - Việt phổ biến nhất hiện nay. Từ thực trạng chất lượng dịch nhận được luận án đề xuất một số giải pháp nhằm cải tiến chất lượng của các kho ngữ liệu tiếng Việt ở khía cạnh số lượng và chất lượng, sau đó triển khai thực nghiệm một số giải pháp cải tiến và tiến hành xây dựng kho ngữ liệu lớn phục vụ việc huấn luyện các mô hình dịch tiếng Việt chất lượng tốt. Về phương pháp dịch, luận án đề xuất áp dụng mô hình dịch mạng nơ ron cho cặp ngôn ngữ Anh – Việt để ứng dụng những ưu điểm nổi bật của phương pháp học máy sử dụng mạng nơ ron. Đồng thời, đề xuất giải pháp để triển khai hệ thống dịch ngữ nghĩa dựa trên ngữ cảnh, giúp cho các hệ thống dịch có thể cung cấp thêm nhiều tầng ngữ nghĩa cho người dùng để hiểu được toàn vẹn nội dung văn bản. Chương 3. Thực nghiệm và đánh giá kết quả. Từ các giải pháp đề xuất ở Chương 2, nội dung Chương 3 triển khai các bước thực nghiệm xây dựng kho ngữ liệu lớn và xây dựng mô hình dịch máy mạng nơ ron cho cặp ngôn ngữ Anh – Việt, sau đó xây dựng hệ thống dịch lĩnh vực văn bản quy phạm pháp luật VIKI Translator và triển khai trên môi trường Internet để cung cấp dịch vụ cho người dùng thực tế, qua đó đánh giá hiệu quả của hệ thống dịch và các phương pháp đã đề xuất. 6. Đóng góp chính của luận án Luận án có 05 đóng góp chính sau đây liên quan đến giải pháp cải tiến chất lượng dịch tự động tiếng Việt: (1) Triển khai đánh giá chất lượng của các hệ thống dịch tự động tiếng Việt đang hoạt động một cách đầy đủ và chi tiết, từ đó công bố các số liệu khoa học minh
  17. 17 chứng chất lượng dịch tự động tiếng Việt. Các bước thực hiện gồm: xây dựng bộ dữ liệu đánh giá đầy đủ, tin cậy; lập trình ứng dụng hỗ trợ đánh giá; tổ chức đánh giá theo cả phương pháp chủ quan (đánh giá tự động thông qua các chỉ số BLEU, NIST) và khách quan (do con người thực hiện); thu nhận số liệu và phân tích, đánh giá. Từ quá trình triển khai đánh giá này, luận án cũng đề xuất giải pháp đánh giá chất lượng hệ thống dịch thông qua quá trình hậu xử lý nhằm giúp tiết kiệm thời gian và nguồn lực tổ chức đánh giá. Kết quả đóng góp này được thể hiện ở công trình số (2,6) (2) Đề xuất được giải pháp cải tiến chất lượng dịch tiếng Việt thông qua cải tiến kho ngữ liệu. Luận án đã nghiên cứu và minh chứng được một trong những tác nhân quan quan trọng ảnh hưởng đến chất lượng dịch tự động của các hệ thống dịch đó là kho ngữ liệu. Do đó, luận án đã tập trung đề xuất và triển khai các giải pháp khác nhau để cải tiến kho ngữ liệu bao gồm cả khía cạnh chất lượng và khối lượng. Các giải pháp cụ thể đó là mở rộng và hợp nhất kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng bằng cách kết hợp thuật toán Maximum Matching và phân tích mối quan hệ giữa các thành tố văn bản; giải pháp xác định ranh giới từ ghép tiếng Việt từ mô hình phân phối từ và cụm từ trong văn bản. Giải pháp cải tiến chất lượng dịch tiếng Việt bằng cách cải tiến kho ngữ liệu đã được triển khai cài đặt, thử nghiệm và đánh giá đã cho kết quả chất lượng dịch được cải tiến rõ nét, thể hiện ở các công trình (1,4,5,8,9). (3) Đề xuất giải pháp cải tiến chất lượng dịch tiếng Việt bằng phương pháp dịch trí tuệ nhân tạo, áp dụng mô hình học máy mạng nơ ron. Đây được xem như giải pháp mới, tốt nhất tại thời điểm nghiên cứu và đề xuất (năm 2017) để cải tiến chất lượng dịch tự động nói chung, nhất là dịch tự động tiếng Việt. Giải pháp áp dụng mạng nơ ron mà luận án đề xuất cho phép dịch toàn bộ câu cùng lúc thay vì dịch theo cụm từ như phương pháp dịch máy thống kê. Phương pháp mạng nơ ron ưu việt hơn tất cả các phương pháp trước đó vì có thể hiểu được cả ngữ nghĩa của câu thay vì dịch dựa trên bộ nhớ dịch các cụm từ. Giải pháp này đã được luận án đề xuất, triển khai, cài đặt thử nghiệm và đã cho ra kết quả dịch có chất lượng tốt hơn nhiều so với các phương pháp khác và với các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay đối với lĩnh vực hẹp được thử nghiệm, thể hiện tại công trình (3,7).
  18. 18 (4) Đề xuất giải pháp mới để xây dựng hệ thống dịch tự động hướng ngữ nghĩa. Luận án đề xuất mô hình và giải pháp xây dựng hệ thống dịch tự động hướng ngữ nghĩa dựa theo ngữ cảnh thông qua cải tiến mô hình dịch sử dụng mạng nơ ron kết hợp với kho ngữ liệu lớn đã được làm giàu ngữ nghĩa. Bằng giải pháp này, kết quả dịch được hệ thống xử lý ngữ nghĩa trước khi hiển thị cho người dùng, từ đó biểu diễn thêm các tầng ngữ nghĩa khác giúp cho bản dịch có đầy đủ thông tin và người đọc có thể hiểu toàn vẹn ý nghĩa của bản dịch. Kết quả đóng góp này được thể hiện ở công trình số (10,11) (5) Đóng góp về mặt thực nghiệm và sản phẩm sử dụng thực tế: xây dựng, triển khai thực nghiệm được hệ thống dịch tự động Anh –Việt VIKI Translator, cho kết quả thử nghiệm chất lượng dịch tiếng Việt lĩnh vực hẹp (văn bản quy phạm pháp luật) tốt hơn so với các hệ thống dịch tiếng Việt đang hoạt động. Hệ thống dịch đã cung cấp cho người dùng thông qua môi trường Internet tại địa chỉ đã có hơn 1.500.000 lượt người dùng trên trang web, hơn 30.000 lượt tải và cài đặt phần mềm, nhận được đánh tích cực từ phía người dùng với điểm số trung bình trên 4,5/5,0 từ Google Play và Chrome Extensions. Có hơn 30 bài viết từ các blog, trang web khác viết bài đánh giá và hướng dẫn sử dụng, với 582.561 liên kết về trang chủ của hệ thống. Bên cạnh đó, một kết quả quan trọng khác có ý nghĩa thực tế và đóng góp về mặt thực nghiệm mà luận án đã xây dựng được đó là kho ngữ liệu lớn và có chất lượng tốt các cặp ngôn ngữ Anh – Việt với hơn 1.479.000 cặp câu song ngữ (phần lớn thuộc lĩnh vực văn bản quy phạm pháp luật).
  19. 19 TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY 1.1. Giới thiệu Theo định nghĩa của từ điển Cambridge, dịch tự động hay còn gọi là dịch máy (tiếng Anh: machine translation, thường được viết tắt trong tiếng Anh là: MT) là quá trình chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác bằng máy tính. Theo mô tả tại [4], thuật ngữ dịch tự động được dùng để chỉ các hệ thống máy tính chịu trách nhiệm tạo ra các bản dịch và tự động hóa toàn bộ quá trình dịch, có thể có hoặc không có sự hỗ trợ của con người. Dịch tự động (MT) khác với phương pháp dịch CAT (Computer-Aided Translation), trong đó người dịch sẽ sử dụng một phần mềm máy tính để hỗ trợ cho việc dịch thuật nhằm tăng hiệu quả của quá trình dịch thuật và tiết kiệm thời gian. Trong các nghiên cứu về lĩnh vực dịch tự động, văn bản đầu vào cần dịch được gọi là văn bản nguồn (được viết bằng ngôn ngữ nguồn) và văn bản đã được máy tính dịch gọi là văn bản đích (được viết bằng ngôn ngữ đích). Tổng quan về bài toán dịch tự động có thể mô tả trong Hình 1.1. Âm thanh Văn Văn Hình ảnh Bộ máy Chuyển bản bản dịch tự đổi sang nguồn đích động âm thanh, Tín hiệu hình ảnh, tín hiệu Văn bản Dữ liệu đầu vào Kết quả dịch Hình 1.1. Tổng quan bài toán dịch tự động Mục tiêu lý tưởng của các hệ thống dịch là tạo ra được các bản dịch chất lượng cao, có thể sử dụng và thay thế cho công việc dịch thuật thủ công của con người. Tuy
  20. 20 nhiên, trên thực tế kết quả dịch cần phải được chỉnh sửa lại. Quá trình chỉnh sửa kết quả dịch của các hệ thống dịch tự động được gọi là quá trình hiệu đính bản dịch (post- edited). Xây dựng và ứng dụng các hệ thống dịch tự động là xu thế tất yếu hiện nay, vì các hệ thống này sẽ giúp cho việc dịch thuật giữa các ngôn ngữ trở nên dễ dàng, nhanh chóng và tiết kiệm. Tính đến năm 2021, sau 15 năm triển khai, hệ thống Google Translate đã hỗ trợ dịch tự động 109 ngôn ngữ, cung cấp dịch vụ cho hàng triệu người sử dụng mỗi ngày. Trong khi đó, Microsoft Translator cũng là hệ thống dịch tự động được nhiều người sử dụng và hỗ trợ 90 ngôn ngữ. Một số sản phẩm phục vụ dịch tự động giữa tiếng Việt với các ngôn ngữ khác cũng được nghiên cứu như phần mềm EVTtran (EV-Shuttle), công cụ dịch văn bản của Lạc Việt, Vdict. Bên cạnh tính năng dịch trực tiếp văn bản còn có nhiều dịch vụ cung cấp ứng dụng khác có sử dụng kết quả của hệ thống dịch: dịch toàn bộ trang web, dịch nội dung email, nhận dạng văn bản trên hình ảnh và dịch, nhận dạng giọng nói và dịch sang ngôn ngữ khác. Nguyên tắc chung của các hệ thống này là xử lý dữ liệu đầu vào (hình ảnh, âm thanh, ký hiệu ) thành văn bản nguồn, sau đó gọi các hàm API của các hệ thống dịch để đưa văn bản nguồn vào và lấy kết quả dịch, từ đó chuyển đổi thành dữ liệu đầu ra phù hợp. Như thể hiện ở Hình 1.1, dữ liệu đầu vào của một hệ thống dịch thuật thông thường biểu diễn ở dạng văn bản. Các dữ liệu khác như hình ảnh, âm thanh sẽ được nhận dạng và chuyển đổi sang dữ liệu văn bản trước khi đưa vào hệ thống dịch. Tương tự, kết quả dịch là một văn bản và có thể sẽ được chuyển đổi sang các định dạng khác (như âm thanh, lời nói) để hiển thị cho người dùng. Bộ máy dịch tự động là một chương trình máy tính có nhiệm vụ tiếp nhận văn bản ở ngôn ngữ nguồn, sau đó bằng các thuật toán của mình để đưa ra dự đoán kết quả dịch ở ngôn ngữ đích. Các thuật toán ở bài toán dịch tự động hoạt động trên cơ sở tổng hợp và xử lý tri thức từ ngôn ngữ tự nhiên, chẳng hạn thông qua từ điển, các cặp câu dịch mẫu; các luật ngữ pháp; thống kê từ ngữ, mô hình ngôn ngữ
  21. 21 1.2. Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải tiến và đánh giá chất lượng dịch tự động Các phương pháp dịch tự động Ý tưởng về thiết kế các hệ thống dịch tự động để vượt qua các rào cản ngôn ngữ đã được đề cập từ thế kỷ 17 [4]. Tuy nhiên, đến những năm 1930 mới bắt đầu có các bằng sáng chế và các nguyên mẫu đầu tiên mô tả về các hệ thống này. Đến những năm 1950, các nhà khoa học đã bắt đầu nghiên cứu thành công những hệ thống có thể dịch những câu hoàn chỉnh giữa một số ngôn ngữ (như dịch từ tiếng Nga sang tiếng Anh). Từ năm 1980, dịch tự động bắt đầu phát triển nhanh chóng, các hệ thống dịch tự động mới xuất hiện và thương mại hóa, các nghiên cứu được mở rộng ở nhiều hướng tiếp cận khác nhau. Trong quá trình phát triển của lĩnh vực dịch tự động, đã có nhiều phương pháp dịch được đề xuất và nghiên cứu. Các phương pháp dịch được áp dụng rộng rãi và cho kết quả khả quan có thể kể đến là phương pháp dịch dựa trên ví dụ và phương pháp dịch thống kê. 1.2.1.1. Dịch tự động dựa trên ví dụ Phương pháp dịch máy dựa trên ví dụ (EBMT: Example-Based Machine Translation) được đề xuất lần đầu tiên vào năm 1984 tại công trình [5]. Phương pháp dịch này còn được tác giả gọi là phương pháp dịch tự động dựa trên suy luận từ các ví dụ, hay dịch máy theo nguyên lý tương tự, có ý tưởng chính như sau: việc dịch một câu đơn giản không cần dựa trên quá trình phân tích sâu về mặt ngôn ngữ, thay vào đó, chúng ta phân tách câu đầu vào thành các cụm từ rời rạc, sau đó dịch các cụm từ này sang ngôn ngữ khác, và cuối cùng chỉ cần ghép nối các cụm từ này lại với nhau theo một thứ tự đúng để tạo thành một câu dài hoàn chỉnh. Việc dịch các cụm từ rời rạc sẽ được thực hiện theo nguyên tắc dịch tương tự, sử dụng các ví dụ mẫu để tham khảo. Ba thành phần quan trọng của phương pháp dịch dựa trên ví dụ là: phân tách các cụm từ trên cơ sở đối sánh từ dữ liệu các ví dụ thực tế, xác định các văn bản dịch tương ứng và kết hợp các cụm từ để tạo thành văn bản đích.
  22. 22 Kết quả của phương pháp dịch này được minh họa theo Sato và Nagao tại [6] dưới đây, đã được chuyển sang tiếng Việt: (1) He buys a book on international politics. (2) a. He buys a notebook. Anh ấy mua một quyển sổ tay. b. I read a book on international politics. Tôi đọc một quyển sách về chính trị quốc tế. (3) Anh ấy mua một quyển sách về chính trị quốc tế. Trong đó, (1) là câu nguồn cần dịch, (2) là các mẫu câu trong tập hợp dữ liệu ví dụ đã có sẵn, (3) là kết quả dịch (câu đích). Câu nguồn (1) được tách thành hai phân đoạn dựa trên các mẫu ví dụ tại (2a) và (2b). Sau đó ghép các bản dịch từ các câu ví dụ để thu được câu đích (3). Mô hình tổng quát của phương pháp dịch dựa trên ví dụ thể hiện ở hình sau [7]: (2) ALIGNMENT transfer (1) MATCHING (3) RECOMBINATION analysis generation (4) EXACT MATCH direct translation Source text Target text Hình 1.2. Mô hình tổng quát của phương pháp dịch dựa trên ví dụ (1) Ở giai đoạn phân tích văn bản nguồn, phương pháp này thực hiện đối sánh các câu nguồn với tập câu ví dụ đã có sẵn để chọn các câu có chứa các cụm từ trong câu nguồn. (2) Từ các cặp câu được chọn, thực hiện việc gióng hàng để tách các cụm từ tương ứng ở ngôn ngữ đích. (3) Các cụm từ sau đó sẽ được ghép lại theo một cách phù hợp để tạo ra câu cần dịch. (4) Trường hợp các câu đầu vào trùng khớp chính xác
  23. 23 với câu đã có sẵn trong dữ liệu thì không cần phải thực hiện các bước tách đoạn như ở trên mà lấy ngay câu đã dịch tương ứng. Phương pháp dịch dựa trên ví dụ là một mô hình dịch trên nền tảng các kho dữ liệu, vì vậy độ chính xác của kết quả dịch phụ thuộc vào số mẫu ví dụ đã có sẵn. Với kho dữ liệu có số lượng các cặp câu ví dụ càng lớn thì chất lượng dịch đạt được càng tốt. Tiếp cận dịch bằng ví dụ có nhiều ưu điểm: • Phương pháp có thể áp dụng cho bất kỳ cặp ngôn ngữ nào, miễn là hệ thống có một tập các ví dụ đủ phong phú. • Các ngôn ngữ nguồn và đích không cần phải được khảo sát trước về mặt từ vựng và ngữ pháp. • Tập dữ liệu càng phong phú, chất lượng dịch càng cao. Đây là ưu thế rất lớn so với một số phương pháp khác, một vài tiếp cận dịch có thể bị giảm chất lượng nếu tri thức dịch nhiều lên. Tiếp cận dịch bằng ví dụ có điểm yếu đó là sự quá phụ thuộc vào chất lượng của các cặp ví dụ được sử dụng để làm mẫu và thuật toán đối sánh mẫu thực hiện khá chậm so với một số tiếp cận khác (vì chưa có thuật toán hiệu quả trong việc tìm kiếm sự xuất hiện của một đoạn văn bản trong toàn bộ tập mẫu). Phương pháp dịch này phù hợp để dịch thuật đối với một số lĩnh vực hẹp, chiều dài các câu ngắn, ít có sự nhập nhằng ngữ nghĩa, chẳng hạn trong dự báo thời tiết, trong một số tài liệu kỹ thuật phù hợp. 1.2.1.2. Dịch tự động bằng phương pháp thống kê Dịch tự động dựa trên phương pháp thống kê (SMT - Statistical Machine Translation) là một hướng phát triển đầy tiềm năng trong những năm vừa qua bởi những ưu điểm vượt trội so với các phương pháp khác [8]. Thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, mô hình dịch thống kê tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ các kho ngữ liệu. Chính vì vậy, dịch máy dựa vào thống kê có thể áp dụng được cho bất kỳ cặp ngôn ngữ nào.