Sau đại học
Trang chủ   >  Tin tức  >   Thông báo  >   Sau đại học
Thông tin LATS của NCS Nguyễn Tiến Hà
Tên đề tài: Nghiên cứu xây dựng tài nguyên song ngữ Việt-Anh ứng dụng cho dịch máy theo miền

1. Họ và tên: Nguyễn Tiến Hà                                         2.Giới tính: Nam

3. Ngày sinh: 04/08/1977                                                4. Nơi sinh: Vĩnh Phúc

5. Quyết định công nhận nghiên cứu sinh: Quyết định số 4374/QĐ-KHTN-CTSV ngày 03/12/2012 của Hiệu trưởng Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội.

6. Các thay đổi trong quá trình đào tạo: Quyết định gia hạn đào tạo và bảo vệ luận án tiến sĩ số 741/QĐ-ĐHKHTN ngày 31/03/2016 và số 1034/QĐ-ĐHKHTN ngày 25/04/2017; Quyết định trả NCS về địa phương số 5034/QĐ-ĐHKHTN ngày 29/12/2017 của trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội.

7. Tên đề tài luận án: Nghiên cứu xây dựng tài nguyên song ngữ Việt-Anh ứng dụng cho dịch máy theo miền.

8. Chuyên ngành: Cơ sở Toán học cho Tin học               9. Mã số: 9460117.02

10. Cán bộ hướng dẫn khoa học: Hướng dẫn chính:       TS. Nguyễn Thị Minh Huyền      

                                                Hướng dẫn phụ:            PGS. TS. Nguyễn Hữu Ngự

11. Tóm tắt các kết quả mới của luận án:

Với việc thực hiện đề tài nghiên cứu này chúng tôi đã thu được một số kết quả sau:

- Đề xuất kỹ thuật cải tiến công cụ dóng hàng XAlign cho cặp ngôn ngữ Việt-Anh. Sử dụng công cụ dóng hàng này luận án đã xây dựng được kho ngữ liệu song ngữ có dóng hàng câu gồm trên 20.000 cặp câu miền du lịch và trên 270.000 cặp câu miền chung. Luận án đã chứng tỏ bằng thực nghiệm rằng việc khai thác các kho ngữ liệu này nâng cao đáng kể chất lượng dịch máy theo miền du lịch.

- Đề xuất phương pháp trích rút từ và cụm từ song ngữ từ kho ngữ liệu song ngữ và kho ngữ liệu đơn ngữ. Sử dụng các phương pháp này luận án đã xây dựng được kho ngữ liệu trên 40.000 cặp từ và cụm từ song ngữ, bao gồm: trên 1.000 cặp cho miền du lịch; trên 600 cặp cho miền y tế; còn lại thuộc miền chung.

- Đề xuất kỹ thuật tiền xử lý câu dài trong dịch máy nơ-ron cải thiện chất lượng dịch.

- Triển khai một phương pháp sinh chú giải tiếng Việt tự động cho hình ảnh dựa vào dịch máy Anh-Việt, đề xuất một kỹ thuật khai thác từ điển để xử lý các từ mới (unknown words) nhằm nâng cao chất lượng hệ thống dịch.

12. Khả năng ứng dụng thực tiễn:

Các công cụ và ngữ liệu song ngữ xây dựng trong luận án, bao gồm kho văn bản song ngữ và các kho từ/cụm từ song ngữ, có thể ứng dụng trong việc nâng cao chất lượng của các hệ thống dịch Anh-Việt. Kết quả của luận án liên quan tới sinh chú thích tiếng Việt cho ảnh dựa vào dịch máy cũng có thể được ứng dụng nhằm nâng cao hiệu suất xây dựng các bộ dữ liệu ảnh có chú thích, phục vụ nghiên cứu ứng dụng trong lĩnh vực trí tuệ nhân tạo.

13. Các hướng nghiên cứu tiếp theo:

- Nghiên cứu cải tiến hiệu năng dịch máy thông qua việc khai thác tài nguyên đơn ngữ và song ngữ tổng quát cũng như theo miền.

- Nghiên cứu thu thập và khai thác các nguồn tài nguyên đa ngữ (nhiều hơn một cặp ngôn ngữ).

- Nghiên cứu các vấn đề liên quan tới việc nâng cao chất lượng biểu diễn từ và biểu diễn ngữ nghĩa đa ngữ hướng tới các hệ thống dịch máy đa ngữ.

14. Các công trình công bố liên quan đến luận án:         

[1] Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền, Nguyễn Minh Hải (2018), "Xây dựng kho ngữ liệu du lịch song ngữ Việt - Anh dóng hàng mức câu cho dịch máy", Tạp chí các công trình nghiên cứu phát triển công nghệ thông tin và truyền thông Tập V-1, số 39, Bộ thông tin và truyền thông, tr. 9-16.

[2] Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền (2019), "Tiền xử lý câu dài trong dịch máy nơ-ron", Kỷ yếu Hội nghị quốc tế RIVF 2019 về Công nghệ Truyền thông và Điện toán, DOI: 10.1109/RIVF.2019.8713737, tr. 1-6.

[3] Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền (2019), "Xây dựng tự động từ điển Việt – Anh và ứng dụng trong lĩnh vực du lịch", Kỷ yếu Hội nghị Quốc gia lần thứ VII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR), tr. 568-576.

[4] Nguyễn Tiến Hà, Ngô Thế Quyền, Nguyễn Thị Minh Huyền, Hà Mỹ Linh (2019), "Trích rút thuật ngữ song ngữ Anh-Việt từ văn bản đơn ngữ tiếng Việt dựa vào luật",  Kỷ yếu Hội nghị quốc tế SoICT 2019 về Công nghệ thông tin và Truyền thông lần thứ 10, tr. 56–62.

[5] Phạm Nghĩa Luân, Nguyễn Tiến Hà, Nguyễn Văn Vĩnh (2019),  "Chữa lỗi ngữ pháp cho tiếng Việt sử dụng dịch máy", Kỷ yếu Hội nghị quốc tế PACLING lần thứ XVI, Hà Nội, Việt Nam, tr. 505-512.

[6] Nguyễn Tiến Hà, Đỗ Thanh Hà (2020), "Sinh chú giải tiếng Việt tự động cho ảnh", Kỷ yếu Hội nghị quốc tế MAPR 2020 về Phân tích thông tin đa phương tiện và nhận dạng lần thứ 3, 978-1-7281-6555-4/20/$31.00 ©2020 IEEE.

 [7] Nguyễn Tiến Hà, Đỗ Thanh Hà, Nguyễn Vân Anh (2020), "Chú giải tiếng Việt cho ảnh dựa vào mạng nơ-ron", đã được chấp nhận báo cáo nói tại Hội nghị quốc tế ICCCI 2020 về trí tuệ nhóm lần thứ 12.

 Hồng Hạnh
  In bài viết     Gửi cho bạn bè
  Từ khóa :
Thông tin liên quan
Trang: 1   | 2   | 3   | 4   | 5   | 6   | 7   | 8   | 9   | 10   | 11   | 12   | 13   | 14   | 15   | 16   | 17   | 18   | 19   | 20   | 21   | 22   | 23   | 24   | 25   | 26   | 27   | 28   | 29   | 30   | 31   | 32   | 33   | 34   | 35   | 36   | 37   | 38   | 39   | 40   | 41   | 42   | 43   | 44   | 45   | 46   | 47   | 48   | 49   | 50   | 51   | 52   | 53   | 54   | 55   | 56   | 57   | 58   | 59   | 60   | 61   | 62   | 63   | 64   | 65   | 66   | 67   | 68   | 69   | 70   | 71   | 72   | 73   | 74   | 75   | 76   | 77   | 78   | 79   | 80   | 81   | 82   | 83   | 84   | 85   | 86   | 87   | 88   | 89   | 90   | 91   | 92   | 93   | 94   | 95   | 96   | 97   | 98   | 99   | 100   | 101   | 102   | 103   | 104   | 105   | 106   | 107   | 108   | 109   | 110   | 111   | 112   | 113   | 114   | 115   | 116   | 117   | 118   | 119   | 120   | 121   | 122   | 123   | 124   | 125   | 126   | 127   | 128   | 129   | 130   | 131   | 132   | 133   | 134   | 135   | 136   | 137   | 138   | 139   | 140   | 141   | 142   | 143   | 144   | 145   | 146   | 147   | 148   | 149   | 150   | 151   | 152   | 153   | 154   | 155   | 156   | 157   | 158   | 159   | 160   | 161   | 162   | 163   | 164   | 165   | 166   | 167   | 168   | 169   | 170   | 171   | 172   | 173   | 174   | 175   | 176   | 177   | 178   | 179   | 180   | 181   | 182   | 183   | 184   | 185   | 186   | 187   | 188   | 189   | 190   | 191   | 192   | 193   | 194   | 195   | 196   | 197   | 198   | 199   | 200   | 201   | 202   | 203   | 204   | 205   | 206   | 207   | 208   | 209   | 210   | 211   | 212   | 213   | 214   | 215   | 216   | 217   |