Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ứng dụng mô hình ngôn ngữ trong mô hình dịch máy

Van Hai
February 19, 2015
1.2k

ứng dụng mô hình ngôn ngữ trong mô hình dịch máy

Van Hai

February 19, 2015
Tweet

More Decks by Van Hai

Transcript

  1. Ứng dụng của mô hình ngôn ngữ trong dịch máy

    Nguyễn Văn Hải Pgs. Yamamoto Kazuhide Ptn.Xử Lý Ngôn Ngữ Tự Nhiên Trường Đại Học Khoa Học Kỹ Thuật Nagaoka
  2. Dịch máy  Dịch từ ngôn ngữ này (ngôn ngữ

    nguồn) sang nhiều ngôn ngữ khác.  Là sự kết hợp của ngôn ngữ, dịch thuật và khoa học máy tính  2 phương pháp tiếp cận: - hướng luật (rules-based) - thống kê
  3. Phương pháp tiếp cận  Hướng luật (rules-based): - dựa

    vào các luật viết tay trên từ vựng và ngữ pháp - nhưng mất nhiều thời gian xây dựng  Thống kê (statistical): - sử dụng thống kê trên bản dịch song ngữ.
  4. Dịch máy thống kê  Cho trước câu ngôn ngữ

    nguồn f, tìm ra câu e của ngôn ngữ đích sao cho xác suất P(e|f) là lớn nhất. = (|) () P(e|f): xác suất của câu ngôn ngữ nguồn là bản dịch của câu ngôn ngữ đích. P(e): là xác suất của câu e
  5. Dịch máy thống kê  Cho trước câu ngôn ngữ

    nguồn f, tìm ra câu e của ngôn ngữ đích sao cho xác suất P(e|f) là lớn nhất. = (|) () P(e|f): xác suất của câu ngôn ngữ nguồn là bản dịch của câu ngôn ngữ đích. P(e): là xác suất của câu e
  6. Dịch máy thống kê  Mô hình dịch từ tiếng

    Anh sang tiếng Việt Mô hình dịch P(v|e) Mô hình ngôn ngữ P(v) Bộ giải mã Argmax P(v)*P(v|e) I am a student Tôi là một sinh viên
  7. Dịch máy thống kê  Mô hình dịch từ tiếng

    Anh sang tiếng Việt: - Mô hình ngôn ngữ: tính toán xác suất của câu ngôn ngữ nguồn. - Mô hình dịch: cho biết xác suất của câu ngôn ngữ nguồn là bản dịch từ câu ngôn ngữ đích. - Bộ giải mã: tìm kiếm tất cả các câu ngôn ngữ đích e có thể từ câu ngôn ngữ nguồn f.
  8. Mô hình dịch  Có 3 hướng tiếp cận: -

    Dựa trên từ (word-based). - Dựa trên cụm từ (phrase-based). - Dựa trên cú pháp (syntax-based). → đề ự ê ự ươ ứ ữ 2 â()
  9. Sự gióng hàng (alignment)  Tất cả các mô hình

    dịch đều dựa trên sự tương ứng của từ.  Tương ứng của từ là ánh xạ của 1 hay nhiều từ trong ngôn ngữ nguồn với một hay nhiều từ trong ngôn ngữ đích.
  10. Sự gióng hàng (alignment)  Tuy nhiên để đơn giản,

    ta quy định:mỗi từ của ngôn ngữ nguồn tương ứng với 1 từ của ngôn ngữ đích. été And program has been implemented Le programme a en mis the application Tương ứng 1-1 giữa câu tiếng Anh-tiếng Pháp
  11. Sự gióng hàng (alignment)  Thực tế có từ trong

    ngôn ngữ đích không tương ứng vs ngôn ngữ nguồn, ta thêm vào giá trị NULL una NULL did not slap the Maria no dió a befotada Mary bruja green witch la verde Tương ứng 1-1 giữa câu tiếng Anh-tiếng Tây Ban Nha
  12. Mô hình dịch dựa trên từ (word-based)  Dựa trên

    sự tương ứng của các từ theo tương ứng một-một.  Giả sử ngôn ngữ nguồn là e1 e2 e3 ..en thì câu ngôn ngữ đích là f1 f2 f3 …fn thì mỗi từ fj chỉ tương ứng 1 một từ hoặc không tương ứng với từ nào.
  13. Mô hình dịch dựa trên cụm từ (phrase-based)  Ta

    có cụm từ “take time” được dịch là “mất thời gian”. Nếu dịch theo từng từ thì ta có kết quả là “giữ” “thời gian”  Mô hình Koehn: một câu nguồn e sẽ được tách thành các cụm từ e1 , e2 , e3 ,.., en sau đó các cụm này sẽ được dịch thành cụm thuộc ngôn ngữ đích fj. Cuối cùng các cụm fj sẽ được sắp xếp theo 1 thứ tự nhất định.
  14. Mô hình dịch dựa trên cú pháp (syntax-based)  Mô

    hình dịch dựa trên cú pháp không chỉ dịch ngữ nghĩa của từ, mà có xét đến cú pháp của câu.  Một câu trong ngôn ngữ nguồn e sẽ được phân tích thành 1 cây cú pháp. Cây cú pháp được sắp xếp lại phù hợp với cây cú pháp của ngôn ngữ đích.
  15. Bộ giải mã  Nhiệm vụ của bộ giải mã

    là tìm câu đích sao cho giá trị P(f|e)*P(e) là lớn nhất.  Giải thuật A*: tại mỗi bước mở rộng không gian tìm kiếm , ta sử dụng các hàm ước lượng, đánh giá trọng số để kết quả tìm được là tốt nhất và là kết quả tìm thấy đầu tiên.
  16. Phương pháp đánh giá bản dịch  Đánh giá lại

    độ chính xác của bản dịch: - đánh giá lại trực tiếp thông qua người dùng - đánh giá tự động bằng máy tính
  17. Đánh giá trực tiếp thông qua người dùng  Ta

    đưa ra 1 thước đo cho độ trôi chảy của bản dịch  Người tham gia đánh giá sẽ đánh giá độ chính xác của bản dịch thông qua thước đo đó.  Như vậy, văn bản nào có điểm trung bình càng cao thì văn bản đó dịch càng tốt.
  18. Đánh giá trực tiếp thông qua người dùng  Bản

    dịch nào người đọc hiểu càng nhanh thì bản dịch đó càng chính xác.  Phương pháp này dễ thực hiện, nhưng chi phí lớn và bản dịch có kích thước lớn thì phương pháp này kém hiệu quả.
  19. Phương pháp BLEU  Phương pháp này là so sánh

    bản dịch bằng máy với bản dịch của con người.  Việc so sánh được thực hiện thông qua thống kê sự trùng khớp của các từ trong hai bản dịch tính đến thứ tự của chúng trong câu. (phương pháp n-gram theo từ)
  20. Phương pháp BLEU  Trong ví dụ sau ta có

    2 bản dịch máy được so sánh với 3 bản dịch của con người: It is a guide to action Cand 1: which ensures that the military always obey the commands Cand 2: It is to insure the troops forever hearing the activity guidebook that direct Ref 1: It is a guide to action which ensures that the military will foever heed commands Ref 2: It is the guiding principle which guarantees the military forces always being under Ref 3: It is the guiding principle for the army always to heed the directions
  21. Phương pháp BLEU  Trong ví dụ sau ta có

    2 bản dịch máy được so sánh với 3 bản dịch của con người: It is a guide to action Cand 1: which ensures that the military always obey the commands Cand 2: It is to insure the troops forever hearing the activity guidebook that direct Ref 1: It is a guide to action which ensures that the military will foever heed commands Ref 2: It is the guiding principle which guarantees the military forces always being under Ref 3: It is the guiding principle for the army always to heed the directions Bản dịch thứ nhất có nhiều từ chung với các bản dịch mẩu hơn bản dịch thứ hai, nên theo phương pháp này, ta kết luận: bản dịch máy thứ nhất chính xác hơn bản dịch thứ 2.
  22. Phương pháp BLEU  Với mỗi bản dịch máy và

    bản dịch mẫu thứ n, pp BLEU thống kê số lần tối thiểu của cụm n-gram xuất hiện trong từng cặp câu.(câu dịch máy và câu dịch mẫu), sau đó đem tổng trên chia cho tổng số cụm n-gram trong bản dịch máy: = ∈ả ịℎ á ∈ ố ụ ó ả ẫ ∈ả ịℎ á ∈ ố ụ ó ả ịℎ á
  23. Phương pháp BLEU  Điểm BLEU được đánh giá: =

    ∗ ( 1 =1 ) = 1 ế > (1−/)ế ≤ c: độ dài bản dịch máy r: độ dài lớn nhất bản dịch mẫu N: số lượng các bản dịch mẫu
  24. Phương pháp BLEU  Từ công thức trên ta có:

    0 ≤ BLEU ≤ 1  Bản dịch nào có BLEU càng cao, chứng tỏ độ trùng khớp với bản dịch mẫu nhiều, thì bản dịch đó có độ chính xác càng cao