nguồn) sang nhiều ngôn ngữ khác. Là sự kết hợp của ngôn ngữ, dịch thuật và khoa học máy tính 2 phương pháp tiếp cận: - hướng luật (rules-based) - thống kê
vào các luật viết tay trên từ vựng và ngữ pháp - nhưng mất nhiều thời gian xây dựng Thống kê (statistical): - sử dụng thống kê trên bản dịch song ngữ.
nguồn f, tìm ra câu e của ngôn ngữ đích sao cho xác suất P(e|f) là lớn nhất. = (|) () P(e|f): xác suất của câu ngôn ngữ nguồn là bản dịch của câu ngôn ngữ đích. P(e): là xác suất của câu e
nguồn f, tìm ra câu e của ngôn ngữ đích sao cho xác suất P(e|f) là lớn nhất. = (|) () P(e|f): xác suất của câu ngôn ngữ nguồn là bản dịch của câu ngôn ngữ đích. P(e): là xác suất của câu e
Anh sang tiếng Việt: - Mô hình ngôn ngữ: tính toán xác suất của câu ngôn ngữ nguồn. - Mô hình dịch: cho biết xác suất của câu ngôn ngữ nguồn là bản dịch từ câu ngôn ngữ đích. - Bộ giải mã: tìm kiếm tất cả các câu ngôn ngữ đích e có thể từ câu ngôn ngữ nguồn f.
ta quy định:mỗi từ của ngôn ngữ nguồn tương ứng với 1 từ của ngôn ngữ đích. été And program has been implemented Le programme a en mis the application Tương ứng 1-1 giữa câu tiếng Anh-tiếng Pháp
ngôn ngữ đích không tương ứng vs ngôn ngữ nguồn, ta thêm vào giá trị NULL una NULL did not slap the Maria no dió a befotada Mary bruja green witch la verde Tương ứng 1-1 giữa câu tiếng Anh-tiếng Tây Ban Nha
sự tương ứng của các từ theo tương ứng một-một. Giả sử ngôn ngữ nguồn là e1 e2 e3 ..en thì câu ngôn ngữ đích là f1 f2 f3 …fn thì mỗi từ fj chỉ tương ứng 1 một từ hoặc không tương ứng với từ nào.
có cụm từ “take time” được dịch là “mất thời gian”. Nếu dịch theo từng từ thì ta có kết quả là “giữ” “thời gian” Mô hình Koehn: một câu nguồn e sẽ được tách thành các cụm từ e1 , e2 , e3 ,.., en sau đó các cụm này sẽ được dịch thành cụm thuộc ngôn ngữ đích fj. Cuối cùng các cụm fj sẽ được sắp xếp theo 1 thứ tự nhất định.
hình dịch dựa trên cú pháp không chỉ dịch ngữ nghĩa của từ, mà có xét đến cú pháp của câu. Một câu trong ngôn ngữ nguồn e sẽ được phân tích thành 1 cây cú pháp. Cây cú pháp được sắp xếp lại phù hợp với cây cú pháp của ngôn ngữ đích.
là tìm câu đích sao cho giá trị P(f|e)*P(e) là lớn nhất. Giải thuật A*: tại mỗi bước mở rộng không gian tìm kiếm , ta sử dụng các hàm ước lượng, đánh giá trọng số để kết quả tìm được là tốt nhất và là kết quả tìm thấy đầu tiên.
đưa ra 1 thước đo cho độ trôi chảy của bản dịch Người tham gia đánh giá sẽ đánh giá độ chính xác của bản dịch thông qua thước đo đó. Như vậy, văn bản nào có điểm trung bình càng cao thì văn bản đó dịch càng tốt.
dịch nào người đọc hiểu càng nhanh thì bản dịch đó càng chính xác. Phương pháp này dễ thực hiện, nhưng chi phí lớn và bản dịch có kích thước lớn thì phương pháp này kém hiệu quả.
bản dịch bằng máy với bản dịch của con người. Việc so sánh được thực hiện thông qua thống kê sự trùng khớp của các từ trong hai bản dịch tính đến thứ tự của chúng trong câu. (phương pháp n-gram theo từ)
2 bản dịch máy được so sánh với 3 bản dịch của con người: It is a guide to action Cand 1: which ensures that the military always obey the commands Cand 2: It is to insure the troops forever hearing the activity guidebook that direct Ref 1: It is a guide to action which ensures that the military will foever heed commands Ref 2: It is the guiding principle which guarantees the military forces always being under Ref 3: It is the guiding principle for the army always to heed the directions
2 bản dịch máy được so sánh với 3 bản dịch của con người: It is a guide to action Cand 1: which ensures that the military always obey the commands Cand 2: It is to insure the troops forever hearing the activity guidebook that direct Ref 1: It is a guide to action which ensures that the military will foever heed commands Ref 2: It is the guiding principle which guarantees the military forces always being under Ref 3: It is the guiding principle for the army always to heed the directions Bản dịch thứ nhất có nhiều từ chung với các bản dịch mẩu hơn bản dịch thứ hai, nên theo phương pháp này, ta kết luận: bản dịch máy thứ nhất chính xác hơn bản dịch thứ 2.
bản dịch mẫu thứ n, pp BLEU thống kê số lần tối thiểu của cụm n-gram xuất hiện trong từng cặp câu.(câu dịch máy và câu dịch mẫu), sau đó đem tổng trên chia cho tổng số cụm n-gram trong bản dịch máy: = ∈ả ịℎ á ∈ ố ụ ó ả ẫ ∈ả ịℎ á ∈ ố ụ ó ả ịℎ á