Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Mô hình ngôn ngữ N-gram (tt)

Van Hai
February 09, 2015
1.1k

Mô hình ngôn ngữ N-gram (tt)

Van Hai

February 09, 2015
Tweet

More Decks by Van Hai

Transcript

  1. Mô hình ngôn ngữ N-gram Nguyễn Văn Hải Pgs. Yamamoto

    Kazuhide Ptn.Xử Lý Ngôn Ngữ Tự Nhiên Trường Đại Học Khoa Học Kỹ Thuật Nagaoka
  2. Tóm tắt:  Mô hình ngôn ngữ n-gram  Thuật

    toán chiết khấu(discounting): - phương pháp add-one - phương pháp witten-bell -phương pháp good-turing
  3. Phương pháp truy hồi  Trong phương pháp add-one và

    witten-bell cụm −+1 −+2 … −1 và cụm −+1 −+2 … −1 đồng thời không xuất hiện thì xác suất của cụm −+1 −+2 … −1 sau khi làm mịn vẫn bằng 0.  Phương pháp truy hồi giải quyết vần đề bằng cách ước lượng các cụm n-gram chưa xuất hiện dựa vào các cụm n-gram ngắn hơn.
  4. Phương pháp truy hồi  Xác suất cụm −+1 −+2

    … −1 được tính lại như sau: ( |−+1 −+2 … −1 )= −+1 … −1 ếu C −+1 … > 0 ∗ −+1 … −1 ếu C −+1 … = 0 (1)
  5. Phương pháp truy hồi  Áp dụng cho bigram ta

    có: ( |−1 )= −1 ếu C −1 > 0 ∗ ( ) ếu C −1 = 0  Ta có thể viết lại như sau: ( |−1 )= −1 + −1 ∗ ∗ ( ) u(x)= 1 ế = 0 0 ế > 0 (2) (3) (4)
  6. Phương pháp truy hồi  Áp dụng cho trigram ta

    có: ( |−2 −1 )= −2 −1 ếu C −2 −1 > 0 1 ∗ |−1 ếu C −2 −1 = 0 à C −1 > 0 2 ∗ ếu C −2 −1 = 0 à C −1 = 0 (5)
  7. Phương pháp truy hồi  Ta có thể viết lại

    như sau: ( |−2 −1 )= −2 −1 + −2 −1 ∗ 1 ∗ |−1 + −1 ∗ 2 ∗  Độ chính xác của mô hình truy hồi phụ thuộc vào các tham số 1 , 2 . Do đó ta chọn tham số như 1 hàm n-gram: 1 = 1 −1 và 2 = 2 (6)
  8. Phương pháp nội suy  Sử dụng các cụm n-gram

    ngắn hơn để tính xác suất cho các cụm n-gram dài hơn  Phương pháp này không phụ thuộc vào sự xuất hiện của các n-gram.  Công thức như sau: ( |−+1 … −1 )= λ ( |−+1 … −1 ) + (1 − λ) ∗ |−+2 … −1 (7)
  9. Phương pháp nội suy  Áp dụng cho bigram: (

    |−1 )= λ ( |−1 ) + (1 − λ) ∗  Áp dụng cho trigram: ( |−2 −1 )= λ1 −2 −1 + λ2 −1 + λ3 ( ) λ = 1 (9) (8)
  10. Phương pháp nội suy  Để đơn giản ta có

    thể chọn tất cả λ bằng nhau và bằng 1/3.  Hoặc chọn các tham số λ bằng hàm của n-gram: λ1 = λ1 −2 −1 , λ2 = λ2 −1 và λ3 = λ3 (10)
  11. Phương pháp Kneser-Ney  Xây dựng dựa trên 2 phương

    pháp: truy hồi và nội suy.  Không cần áp dụng các thuật toán chiết khấu trước khi sử dụng nội suy
  12. Mô hình truy hồi  Xác suất cụm −+1 −+2

    … −1 được tính lại như sau: ( |−+1 … −1 )= C −+1 … − C −+1 … −1 ếu C −+1 … > 0 −+1 … −1 ∗ −+1 … −1 ếu C −+1 … = 0 (11)
  13. Mô hình truy hồi  Trong đó: = N −

    () N : số lượng từ v khác nhau xuất hiện trước w. −+1 … −1 = 1 − :C −+1…−1 >0 C −+1 … −1 − C −+1 … −1 1 − :C −+1…−1 >0 ( |−+1 … −1 ) (12) (13)
  14. Mô hình truy hồi  Như vậy: ( |−2 −1

    )= C −2 −1 − C −2 −1 ếu C −2 −1 > 0 −2 −1 ∗ −1 ếu C −+1 … = 0 (14)
  15. Mô hình truy hồi  Như vậy: ( |−1 )=

    C −1 − C −1 ếu C −1 > 0 −1 ∗ ếu C −1 = 0 = N − () (15) (16)
  16. Mô hình nội suy  Xác suất cụm −+1 −+2

    … −1 được tính lại như sau: −+1 … −1 = C −+1 … − C −+1 … + λ(−+1 … −1 ) −+1 … −1 (17)
  17. Mô hình nội suy  Trong đó: λ −+1 …

    −1 = N −+1 … −1 C −+1 … −1 Với N −+1 … −1 là số lượng từ v khác nhau xuất hiện liền sau cụm −+1 … −1 (18)
  18. Mô hình nội suy = C − () + λ

    1 λ = N () = 1 1 + 22 (19) (20) (21)
  19. Mô hình nội suy  Như vậy: −2 −1 =

    C −2 −1 − C −2 −1 + λ(−2 −1 ) −1 −1 = C −1 − C −1 + λ(−1 ) ( ) ( ) = C − () + λ 1 (23) (24) (22)