nhiều âm tiết, và dấu cách không có nghĩa là phân tách từ. Ví dụ: “đất” và “nước” là 2 âm ý nghĩa riêng khi đứng độc lập và mang 1 ý nghĩa khác khi ghép lại với nhau “đất nước”. Do vậy tách từ nhằm phân biệt các từ trong 1 câu để máy tính có thể hiểu được.
đại (maximum matching) Phương pháp đồ thị hóa Mô hình Markov ẩn (hidden Markov model) Độ hỗn loạn cực đại (maximum entropy) Mô hình trường ngẫu nhiên có điều kiện (conditional random fields) ….
là LRMM-left right maximum matching phương pháp này duyệt 1 câu từ trái sang phải, chọn từ có nhiều âm nhất có trong từ điển và lặp đi lặp lại cho đến khi hết câu Dạng đơn giản cúa phương pháp này dùng để giải quyết nhập nhằng từ đơn trong. Giả sử chúng ta có 1 chuỗi kí tự C1, C2, C3, C4,…. Cn Đầu tiên kiểm tra xem C1 có phải từ hay không, sau đó kiểm tra C1C2 có phải từ hay không. Tiếp tục tìm cho đến khi tìm được từ dài nhất
tạp của phương pháp này là phân đoạn từ Ví dụ chuỗi kí tự C1, C2, C3, C4,…. Cn Giả sử C1 là từ, C1C2 cũng là 1 từ. Khi đó ta kiểm tra các kí tự trong chuỗi C1, C2, C3, C4,…. Cn để tìm tất cả các đoạn 3 từ bắt đầu với C1 hoặc C1C2 Giả sử ta được: C1 C2 C3 C4 C1C2 C3C4 C5 C1C2C3C4 C5C6 Chuỗi dài nhất là chuỗi thứ 3 do đó từ đầu tiên (C1C2) sẽ được chọn
này tách từ đơn giàn, nhanh, chỉ cần dựa vào từ điển thực hiện. Nhưng do phụ thuộc vào từ điển nên độ chính xác của phương pháp này phụ thuộc vào sự đầy đủ và chính xác của từ điển.
các từ mà ta có mô hình 2-gram hay 3-gram tương ứng. Phương pháp này là phương pháp thống kê giải bài toán tách từ khi không có thông tin từ điển và dữ lieu gán nhãn. Mô hình phân đoạn từ được biểu hiện bởi mô hình dưới:
mô hình thống kê. Mô hình hóa là 1 quá trình markov với các tham số không biết trước và nhiệm vụ là xác định được các tham số ẩn từ các tham số quan sát được. Các tham số của mô hình rút ra sử dụng cho các phân tích kế tiếp
điển hình, trạng thái được quan sát trực tiếp bởi người quan sát, và vì vậy các các xác suất chuyển tiếp trạng thái là các tham số duy nhất. xi: các trạng thái trong mô hình aij: các xác suất chuyển tiếp bij: các xác suất đầu ra yi: các dữ liệu quan sát
Thêm vào các đầu ra: mỗi trạng thái có xác suất phân bố trên các biểu hiện đầu ra. Vì thế ta có thể tìm ra chuỗi mô tả tốt nhất Cho chuỗi dữ liệu quan sát bằng cách tính:
Markov: để tính được xác suất P(Y, X) phải liệt kê được hết các trường hợp của X, Y. Thực tế chuỗi Y là hữu hạn, có thể liệt kê được. Nhưng chuỗi X (dữ liệu quan sát) là rất phong phú
và hướng tiếp cận cho tiếng việt [2008]- Trần Thị Oanh Bài viết về thuật toán tách từ cùa Lưu Tuấn Anh: http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/thuat-toan- tach-tu-tokenizer/thuat-toan-tach-tu