ベトナム語のツリーバンクNguyen Phuong ThaiVu Xuan LuongNguyen Thi Minh Huyen長岡技術科学大学自然言語処理研究室Nguyen Van Hai文献紹介
View Slide
ベトナム語●ツリーバンクは大切なもので機械翻訳や情報抽出などに応用する●ベトナム語の単語の列が安定のためでツリーバンクを作成して構成木を選び●目的はベトナム語の10万語に語法を注釈する●政治と社会に関する新聞のコーパスを集まって付与している
品詞●品詞は2部を分ける● 結合と文法によって分ける● 意味によって分ける●品詞の中身で情報を持っているのは● 基礎な品詞:名詞、動詞● 形態情報:単数、多数● 子区分:名詞を結合する動詞、命題を結合する動詞
表1 品詞種類
語法ラベル●そのラベルは語句と命題を記述する●言語によって語句ラベルは誤差ことがある●例えば中国ツリーバンクの機能ラベルがWHしかないが英語ツリーバンクで機能ラベル4種類がWHNP, WHPP, WHADJP, WHADVPある●次のはベトナム語の語句ラベルと命題ラベル
表2 語句ラベル
表3 命題ラベル語法機能ラベル●このラベルは文の中で1部の語法役割●需要な部分を付与する●それによって語法の関係を確認できる● 主語と述語● 福語● 補完
表4 語法機能ラベル
表5 副詞ラベル
空き部分ラベル●“Tôi”の機能ラベルはSBJで”Tôi”は文の中で主語である●“quy n sách”ể の機能ラベルはOBJで 名詞の“quy nểsách”は文の中で対象である
評価●両方の同じさは次の公式で評価する●C1:結果1のラベル●C2:結果2のラベル●C:両方の同じなラベル例
結果●100文の中でTu i Trổ ẻという電子新聞と文法本を取って実験すると次の表で同じさを結果でる●●●