Webコーパスの提案

 Webコーパスの提案

関口 洋一, 山本 和英. Webコーパスの提案. 情報処理学会 研究報告, NL157-17 / FI72-17, pp.123-130 (2003.9)

C04e17d9b3810e5c0ad22cb8a12589de?s=128

自然言語処理研究室

September 30, 2003
Tweet

Transcript

  1. Web コーパスの提案 長岡技術科学大学 電気系 関口 洋一 山本 和英 http://nlp.nagaokaut.ac.jp/

  2. 1 研究の背景 主に研究利用されているコーパスは,新聞記事 昨年度の年次大会では, コーパスを用いた研究のうち 40% が新聞記事 しかし,新聞コーパスは  量が限定的

     用例の種類が限定的
  3. 2 研究目的 Webテキスト は 無限 に存在 新聞コーパスでは物足りない →  Web テキストに着目 Web

    テキストの問題点は? ✗崩れた文体が多い ✗記号の乱用 ✗文の切断 ...etc... } コーパスの質
  4. 3 関連研究 コーパスを構築に関する研究 Rosie Jones ら ( ACL2000 ) Constantin

    Orasan ら ( LREC2000 ) Web から単一言語(タガログ語)のコーパスを構築 コーパス構築支援ツールの作成 どちらも Web をそのまま用いている 質の高いコーパスを構築したい
  5. 4 コーパスの質 「質」を見る上での2つの視点 ➢文の内容を考慮した内面的な質 ➢表層表現のみを考慮した外面的な質 構築したコーパスのすべてが,利用されることが望ましい 即ち, 密度の高いコーパス の構築が目標

  6.   コーパスの構築手順

  7. 5 コーパスの構築 • URL リストの作成 • Web ページの取得 • 整形処理

    • 外面的質に関する処理 • 後処理 • 内面的質に関する処理
  8. 5 コーパスの構築( URL リストの作成) 任意のページから URL を再帰的に収集する コーパスの質に直接関係するため,条件を付与 条件 国ドメインが日本(

    .jp )であること htm または, html の拡張子であること 文字コードが日本語と定義されていること 同一ドメインからの取得が 100 ページ以内であること
  9. 5 コーパスの構築( Web ページの取得) 一般的な方法でページを自動取得 • 簡単なスクリプトを書く • 既存のソフトを使用する

  10. 5 コーパスの構築(整形処理) •HTML タグ除去 ※ 外面的質に関する処理に用いるタグは残す •改行 / 空白 除去

    タグ除去により現れた不要な改行 / 空白を除去
  11. 5 外面的質に関する処理 1)完全一致文の削除 2)文の特定 3)字面比の考慮 4)引用記号の対処

  12. 5 後処理 文末に句点を含む行 URLやE−Mailアドレスを含まない行 1行あたりが150文字以内の行 抽出対象 •外面的質の処理だけでは,不完全な場合がある •内面的質の作業効率を上げるため 以下の行を抽出対象とする

  13. 5 内面的質に関する処理 1)崩れた文体の削除 2)雛形表現の削除 3)顔文字等の削除

  14. 外面的質に関する処理

  15. 6 完全一致文の削除 重複して出現した文の削除 (例) 画像の(タグ内の)説明部と本文の一致 広告 引用文 引用文 : 引用記号を削除した上で上記処理 (例) >

    わたしもそう思います。 引用記号:  > $ # > $ #
  16. 6 文の特定 HTML タグが本来の使用法どおりではない どこまでが1文かを判定する処理が必要  句点(。) + <br> 

    句点(。) + </**>  {?!)>♪} + <br>  <li> パターン
  17. 6 字面比による文の削除 字面比とは,文字種の使用割合のこと 720×486/59.94i 、 720×480/59.94i をサポートしています。 Anthropology resource son

    the Internet から。 (^◇^)ノ」とのお答えでした。 ★★★★★ 腰痛こんにゃくゼリー。    数字 > 40% 英字 > 40% 一般記号 > 30%  特殊記号 > 20% 削除例 文字種の偏った文は不自然
  18. 内面的質に関する処理

  19. 7 極端に崩れた文の削除 条件にあった文を削除 ん゛あーーーーーーーーーーーーーーーーーーーーー。 「もーーーーやだーーーーーー!!」 映っててんよ☆★☆いやーーーーんモォ。 ぴよぴよだけで反応してしまう〜〜〜〜〜〜 •「〜」が 3 つ以上連続

    •「−」が3つ以上連続 •「っ」が2つ以上連続 •「?」や「!」が行末で3つ以上連続 削除例
  20. 7 雛形表現の削除 Web 独特の表現パターンを削除 •「フレーム対応」表現 •都道府県名の連続表現 •値段表現の連続 •日付表現の連続 削除例 このページをご覧いただくにはフレーム対応のブラウザが必要です。

    北海道青森県岩手県秋田県宮城県山形県福島県… 3500 円 7200 円 平成13年8月15日 平成13年10月20日 特に多く見られる例として以下の4つに対処
  21. 7 顔文字等の削除 文としては意味をなさない記号を削除 • (^^) (^-^) (^o^) / など23種は,それを含む文を削除 •

    ( 笑 ) ( 苦笑 ) ( 涙 ) など52種は,対応箇所を削除 削除例 楽しんで下さい (^^) 。 お年玉をもらい、シェンムーカッチャッタ ( ^ - ^ ) アハッ。 あーもう、また行きたくなってしまったよ ( 笑 ) 。 書いたものが完全に闇に消えました ( 泣 ) 。
  22. 評価実験

  23. 8 構築実験 Web コーパス A リンク集のページから再帰的に URL を取得 [http://www.webring.ne.jp/] HTML

    ファイル  →  提案手法適用後 3505 MB 223 MB 新聞コーパス一年分と同規模(21 MB )にするため, 223 MB の中から,ランダムに行を抽出
  24. 8 提案手法により削除できた文の数 処理 削除の要素 削除できた文の数 外面的質 完全一致文 51691 19.7 同一ページ

    14878 5.7 字面比 4937 1.9 内面的質 感情表現文字 3003 1.1 フレーム対応表現 2582 0.9 極端に崩れた文 2214 0.8 顔文字 1736 0.7 割合 [%]
  25. 8 コーパスのサイズと単語数変化 同一サイズでは,新聞よりも Web の方が優位

  26. 8 シソーラスによる単語の偏り調査 Web コーパスには,分類の偏りがない 新聞には,発表 , 代表,会議などが高頻度で出現

  27. 8 格フレームの異なり数 格フレーム数 145337 170274 頻度 明らかにする ことができる ことになる ことになる

    ことを決める ものとする 容疑で逮捕する ことがある 明らかになる 必要がある 上位10位 罪に問う ようになる 方針を固める ようにする 会を開く 日から施行する 性がある 場合がある ことが分かる 目的とする 新聞( 21MB) Web( 21MB ) Web コーパスには,一般的なものが多い
  28. 8 料理に関する格フレームの調査 •皿に盛る ... 軽く塩コショーして皿に盛る •薄切りにする ... レモンは、薄切りにする。 •ふたをする ...

    布巾をかけてふたをして、 ... •水をきる ... 水をきって裏ごしする。 雑誌レシピ中の格フレーム18件を対象 新聞(21 MB )  → 0件検出 Web (21 MB )  → 7件24例 検出 検出例
  29. 9 提案手法の有効性(単語数への影響) 未知語 51% 未知語 35% 適用前 適用後 約 10

    万5千語 約9万7千語 未知語が減っている 名詞,動詞,形容詞以外の品詞の割合が格段に上昇
  30. 9 提案手法の有効性(単語数への影響) Web Ao   0 50000 100000 未知語 未知語

    実質的に,単語数が増加している Web Ao : Web A と同じ情報源よりタグ除去のみを施したもの  同一規模,これを手法の適用前とする Web A
  31. 9 提案手法の有効性(格フレーム) 150000 単語と同様に同一規模で格フレーム数の変化を調査 適用後は, 14 万件(およそ6倍)多く検出 Web Ao Web

    A 0 50000 100000
  32. 10 まとめ ➔Web は新聞よりも良好な言語情報である •実質単語数が増加 •格フレームの異なり数が増加 •低頻度の格フレームにおいても有用なものを獲得 ➔提案手法によって, しており,本手法で質が向上していることを実験で確認した.

  33. コーパスの汎用性 Web A :  リンク集 → 47.57% Web B : 健康に関する情報サイト → 47.60%

    Web C : 首相官邸 → 44.85% 0 50 100 自然 性状 変動 行動 心情 人物 性向 社会 学芸 物品 Web A Web B Web C
  34. None