Upgrade to Pro — share decks privately, control downloads, hide ads and more …

⾔言語資源と付き合う

 ⾔言語資源と付き合う

Yuya Unno

June 07, 2012
Tweet

More Decks by Yuya Unno

Other Decks in Technology

Transcript

  1. ⾃自⼰己紹介 l  海野  裕也 l  @unnonouno l  unno/no/uno l  研究開発部⾨門 l 

    Jubatusチームリーダー l  専⾨門 l  ⾃自然⾔言語処理理 l  統語解析、⽂文圧縮、同義語抽出+クエリ拡張、⼊入⼒力力⽀支援 l  テキストマイニング l  ⾔言語横断テキストマイニング、曖昧パターンマッチ 2
  2. 「コーパス」とは? l  基本的には実際に使われた⽂文をたくさん集めたデータ l  ⾃自然⾔言語処理理以外でも使われる l  コーパス⾔言語学 l  構造化した情報が付与されてない場合もある 15

    コーパス(corpus)とは、言語学において、自然言語 処理の研究に用いるため、自然言語の文章を構造化 し大規模に集積したもの。構造化では言語的な情報 (品詞、統語構造など)が付与される。コンピュータ利 用が進み、電子化データとなった。 (Wikipedia)
  3. 「辞書」とは? l  特定の⾔言語単位に対する⾔言語情報資源 l  例例:⾳音素、形態素、単語、意味役割… l  データによって情報の粒粒度度は様々 l  単なる単語集合 l 

    品詞情報 l  各種情報 l  いわゆる「辞典」のことではない l  お客様先で使うときは注意 l  NLPの⽂文脈だと機械が利利⽤用するためのリソースの意味 20
  4. 辞書あれこれ l  単語辞書 l  何かしらの「単語」の⼀一覧 l  その他の情報(品詞、読み、活⽤用など)が付与されることもあ る l  シソーラス

    l  類語や上位語・下位語関係など、語と語の意味の粒粒度度の関係が 付与された辞書 l  紙に書かれたシソーラスもあります l  訳語辞書 l  訳語関係にある単語対の⼀一覧 21
  5. メジャーな⾔言語資源を幾つか・・・ l  コーパス l  京都⼤大学テキストコーパス l  現代⽇日本語書き⾔言葉葉均衡コーパス l  EDRコーパス l 

    ATR⾳音素バランス503⽂文 l  Penn Treebank l  辞書 l  IPA辞書 l  ⽇日本語語彙体系 l  EDR辞書 l  WordNet 23
  6. 京都⼤大学テキストコーパス l  京⼤大⿊黒橋研究室 l  毎⽇日新聞1995年年データに対して、⼈人⼿手でタグ付け l  形態素解析、係り受け解析、照応解析などの情報 24 * 0

    26D 村山 むらやま * 名詞 人名 * * 富市 とみいち * 名詞 人名 * * 首相 しゅしょう * 名詞 普通名詞 * * は は * 助詞 副助詞 * * * 1 2D 年頭 ねんとう * 名詞 普通名詞 * * に に * 助詞 格助詞 * * * 2 6D あたり あたり あたる 動詞 * 子音動詞ラ行 基本連用形
  7. 現代⽇日本語書き⾔言葉葉均衡コーパス (BCCWJ) l  国⽴立立国語研究所 l  世の中に流流通する様々な分野の⽂文書から、均等にサンプ リングしたようなコーパスを⽬目指している 25 <corpus lang="japanese">

    <article articleID="OC14_03054m" genre="OC"> <sentence> <mor pos="名詞-普通名詞-一般" rd="チエ">知恵</mor> <mor pos="名詞-普通名詞-一般" rd="ブクロ">袋</mor> <mor pos="助詞-格助詞" rd="ニ">に</mor> <mor pos="動詞-非自立可能" rd="シ" bfm="スル">し</mor> <mor pos="助動詞" rd="タ" bfm="タ">た</mor> <mor pos="名詞-普通名詞-サ変可能" rd="シツモン">質問</mor> <mor pos="助詞-格助詞" rd="デ">で</mor>
  8. Penn Treebank l  ペンシルバニア⼤大学 l  Wall Street JournalやBrown Corpusに品詞と統語構造 をタグ付け

    l  最も有名なタグ付きコーパスの1つ 27 ( (S (NP-SBJ (NP (NNP Pierre) (NNP Vinken) ) (, ,) (ADJP (NP (CD 61) (NNS years) ) (JJ old) ) (, ,) ) (VP (MD will) …
  9. Google N-gram コーパス l  Google l  ウェブ上でクロールしたデータに単語1~7グラムの中で、 頻度度の⾼高いものとその頻度度をまとめたデータ 28 の

    呼び声 王宮 の お触れ × 2 30 の 呼び声 王宮 の お触れ × 3 51 の 呼び声 砂塵 の 大 竜巻 × 28 の 呼び声 破 界 伝 ( 5 43 の 呼び声 神 の 宣告 × 3 25 の 呼び声 第 壱 章 チェーン ・ 20 の 呼び声 罠 【 永続 】 自分 22 の 呼び声 聖なる バリア - ミラーフォース - 194
  10. タグ付きコーパスの探し⽅方 l  紹介しているページ l  NAIST松本研のページ l  ⾔言語資源を管理理しているサイト l  Linguistic Data

    Consortium (LDC) l  ⾔言語資源協会 (GSK) l  個別に⼊入⼿手 l  個⼈人が作成している場合がある 29
  11. ⾔言語資源を作るのは⼤大変! l  統制のとれた⾔言語資源を作るのは⼤大変 l  統括マネージャー+アノテーター複数⼈人 l  同⼀一データに対して2⼈人以上のアノテーション l  定例例ミーティング、問題の洗い出し l 

    ⼀一般的に年年単位のプロジェクトになる l  膨⼤大な⼈人件費 31 しかし,大規模コーパスは通常,膨大な試行錯誤の累積 として成立している。当初に定めた仕様にしたがって実装 を進めるなかで多くの問題が発見され,それらに対処す る過程で,仕様が精密化されてゆくが,ときとして仕様に 矛盾が発見されることもあり,その結果,過去の作業に遡 及した修正作業を行わなければならない事態なども発生 する。 「日本語話し言葉コーパスの構築法」より
  12. コーパス作成の例例 l  GENIA corpus l  @東⼤大辻井研 l  分⼦子⽣生物学論論⽂文中に記載される、タンパク質の反応に関する情 報抽出のアノテーションつきコーパス l 

    BCCWJ l  @国⽴立立国語研究所 l  8つのグループ、5年年間(2006~2010年年) l  EDRコーパス l  @NICT l  1辞書、1ライセンス120万円 32
  13. 1. タグ無しコーパスの利利⽤用 l  半教師有り学習 l  ラベル付きデータ(タグ付きコーパス)と⼤大量量のラベルなし データ(⽣生コーパス)から学習 l  ラベル付きデータのみの時よりも効率率率が良良い l 

    転移学習 l  学習データと適応先のデータで分野が異異なるという問題設定 l  学習データのみを使うよりも、適応先ドメインのタグ無しデー タを使ったほうが効率率率が良良い 35
  14. ある⽇日ルールが適⽤用できなくなる瞬間 l  「NMB à ミネベア」だと思ってたら、ある⽇日から NMB48が・・・ l  「スイカ à ⻄西⽠瓜」だと思ってたら、ある⽇日からSuica

    が・・・ l  機械学習 or ルールベースとは独⽴立立の問題 l  モデルが適⽤用できなくなる l  ルールが適⽤用できなくなる 40
  15. 分類基準が変えたら何が起こるのか? l  誤分類が改善される l  新しいルールの追加 l  ルールの修正 l  再学習を⾛走らせる l 

    今までうまく動いていたデータは? l  影響がないとは思えない l  それは充分に検証しましたか? l  そんなこといってもイタチごっこじゃないか l  そうですね l  だから何もしなくていいとは思えない 42
  16. 全てを疑ったとき、信じられるのは⽤用例例だけ l  ⽤用例例に対する判断は変わらない l  「NMBのキーボードを買った」がNMB48になることはない l  「スイカ割りをした」がSuicaになることはない l  信じられるものだけを信じる l 

    ⽤用例例は単体テストのようなもの l  ロジック(ルール)だけあってテスト(事例例)のないプログラ ムを信⽤用できますか? l  テストで全てを⾔言えるわけではないが、何もないより説得⼒力力が ある 44 用例のよさは,それが実際に人間によって使われた表現で あるという意味で,健全でかつ安定した情報であるという点 にあるだろう. (自然言語処理, 岩波より)
  17. 基準が変わることとは別 問題⾃自体が変わった場合とは別、問題は切切り分ける l  本当に変わった l  「ホークス à ダイエー」から「ホークス à ソフトバンク」

    l  粒粒度度が変わった l  「iPhone à 携帯電話」から「iPhone à スマートフォン」 l  気分が変わった l  ⾟辛い・・・ l  Inter-annotator agreement 46