Upgrade to Pro — share decks privately, control downloads, hide ads and more …

話題に基づく語の分類辞書の作成

gumigumi7
September 01, 2016
320

 話題に基づく語の分類辞書の作成

gumigumi7

September 01, 2016
Tweet

Transcript

  1. 背景と目的 (2/2) 日本語語彙大系 → 上位/下位関係などによって語を分類 「場」 → 「施設」のような関係を記述 → 「学校」に対する「登校する」のような関係は得られない

    連想概念辞書 → 広く使われる語についても分類 「鬼」 → 「怖い」のような関係を記述 → 特定の語から場面を判断するには向かない → 場面や話題に基づいた分類辞書の作成 文章から話題や場面を特定することが可能に 場面に派生する語を取得可能に 3
  2. 作成した辞書 学校 コンピュータ・パソコン 結婚・恋愛 食材・料理 ホームルーム フリーウェア 恋人 鍋 遠足

    エラー デートする 調理する 進級 インストールする カップル クッキング 黒板 フリーズする 不倫 台所 校庭 ハードディスク プロポーズする 流し台 入学する デフラグ 許嫁 盛り付け 登校する キーボード ブライダル てんこ盛り 夏休み ハッキング フィアンセ まな板 宿題 ファイル 駆け落ちする 塩もみする 4
  3. カテゴリの選定 対象カテゴリ 以下の3種類のデータから話題や場面となる語を 桾澤の主観で選定 各カテゴリに沿った議論や説明を行っているため 取得したカテゴリの代表語380語のうち、類似したものを統合 228カテゴリを取得 6 お酒 お笑い・芸人

    アニメ・声優 ゴルフ サッカー 野球 コンピュータ・パソコン レース・モータースポーツ 育児・子育て 観光・旅行 鉄道・列車 正月・年末 • Wikipediaに存在する記事タイトル一覧 • Yahoo!知恵袋に存在するカテゴリ一覧 • Yahoo!ブログに存在するカテゴリ一覧
  4. 辞書の構築 (1/3) Wikipediaに存在するリンク情報を利用 Wikipediaでは対象のページに関連する語に対して リンクが張られることが多い カテゴリの代表語に対してリンクされているページを列挙し、 記事本文での語の頻度を用いてページをランキング  日本語解析システム雪だるまにて 一単語になる語を対象とする

     記事1,000文字あたりに対象語が 何単語出現するかでランキング  一度レートを計算したのちレート上位 の語についてさらにリンクを考慮する 7 ランキング 対象語 (学校) 1 教諭 2 進学 3 進学する 4 教員 ︙ 721 哲学 722 アニメ
  5. 他手法との比較 10 TF-IDFやLDA(Latent Dirichlet Allocation)との比較 Bingの検索APIを用い、各カテゴリの代表語380語をクエリと して検索、上位100ページをクロール TF-IDFでは各ページにおけるTF-IDFを計算した後 各代表語ごとに統合し比較 LDAではトピック数を228に設定し計算

    カテゴリと合致するトピックを 主観で選定 上位100語ずつ学校カテゴリに 適しているかをそれぞれ評価  TF-IDF 100件中 17件  LDA 100件中 28件  Wikipedia 100件中 86件 ランキング TF-IDF LDA 本手法 1 学校 教育 教諭 2 高等 学校 進学する 3 掲載する 食 進学 4 中学校 大学 教員 5 教育 制 小学校 6 方 入学 中学校 7 下さる 知識 訓導する 8 此方 学ぶ 訓導 9 特別 職業 短期大学
  6. 辞書の拡充 (1/2) Wikipediaに存在する多義語の分類 ページタイトルが1単語でないため対象語から除外 明確な属性が付与されているためそれらに沿って 人手で辞書に分類 721 語を各カテゴリに分類 対象ページタイトル 対象語

    分類カテゴリ デフラグ_(Windows) デフラグ コンピュータ・パソコン 継承_(プログラミング) 継承 プログラミング マフラー_(原動機) マフラー 自動車 マフラー_(防寒具) マフラー 衣服 11
  7. 参考文献等  貞光九月, 齋藤邦子, 今村賢治, 松尾義博, 菊井玄 一郎. トピック情報を用いたブートストラップ法 に基づく語彙獲得.

    自然言語処理, Vol. 19, No. 2, pp. 89–106, 2012.  岡本潤, 石崎俊. 概念間距離の定式化と既存電子 化辞書との比較. 自然言語処理, Vol. 8, No. 4, pp. 37–54, 2001.  池原悟, 宮崎正弘, 白井諭, 横尾昭男, 中岩浩己, 小 倉健太郎, 大山芳史, 林良彦. 日本語語彙大系. 1997.  国立国語研究所. 分類語彙表 [増補改訂版]. 2004.  日本電子化辞書研究所. EDR 電子化辞書. 1993.  佐々木靖弘, 佐藤理史, 宇津呂武仁. 関連用語収集 問題とその解法. 自然言語処理, Vol. 13, No. 3, pp. 151–175, 2006. 15