Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出

 Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出

大野 潤一, 柴木 優美, 山本 和英. Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出. 言語処理学会第17回年次大会, pp.296-299 (2011.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1.  •  Wikipediaのエントリ名とリダイレクト名は   同義関係を持つ語対が多く存在する  •  同義語はテキスト処理の分野に必要な語彙知識 →新語や造語をはじめとした     文字列の異なる語対についても 高精度で判別することが望ましい 研究背景 ②

    同義: 【スパゲッティー ← スパゲティ】 【狙撃手 ← スナイパー】 【微分積分学 ← 微積分】 非同義: 【遺骨 ← 分骨】 【倫理学 ← 倫理学者】 【椅子 ← カウチソファー】
  2. 提案手法 本手法では,  •  新語や俗語など頻度の低い語について ◦ 更新性の優れるオンライン辞書Wikipediaを用いる (2010年11月2日時点のダンプデータを使用)  •  高い適合率を達成するために ◦

    同義語句対の候補に エントリページとリダイレクトページの関係を利用 ◦ 前処理;文の整形を行う ◦ 語彙統語パターン;収集,拡張を行い文章と照合 ③
  3. 前処理:ルール ④ 前処理前の原文 前処理後の文字列 [entry] [redirect] [other] エントリ名, '''エントリ名''',「エントリ名」 リダイレクト名,

    '''リダイレクト名''',「リダイレクト名」 エントリ名,リダイレクト名以外の '''文字列''',「文字列」 並列表現 {および|または|もしくは|や} 、 (読点) 小括弧( )内の文字列 (別の一文に抜き出す) 第2節見出し語以下の文章 (削除)
  4. 前処理:実例 エントリ名:新潟市歴史博物館,リダイレクト名:みなとぴあ ⑤ '''新潟市歴史博物館''' (にいがたし・れきしはくぶつかん)は、 [[新潟市]][[中央区 (新潟市)|中央区]]にある [[博物館]]。 愛称「'''みなとぴあ'''」。 ==沿革==

    [[1972年]]、「新潟市郷土資料館」として 開館。この間、[[1982年]]には本館に隣接 して石庫が復元され、横を通る市道には、 かつて新潟市中心部に張り巡らされていた 堀も再現された。 郷土資料館としては[[2003年]]に一旦閉館 し、新築・改装など工事が行われた後、 [[2004年]][[3月27日]]、新たに建設された 博物館本館と、移設・復元された旧第四銀行 住吉町支店の公開を開始し、現名称に改称。 [[信濃川]]・[[新潟港|新潟西港]]に面する ロケーションから「みなとぴあ」の愛称が、 一般公募によって命名された。 ==施設== ===博物館本館=== [entry]は、[[新潟市]][[中央区 (新潟市)| 中央区]]にある[[博物館]] 愛称[redirect] ==沿革== [[1972年]]、[other]として開館 この間、[[1982年]]には本館に隣接 して石庫が復元され、横を通る市道には、 かつて新潟市中心部に張り巡らされていた 堀も再現された 郷土資料館としては[[2003年]]に一旦閉館 し、新築・改装など工事が行われた後、 [[2004年]][[3月27日]]、新たに建設された 博物館本館と、移設・復元された旧第四銀行 住吉町支店の公開を開始し、現名称に改称 [[信濃川]]・[[新潟港|新潟西港]]に面する ロケーションから[redirect]の愛称が、 一般公募によって命名された にいがたし・れきしはくぶつかん (第2節見出し以降は削除) 前処理
  5. 実験結果:適合率と再現率 2,000件のエントリ-リダイレクト語句対について •  全体の適合率 92.1% (151/164) •  各同義語句対の再現率 ※1:抽出数/[redirect]が存在しない語句対も合わせた全対数 ※2:抽出数/文中に[redirect]が存在する語句対数

    ⑩ 同義関係種類 ペア全体の再現率※1 ペアを限定した再現率※2 同義異語句対 13.9% ( 52/ 373) 41.3% ( 52/126) 略語対 9.0% ( 48/ 533) 28.6% ( 48/168) 同義異表記対 8.9% ( 51/ 574) 39.8% ( 51/128) 全同義語対 10.2% (151/1480) 35.8% (151/422)
  6. 実験結果:抽出例 正しく抽出できたエントリ名-リダイレクト名と照合した文 パターン 語彙統語パターンに照合した文 名詞 文末 括弧 エントリ名-リダイレクト名 ギリョウバイ-ネズモドキ 針葉樹のネズに似るので

    '''ネズモドキ'''の別名もある 静岡県警察-静岡県警 ・・・静岡県内を管轄区域とし、 静岡県警と略称する 脇町南町-うだつの町並み '''うだつの町並み'''と 呼ばれることもある モンズーン-モンスン ''モンスン'''、'''モンスーン'''などと 表記される場合もある ポストパンク-Post-punk ''ポストパンク'''(''' Post-punk ''' )は・・・ ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・ ⑪
  7. 結論  •  3種類の語彙統語パターンを用いて 前処理を施したエントリ-リダイレクト語句対2,000件の 同義抽出を行った →適合率 92.1% ,全体の再現率 10.2% →全エントリ-リダイレクト対から36,068件抽出

     •  表層の異なる同義異語句対が抽出されやすい  •  より多くの同義語句対を抽出するには o 語彙統語パターンの拡張 o Wikipedia以外の語彙資源の活用 ⑮