$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2016年_年次大会_発表資料
Search
MIKAMI-YUKI
March 22, 2016
Education
0
130
2016年_年次大会_発表資料
MIKAMI-YUKI
March 22, 2016
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
340
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
100
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
590
Other Decks in Education
See All in Education
東大1年生にJulia教えてみた
matsui_528
7
11k
2025年度伊藤正彦ゼミ紹介
imash
0
150
Master of Applied Science & Engineering: Computer Science & Master of Science in Applied Informatics: Artificial Intelligence and Data Science
signer
PRO
0
870
Microsoft Office 365
matleenalaakso
0
2k
くまのココロンともぐらのロジ
frievea
0
130
【ZEPホスト用メタバース校舎操作ガイド】
ainischool
0
150
Web Application Frameworks - Lecture 3 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
GOVERNOR ADDRESS:2025年9月29日合同公式訪問例会:2720 Japan O.K. ロータリーEクラブ、2025年10月6日卓話:藤田 千克由 氏(国際ロータリー第2720地区 2025-2026年度 ガバナー・大分中央ロータリークラブ・大分トキハタクシー(株)顧問)
2720japanoke
0
730
3Dプリンタでロボット作るよ#5_ロボット向け3Dプリンタ材料
shiba_8ro
0
130
ロータリー国際大会について~国際大会に参加しよう~:古賀 真由美 会員(2720 Japan O.K. ロータリーEクラブ・(有)誠邦産業 取締役)
2720japanoke
1
750
相互コミュニケーションの難しさ
masakiokuda
0
320
焦りと不安を、技術力に変える方法 - 新卒iOSエンジニアの失敗談と成長のフレームワーク
hypebeans
1
610
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.3k
It's Worth the Effort
3n
187
29k
Java REST API Framework Comparison - PWX 2021
mraible
34
9k
Designing for humans not robots
tammielis
254
26k
AI: The stuff that nobody shows you
jnunemaker
PRO
1
17
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
The Spectacular Lies of Maps
axbom
PRO
1
400
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Mobile First: as difficult as doing things right
swwweet
225
10k
Documentation Writing (for coders)
carmenintech
77
5.2k
Transcript
長岡技術科学大学 山本和英, 三上侑城 語義曖昧性解消としての かな漢字換言システムの開発 1
研究背景・目的(1/2) 2 言語処理において、テキストの解析を行う際に 語義の曖昧性が問題となる時がある。 (例)日英翻訳 その曖昧性を解消することを語義曖昧性解消 と呼び、古くから様々な手法が提案されてきた。 貰った犬を飼う
I buy the dog which I got. 貰った犬をかう 貰った犬をかう
研究背景・目的(2/2) しかし現状では... 3 公開されている日本語の 語義曖昧性解消ツールは無い 語義曖昧性解消ツールの 作成を目的とした。
語義曖昧性解消の対象 本研究では、曖昧さを出す要因の一つである “ひらがな”に着目し、これを適切な“漢字”に 換言することで語義曖昧性解消をおこなう。 4 切符をかう 切符を買う 切符を飼う ?
?
換言候補の収集(1/2) 5 大規模コーパス (BCCWJ)の中で出現 する数 同じ語義の語が記載さ れている辞書
換言候補の収集(2/2) 先に候補を集めておくことで、対象を絞り、 正確に換言できないものを除外。 → 精度の向上 ひらがなの頻度20未満はノイズとして除外し、 頻度1万以上はひらがなが正しいとした。 6
頻度20未満 頻度1万以上 ひらがな頻度20~9999 対象にしない (ノイズ) 換言対象 ひらがなを 正解とする
かな漢字換言手法 ① 入力文から換言対象のひらがなを検出 ② 文脈から手がかりとする語を選定 ③ 漢字候補と手がかり語との共起度を計算 ④ 計算結果の値によって漢字を選出 7
かな漢字換言の例 8 ① ② ③ ④
① 換言対象の検出 換言候補の収集で集めたひらがなが入力 文に入っていたら、換言プロセスに入る。 ただし、漢字の候補が1つのみのものは、 このプロセスを通さず、その漢字に決定。 9
② 手がかり語の選定 10 対象のひらがなから前後4単語を検索し、 情報を持った語を品詞で選定する。 ・ひらがなが動詞 → 名詞 の語を選択
・ひらがなが名詞 → 動詞 と 名詞 の語を選択
文章において、この語が出た時には、通常 この漢字が使われるという(共起)情報を 使用。 特定の語との共起度合を数値化するため、 自己相互情報量(PMI)を使用し、出力 値が最大の漢字を選択。 ③ 自己相互情報量
11
誤答を減らすために閾値を設ける。閾値を決め るため、換言処理を行いその結果を考察した。 間違いを1割以下にするため、閾値を5にした。 ④ 閾値の設定 12 PMI値 PMI値
さらなる精度向上のため、作成したかな漢字 換言器で、対象のひらがなが入った文章を換 言処理。 その結果をひらがな毎に20個判断し、16個 (8割)以上正解できないものは対象から除外。 ただし、漢字候補が1つしかないものは18個 (9割)以上とした。
換言できないものの除外 13
換言対象となるひらがな全てに対し、かな漢字 換言を行い、その時の正解率を求めた。 また各ひらがなにおける総頻度を求めた。 実験と結果 14 漢字候補 対応数 テスト数
正解数 正解率 1つのみ 95 1,900 1,886 99.3% 2つ以上 90 1,800 1,683 93.5% 合計 185 3,700 3,569 96.5% 測定箇所 20未満 20~9999 1万以上 総頻度 16,052 886,649 9,470,468 内2つ以上 (未調査) 192,035 (未調査)
本題である、漢字候補が2つ以上のものだけを 見た時、90のひらがなに対し出現頻度の合計 が99,530であったので51.8%を網羅したこと になり、93.5%の精度で換言ができた。 ※漢字候補1つのみは頻度合計81,800 全体で見た時には、ひらがなの頻度1万以上 は全て正解(ひらがなが正解)であるので、出現 頻度で本換言器の網羅率は93.0%であった。
考察 15