Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2016年_年次大会_発表資料
Search
MIKAMI-YUKI
March 22, 2016
Education
0
130
2016年_年次大会_発表資料
MIKAMI-YUKI
March 22, 2016
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
340
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
100
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
590
Other Decks in Education
See All in Education
Surviving the surfaceless web
jonoalderson
0
110
中央教育審議会 教育課程企画特別部会 情報・技術ワーキンググループに向けた提言 ー次期学習指導要領での情報活用能力の抜本的向上に向けてー
codeforeveryone
0
480
IKIGAI World Fes:program
tsutsumi
1
2.6k
Sanapilvet opetuksessa
matleenalaakso
0
34k
Master of Applied Science & Engineering: Computer Science & Master of Science in Applied Informatics: Artificial Intelligence and Data Science
signer
PRO
0
870
コマンドラインを見直そう(1995年からタイムリープ)
sapi_kawahara
0
620
核軍備撤廃に向けた次の大きな一歩─核兵器を先には使わないと核保有国が約束すること
hide2kano
0
190
Cifrado asimétrico
irocho
0
360
The Next Big Step Toward Nuclear Disarmament
hide2kano
0
170
吉岡研究室紹介(2025年度)
kentaroy47
0
800
The browser strikes back
jonoalderson
0
120
Padlet opetuksessa
matleenalaakso
9
15k
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
GitHub's CSS Performance
jonrohan
1032
470k
From π to Pie charts
rasagy
0
91
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Git: the NoSQL Database
bkeepers
PRO
432
66k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.7k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
410
Building an army of robots
kneath
306
46k
The Spectacular Lies of Maps
axbom
PRO
1
400
Transcript
長岡技術科学大学 山本和英, 三上侑城 語義曖昧性解消としての かな漢字換言システムの開発 1
研究背景・目的(1/2) 2 言語処理において、テキストの解析を行う際に 語義の曖昧性が問題となる時がある。 (例)日英翻訳 その曖昧性を解消することを語義曖昧性解消 と呼び、古くから様々な手法が提案されてきた。 貰った犬を飼う
I buy the dog which I got. 貰った犬をかう 貰った犬をかう
研究背景・目的(2/2) しかし現状では... 3 公開されている日本語の 語義曖昧性解消ツールは無い 語義曖昧性解消ツールの 作成を目的とした。
語義曖昧性解消の対象 本研究では、曖昧さを出す要因の一つである “ひらがな”に着目し、これを適切な“漢字”に 換言することで語義曖昧性解消をおこなう。 4 切符をかう 切符を買う 切符を飼う ?
?
換言候補の収集(1/2) 5 大規模コーパス (BCCWJ)の中で出現 する数 同じ語義の語が記載さ れている辞書
換言候補の収集(2/2) 先に候補を集めておくことで、対象を絞り、 正確に換言できないものを除外。 → 精度の向上 ひらがなの頻度20未満はノイズとして除外し、 頻度1万以上はひらがなが正しいとした。 6
頻度20未満 頻度1万以上 ひらがな頻度20~9999 対象にしない (ノイズ) 換言対象 ひらがなを 正解とする
かな漢字換言手法 ① 入力文から換言対象のひらがなを検出 ② 文脈から手がかりとする語を選定 ③ 漢字候補と手がかり語との共起度を計算 ④ 計算結果の値によって漢字を選出 7
かな漢字換言の例 8 ① ② ③ ④
① 換言対象の検出 換言候補の収集で集めたひらがなが入力 文に入っていたら、換言プロセスに入る。 ただし、漢字の候補が1つのみのものは、 このプロセスを通さず、その漢字に決定。 9
② 手がかり語の選定 10 対象のひらがなから前後4単語を検索し、 情報を持った語を品詞で選定する。 ・ひらがなが動詞 → 名詞 の語を選択
・ひらがなが名詞 → 動詞 と 名詞 の語を選択
文章において、この語が出た時には、通常 この漢字が使われるという(共起)情報を 使用。 特定の語との共起度合を数値化するため、 自己相互情報量(PMI)を使用し、出力 値が最大の漢字を選択。 ③ 自己相互情報量
11
誤答を減らすために閾値を設ける。閾値を決め るため、換言処理を行いその結果を考察した。 間違いを1割以下にするため、閾値を5にした。 ④ 閾値の設定 12 PMI値 PMI値
さらなる精度向上のため、作成したかな漢字 換言器で、対象のひらがなが入った文章を換 言処理。 その結果をひらがな毎に20個判断し、16個 (8割)以上正解できないものは対象から除外。 ただし、漢字候補が1つしかないものは18個 (9割)以上とした。
換言できないものの除外 13
換言対象となるひらがな全てに対し、かな漢字 換言を行い、その時の正解率を求めた。 また各ひらがなにおける総頻度を求めた。 実験と結果 14 漢字候補 対応数 テスト数
正解数 正解率 1つのみ 95 1,900 1,886 99.3% 2つ以上 90 1,800 1,683 93.5% 合計 185 3,700 3,569 96.5% 測定箇所 20未満 20~9999 1万以上 総頻度 16,052 886,649 9,470,468 内2つ以上 (未調査) 192,035 (未調査)
本題である、漢字候補が2つ以上のものだけを 見た時、90のひらがなに対し出現頻度の合計 が99,530であったので51.8%を網羅したこと になり、93.5%の精度で換言ができた。 ※漢字候補1つのみは頻度合計81,800 全体で見た時には、ひらがなの頻度1万以上 は全て正解(ひらがなが正解)であるので、出現 頻度で本換言器の網羅率は93.0%であった。
考察 15