自然言語処理研究室研究概要(2013年)

長岡技術科学大学自然言語処理研究室研究概要（2013年）

質問意図によるQAサイト質問文の自動分類 1.目的　回答者が答えやすい質問を見つけるための支援として質問文を質問者の意図ごとに事実、根拠、提案、経験、意見の5タイプに自動で分類する 2.手法　・あるキーワードを含んでいた場合該当するタイプに質問文を分類する　・人手で分類を行った質問文を使い、頻度で語にスコアをつけ、それを使用して分類を行う 3.実験 Yahoo!知恵袋に投稿された質問からランダムに抽出した質問文のうち、人手でひとつの質問文に複数の質問が含ま
れていないと判断した1509文を上記の2つの手法で自動分類した。スコアによる分類はそのままのスコアのものと、スコアを正規化したものの2つの方法で行った 4.結果　キーワード分類ではキーワードを１つしか設定できなかった経験が精度、再現率ともに低かった、スコアによる分類では正規化することにより全体的な精度、再現率の向上が見られたが、事実の高スコアになる語は質問文に全体的に用いられるような語ではなく、より正確なスコアを出すためにはより多くのデータが必要になり、本手法では正確な分類は困難であることがわかった事実：答えが明確に１つに決まる質問根拠：理由・根拠についての質問提案：オススメを聞くような質問経験：経験に基づいた回答を求める質問意見：意見や考えを聞くような質問キーワード分類の精度と再現率 0 20 40 60 80 100 事実根拠提案経験意見タイプ精度・再現率スコア正規化後の精度・再現率 0 20 40 60 80 100 事実根拠提案経験意見タイプ精度・再現率精度再現率スコアでの分類の精度・再現率 0 20 40 60 80 100 事実根拠提案経験意見タイプ精度・再現率

用言等換言辞書を用いた換言結果の考察目的:人手で構築した用言等換言辞書(山本,吉倉[2013]) を用いて実際に換言を行なった結果を考察する。手法:毎日新聞1999年版を対象に動詞を1語のみ換言評価例と実際にされた換言:下線部が緑色に換言された釈迦が示した(→見せた)人間としての (換言可能) 退任するのに伴い(→と一緒に)、参院 (条件付換言可能) 新たな仕事に一歩踏み出した(→はじめた)
(不自然な換言) 祖父が息を引き取った(→もらった) (換言不可) 今後：「息を引き取る」はまとめて「亡くなる・死ぬ」と換言すべきである。このような複数語で1つの意味を表す句をまとめて換言候補とし、用言等換言辞書を拡充する。

ൃ଍ ࣙ೚ ىૌ େਓ޲͚ޠኮ ৽ฉ೥ؒ૯ޠኮ਺ ໿ສޠ ࢝ΊΔ ΍ΊΔ ͏ͬͨ͑Δ ࢠͲ΋޲͚ޠኮ
ֶशجຊޠኮ ޠ খֶ ࠃޠࣙయ ࠃޠࣙయ খֶੜͷಡղࢧԉʹ޲͚ͨ ෳ਺ͷ׵ݴ஌ࣝΛซ༻ͨ͠ޠኮฏқԽͱධՁ ʲഎܠʳֶश్্ͷࢠͲ΋͸ཧղͰ͖Δޠኮ਺͕େਓΑΓ΋গͳ͍ ʲ໨తʳޠኮ੍ݶʹΑͬͯେਓ޲͚จॻΛࢠͲ΋޲͚ʹฏқԽ ʲख๏ʳ׵ݴʹΑֶͬͯशجຊޠኮ΁ޠኮ੍ݶ ʲ࣮ݧʳখֶࠃޠࣙయɾࠃޠࣙయɾγιʔϥε͔Β׵ݴରΛ֫ಘ ɹɹɹɹ׵ݴର৅ɿ৽ฉʹසग़͢Δֶशجຊޠኮʹؚ·Εͳ͍ޠ ɹɹɹɹඃݧऀɿখֶੜߴֶ೥̑ਓʢ׵ݴ݁ՌΛධՁʣ ʲ݁ՌʳͷޠΛֶशجຊޠኮ΁׵ݴՄೳ ɹɹɹɹ׵ݴͰ͖ͨޠͷ͏ͪΛա൒਺ͷඃݧऀ͕ཧղՄೳ ɹɹɹɹඃݧऀͷա൒਺͕৽ฉͷͷจΛཧղՄೳ ׵ݴʹΑΔޠኮ੍ݶ ෳ਺ͷ׵ݴ஌ࣝ γιʔϥε

常識表現となり得る用言の自動選定の検討目的：　本研究では自然言語処理で利用可能な常識知識ベースを構築することを目的とする．その構築にあたり，常識として適切な用言（動詞，形容詞，サ変名詞）を選定する．常識表現の自動選定：
　まず，Web日本語Nグラムの7グラム中で共起する名詞と動作性表現のペアを抽出する．次に，共起する用言の異なり数が多い順に名詞をソートし，上位N件毎に用言の出現パターンを調査する． TF(a,n) = log 2 n a,n +1 ( ) log 2 n k,n k ∑ ( ) n=1,000 (x=0~1,000, y=1~2,256) 出現名詞数が多い出現名詞数が少ない共起する用言の異なり数上位1000件及び全ての名詞における用言の出現分布を左図に示す(横軸：用言の出現名詞数，縦軸：用言の異なり数 (対数)) ．本研究では，出現名詞数が多い用言を常識として不適切なものとして除外する． Nの変化に伴う削除用言数の変化を左図下に示す，削除される用言数は階段状に変化しており，グラフ上の特異点から，名詞毎の削除用言数が決定される． n=655,038 (x=0~116,746, y=1~1724) Nの増加に伴い，出現名詞数が多い用言が少なくなる各名詞に対する用言（＝常識）の付与：　名詞nに対する用言nを，Harman正規化した TF値で重み付けする．計算式を下式に示す．　　いぬ　小学校　散歩　　　入学しつける　　教育　　病気　　　卒業　つれる　　授業　くらす　　　受験　　訓練　　　かよう　　ほえる　　学習　かわいい　　指導常識の定義：　名詞と文中で共起して，その名詞を特徴づける用言の集合を，その名詞に対する常識と定義する．常識は以下の性質を持つ． 1. 名詞nとの共起頻度が高いほど，その常識である可能性が高い． 2. どのような名詞とも共起する用言は，常識として不適切． 3. 用言aが名詞nの常識として適切か否かは，その名詞と共起する用言の　　異なり数に依存する．名詞に付与される用言の例を左図に示す．結果から，名詞の常識として適切な用言が付与されている事が分かる． x=0~4,000, y=10~10,000(対数) 階段的に　　　減少

「やさしい日本語」書き換えシステムの構築 1. 研究背景「やさしい日本語」とは、日本に在住していて日本語ができない外国人のための必要最低限の日本語である。本研究では「やさしい日本語」への書き換えシステムの概要と、書き換えの評価実験について述べる。 2. 研究目的「やさしい日本語」書き換えシステムの構築 3.
システム概要システムは(1)重要部分の抽出(2)短文化(3)表現意図を用いた図示への変換(4)「やさしい日本語」への変換の4工程で構成した。 4. 変換手法「やさしい日本語コーパス」から作成した公的文書と各「やさしい日本語」の変換対を用い、より長いフレーズ、より出現頻度の多いフレーズ、そして公的文書側をsortした順で変換候補とした。 5. 評価実験「やさしい日本語」コーパスから40文抽出し、公的文書－逐語訳の対を用いて変換した。出力を日本語母語話者1名が文法、意味の観点から評価した。 6. 評価結果意味も文法も問題がないものが18文、どちらかに問題があるものが14文、両方ともに問題があるものが8文であった。原因はほとんどの変換を形態素情報なしに行っていることにあり、改善してシステムをより効果的なものへしていきたい。

௨ৗͰ͸ࡉ෼Խ͞Εͯ͠·͏Α͏ͳෳ߹໊ࢺͳͲΛ෼ׂ୯Ґͱͯ͠औಘ ɹྫʣ ɹܞଳి࿩ɼೋʓʓʓ೥౓ɼۚ༥ػؔɼϕϯνϟʔاۀ ݁Ռ ೔ܦ৽ฉهࣄ ೥෼ʢ هࣄʣΛ༻͍ͯ෼ׂ୯ҐΛऔಘ ࣮ݧ
ग़ݱ͢Δશͯͷจࣈྻʹରͯ͠ ௕͞ͱग़ݱස౓ͷੵʹΑΔείΞ෇͚ ख๏ ෼ׂ୯Ґͷ Ϧετ ೖྗςΩετ ෼͔ͪॻ͖Λߦ͏ͨΊͷ෼ׂ୯ҐΛ ౷ܭ৘ใͷΈΛ༻͍ͯࣗಈऔಘ ໨త ݴޠॲཧͷࡍʹ͸ςΩετதͷจ͸ܗଶૉ΍จઅͳͲʹ෼ׂ͞ΕΔ ෼ׂͷࡍͷᐆດੑղফͷͨΊ͠͹͠͹ڭࢣ͋Γֶश͕༻͍ΒΕΔ ৽͍͠ޠɾදݱͷग़ݱʹରԠ͠ʹ͍͘ ෼ׂج४͕ෳ਺͋ΓɼԿΛ΋ͬͯਖ਼ղͱ͢Δ͔͕ᐆດ എܠ จࣈྻͷग़ݱස౓৘ใΛ༻͍ͨ ɹ෼͔ͪॻ͖୯Ґͷࣗಈऔಘ

Automa'c selec'on of predicates for common sense knowledge expression
We aim at a construc'on of easy-‐to-‐use Japanese common sense knowledge base for seman'c analysis in natural language processing. We define that predicates (verbs, adjec'ves, verbal noun*1) which co-‐occur with a noun are the common sense knowledge of the noun, but of course, all of the predicates which co-‐occurs with noun are not appropriate as common sense knowledge. Hence, we describe how to select the appropriate predicates. *1: The term verbal noun, or what we call sahen noun, is subgroup of noun which is also used as verb when followed by a suffix “suru” Defini&on of common sense knowledge We define the predicates characterizing the noun as common sense knowledge, and make the following hypothesis as specific property of them. (1)  The predicate a is the common sense knowledge of the noun n when the pair of a and n are frequently co-‐occurred in sentences. (2)  The predicate a which co-‐occurs with any noun is not the appropriate common sense knowledge because the noun is characterized by the set of common sense knowledge. (3)  Whether the predicate a is a correct common sense or not, it depends on the number of unique nouns which co-‐occurred with a. Automa&c selec&on of predicates First, we extract the pairs of noun and predicate which are co-‐occurred in the Web texts, and sort the nouns by number of co-‐ occurring predicates based on the hypothesis (1). The figure shows the emergence distribu'on of predicate in the top 1,000 nouns (N=1,000). As the emergence distribu'on, we realize that the number of unique predicates drama'cally increase when a number of unique nouns is extremely large or few. Under the hypothesis (2), we see the predicates which co-‐occurred with any nouns as incorrect common sense. The noun which co-‐occurred with many predicates also have a lot of dele'ng predicates under the hypothesis (3). As a inves'ga'on result, the number of dele'ng predicates decrease in a staircase paUern, and there are singular points in N=700, 1,100, 1,600, 2,500 or 3,600. Hence, we decided the number of dele'ng predicates for each noun based on the result. 0" 500" 1000" 1500" 2000" 2500" 0" 200" 400" 600" 800" 1000" Containing the incorrectly predicates based on hypothesis (2) confidence for as the common sense based on the hypothesis (1) high low horizontal axis: a number of unique nouns co-‐occurring with predicates ver'cal axis: a number of unique predicates

・・・ professor ・・・【professor】People of status as professor. 【professor】Status as
professor. 【professor】Teach learning and skill. 【professor】University teacher. Japanese Dictionary Original Sentence People Status Professor Learning Skill University Teacher ᶅ/PVOTBSFFYUSBDUFE Basic Vocabulary to Learn People Learning　 University Skill Teacher　 People Status Professor Learning Skill University Teacher ：0.17 ：0.11　：0.08 ：0.13 ：0.25 ᶆ4JNQMFXPSETBSFFYUSBDUFE ᶇ4JNJMBSJUJFTPGNFBOJOHBSFDBMDVMBUFE ᶃ%J⒏DVMUXPSEJTFYUSBDUFE ᶄ&OUSJFTPGUIFQSPGFTTPSBSFTFBSDIFE 4FMFDUJOH1SPQFS-FYJDBM1BSBQISBTFGPS$IJMESFO

ର༁ίʔύε͔Βੜ੒ͨ͠ϫʔυάϥϑ ʹΑΔ෦෼తػց຋༁ ಡΈखͷਫ਼ਆతෛ୲ΛݮΒͨ͢Ίɺೖྗจͷ৘ใΛҰ෦མͱ ͯ͠΋ྑ͍ͷͰ୹͘؆ܿͳ຋༁Λ໨ࢦ͢ ೖྗจͱ෦෼తදݱΛड͚औΔ ର༁ίʔύεͷݪݴޠଆΛ෦෼ తදݱͰݕࡧ͠ɺϚονͨ͠ग़ྗݴ ޠଆͷจΛର༁จू߹ͱͯ͠நग़ ର༁จू߹ͷޠΛϊʔυɺޠͱ ޠͷܨ͕ΓΛΤοδͱͯ͠ϫʔυά
ϥϑΛ࡞੒ ୯ޠ຋༁֬཰ͳͲΛߟྀͨ͠ॏ Έ෇͚Λ֤Τοδʹߦ͏ ࠷దͳग़ྗʢܦ࿏ʣΛ࠷୹ܦ࿏ ໰୊ͱͯ͠ղ͘ ग़ྗ݁Ռͷฏۉˋͷ෦෼͕ਖ਼ ղͱ͍͏຋༁ਫ਼౓ɻ୹͘ྲྀெͳ຋༁ Λग़ྗ͠ɺશ෦෼Λ຋༁͢Δैདྷͷ ຋༁ثΑΓ΋ਫ਼ਆతෛ୲͕ݮগɻ

役所からの公的文書に対する「やさしい日本語」への変換システムの構築背景：日本には十分な日本語能力を持たない外国人が数十万人いる。目的：日本語初学者の公的文書の理解のため、容易に「やさしい日本語」を得ることができるシステムを構築する。システムの構成：  デザイン：文の分割（文をある1つの意味区切り[節]に分ける）、表現意図による図示への変換（表現意図タグを用いて節の関係を図示）、重要部分の強調（重要な句を下線で強調） 
変換：「やさしい日本語」への変換（公的文書と対になる「やさしい日本語」の訳から作成された変換対を用いて「やさしい日本語」へ変換）評価結果：  デザイン：文の分割（精度：97%）、図示のためのタグ付け（精度：94%）、重要部分の強調（精度：81%）  変換：変換前と変換後の評価文のやさしさが同程度という評価が多いものの、日本語初学者への効果が確認できた。結論：システムの試作品の完成とともに、日本語初学者への効果とルールの改善の方針等が確認できた。

用言等換言辞書の構築  自然言語処理において、人の感覚に近い換言が求められている → しかし、現状、そのような換言が出来る言語資源は存在しない  従って、本研究では、人の感覚に近い換言を行うことの出来る言語資源を辞書や他の言語資源に依らず構築した  換言例
:” 和える”　ごまと和える → 　　ごまと混ぜる →” 和える” ” は混ぜる”に換言可能　このような対を考えて構築作業対象語は 12,813 語で、このうち 10,336 組の換言対を作成  10,000 語ほどの人の感覚に近い新しい換言辞書の構築ができた → この辞書を用いた換言処理の結果をさらに観察し、より良い換言が可能となるように手を加えることが必要である

খֶੜͷಡղࢧԉʹ޲͚ͨ ޠऍจ͔Βޠኮత׵ݴΛબ୒͢Δख๏ খֶࠃޠࣙయ ֶशجຊޠኮ ޠ ࢠͲ΋޲͚৽ฉ Ұൠ޲͚৽ฉ ೥ؒ૯ޠኮ਺ ໿ສޠ
ʲେ٧Ίʳ ࣳډͷ࠷ޙͷ৔໘ େ٧ΊͷେҰ൪ ࠷ޙͷେҰ൪ ݟग़͠ޠͱͷ ྨࣅ౓Ͱબ୒ ස౓΍จ຺ͷ৘ใʹΑΔબ୒ΑΓ΋ɺྨࣅ౓ʹΑΔબ୒͕༗ޮ

ノートパソコンノートパソコンクエリ拡張のための換言可能な評価表現対の抽出小さい軽い検索をもれなく行いたい入力されたクエリを拡張してもれなく検索できるようにしようこれは小さいので軽いです。抽出できた表現対が因果関係にある
表現同士かどうかを人手で検討小さい軽い文章中の因果関係にある表現同士を収集することでクエリ拡張に使えそう理由を表す表現因果関係にある表現対として抽出因果関係にある表現理由を表す表現と評価表現との間に他の単語が入らない場合に限定することにより高い精度で因果関係にある表現対を得ることができた。因果関係にある表現とは、 • 係り受け関係にある • 理由を表す表現の前後に現れる • 評価表現とした

1. 目的回答者が答えやすい質問を見つけるための支援として質問文を事実、根拠、提案、経験、意見、その他の 6 種に自動で分類する 2. 手法・あるキーワードを含んでいた場合該当する分類に質問を分類する・人手で分類を行った質問文を使い、頻度を使って語の重み付けを行い、そのスコアを使用して分類を行う
3. 実験 Yahoo!知恵袋に投稿された質問からランダムに抽出したもののうち、人手で一つの質問文に複数の質問が含まれていないと判断した1509 文を上記の2つの手法で自動分類した 4. 結果キーワード分類では事実、提案は精度、再現率ともに高いが、根拠は精度、意見は再現率が低く、経験はどちらも低い語の頻度による分類では、キーワードによる分類に比べ提案、意見以外の精度が上がり、再現率は事実以外は90％以上、事実も89.91％と非常によい結果が得られた事実根拠提案経験意見精度（％） 83.84 56.98 88.24 28.57 88.24 再現率（％） 86.61 90.27 93.75 5.26 13.57 事実根拠提案経験意見精度（％） 99.80 79.07 66.67 37.37 83.67 再現率（％） 89.91 90.27 100.00 97.37 95.02 質問回答者のための質問文の自動分類事実：答えが明確に 1 つに決まる質問根拠：理由・根拠についての質問提案：ある物事についてのオススメについての質問経験：経験に基づいた回答を求める質問意見：回答者の意見を求める質問、アドバイスその他：上記に当てはまらないもの（回答のお礼など）キーワード分類語の頻度による分類

自然言語処理研究室研究概要(2013年)

自然言語処理研究室研究概要(2013年)