Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
役所からの公的文書に対する「やさしい日本語」への変換システムの構築.
Search
自然言語処理研究室
March 31, 2013
Research
1
88
役所からの公的文書に対する「やさしい日本語」への変換システムの構築.
杢 真奈見. 役所からの公的文書に対する「やさしい日本語」への変換システムの構築. 長岡技術科学大学修士論文. (2013.3)
自然言語処理研究室
March 31, 2013
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
65
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
F0に基づいて伸縮された画像文字からの音声合成 [ASJ2024春]
nehi0615
0
120
How to Perform Manual Classification for Deep Learning Using CloudCompare
kentaitakura
0
640
CVPR2023 EarthVision Workshopより衛星画像関連論文紹介 / Satellite Imaging Processing Papers in CVPR2023 EarthVision Workshop
nttcom
0
120
[Human-AI Decision Making勉強会] 説明の更新はユーザにどのような影響をもたらすか
okoso
1
180
クリック率を最大化しない推薦システム
joisino
41
14k
Embodied AIについて / About Embodied AI
nttcom
1
550
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis / Stable Diffusion 3
shunk031
0
450
一般化ランダムフォレストの理論と統計的因果推論への応用
tomoshige_n
10
1.8k
MegaParticles: GPUを利用したStein Particle Filterによる点群6自由度姿勢推定
koide3
1
510
Rの機械学習フレームワークの紹介〜tidymodelsを中心に〜 / machine_learning_with_r2024
s_uryu
0
220
株式会社リクルートホールディングス 企業分析
frandle256
0
130
Combating Misinformation in the age of LLMs
teacherpeterpan
0
130
Featured
See All Featured
Making Projects Easy
brettharned
108
5.5k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
322
20k
What the flash - Photography Introduction
edds
64
11k
GitHub's CSS Performance
jonrohan
1025
450k
Happy Clients
brianwarren
92
6.4k
Robots, Beer and Maslow
schacon
PRO
155
7.9k
Designing for humans not robots
tammielis
248
25k
What’s in a name? Adding method to the madness
productmarketing
PRO
16
2.6k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
121
39k
It's Worth the Effort
3n
180
27k
Fontdeck: Realign not Redesign
paulrobertlloyd
76
4.9k
Debugging Ruby Performance
tmm1
70
11k
Transcript
山本研究室 学籍番号:09319188 杢 真奈見
背景・関連研究・対象・目的 「やさしい日本語」変換システム 「やさしい日本語」への変換の評価実験 ① 日本語の評価 ② 「やさしさ」の評価
まとめ
背景・関連研究・対象・目的 「やさしい日本語」変換システム 「やさしい日本語」への変換の評価実験 ① 日本語の評価 ② 「やさしさ」の評価
まとめ
現在、日本には十分な日本語能力を持たな い外国人が数十万人いる。 これらの人々のために日本語をやさしくする 「やさしい日本語」プロジェクトがある。 「やさしい日本語」 ・・・対象は留学生や外国人労働者等の日本語 能力の低い人々(日本語初学者)。 1/24
国語辞典を使った放送ニュースの名詞の平易化 (美野秀弥ら, 2010) ◦ 国語辞典の見出しとその説明文より平易化対を取得し、 日本語能力試験(JLPT)を基にした単語への級の付与によ り難易語と平易語を定めた。 Plain
Japanese (PJ) システム (松田真希子ら, 2009) ◦ 日本での工学教育で使用するために開発された。留学生 のために工学の文章の語彙と文法を制限する。 2/24
公的文書 ・・・市役所、学校、病院などで配布される文書。 生活する上で重要な情報を含む。 「やさしい日本語」へ変換 ・・・日本語母語話者が日本語初学者に必要な 情報を可能な限り端的に伝える状況を想定し、 日本語初学者が理解できる「やさしい日本語」 へと変換する。
3/24
公的文書は日本語初学者が学習する文に比 べ理解が困難であり、特有な表現も含む。 (筒井千絵, 2009) 日本語初学者の公的文書の理解のため、 容易に「やさしい日本語」を 得ることができる システムを構築することを目的とした。 4/24
背景・関連研究・対象・目的 「やさしい日本語」変換システム 「やさしい日本語」への変換の評価実験 ① 日本語の評価 ② 「やさしさ」の評価
まとめ
「やさしい日本語」コーパスから確立させた ルールベースによる以下の4つのステップで システムを構成した。 1. 文の分割 2. 表現意図を用いた図示への変換 3. 重要部分の強調
4. 「やさしい日本語」への変換 5/24
「やさしい日本語」プロジェクトで公的文書を 3種類の「やさしい日本語」(逐語訳、意訳、 要約)へ書き換えた。 作業者:約40名 公的文書の文数:42,274文 制限: プロジェクトで定めた文法 JLPTのN2レベルの語彙 例)
公的文書: 予防接種 「やさしい日本語」:予防注射、病気にならないための注射 6/24
1. 文の分割 2. 表現意図を用いた図示への変換 3. 重要部分の強調 4. 「やさしい日本語」への変換
1. 文の分割 2. 表現意図を用いた図示への変換 3. 重要部分の強調 4. 「やさしい日本語」への変換
1. 文の分割 日本語初学者にとって複雑な日本語の構造 が解消し、理解しやすくなると考える。 方法:文を節で分けた。 ※文・・・句点や改行で区切られたもの 節・・・句読点やキーワード(文字列・品詞) で区切ったもの 7/24
1. 文の分割 システムの出力例 入力: また,すでにお手持ちの2回(前期・後期)の受診票につき ましては,平成20年度から一部内容が変更されますので, 平成20年4月1日以降に受診の際は,医療機関にて新票 と差し替えさせていただきますのでご了承ください 8/24
1. 文の分割 システムの出力例 入力: また,すでにお手持ちの2回(前期・後期)の受診票につき ましては,平成20年度から一部内容が変更されますので, 平成20年4月1日以降に受診の際は,医療機関にて新票 と差し替えさせていただきますのでご了承ください 入力: また,すでにお手持ちの2回(前期・後期)の受診票につき
ましては,平成20年度から一部内容が変更されますので, 平成20年4月1日以降に受診の際は,医療機関にて新票 と差し替えさせていただきますのでご了承ください ※キーワード: 文字列・・・「場合」「際」「について」「ので」 品詞・・・接続詞、接続助詞、用言の仮定形 8/24
1. 文の分割 システムの出力例 入力: また,すでにお手持ちの2回(前期・後期)の受診票につき ましては,平成20年度から一部内容が変更されますので, 平成20年4月1日以降に受診の際は,医療機関にて新票 と差し替えさせていただきますのでご了承ください 入力: また,すでにお手持ちの2回(前期・後期)の受診票につき
ましては,平成20年度から一部内容が変更されますので, 平成20年4月1日以降に受診の際は,医療機関にて新票 と差し替えさせていただきますのでご了承ください 出力: 1 また, 2 すでにお手持ちの2回(前期・後期)の受診票につきま しては, 3 平成20年度から一部内容が変更されますので, 4 平成20年4月1日以降に受診の際は, 5 医療機関にて新票と差し替えさせていただきますので 6 ご了承ください 8/24
1. 文の分割 2. 表現意図を用いた図示への変換 3. 重要部分の強調 4. 「やさしい日本語」への変換
2. 表現意図を用いた図示への変換 節と節の関係性を図にすることで、日本語の 構造を視覚的に理解できると考える。 使用データ:表現意図タグ ◦ ある節が何を表現しているかについて、元日本語 教師1名が「やさしい日本語」コーパス672節にタ グ付けを行ったもの。
方法:節の関係性を記号や階層で表現。 9/24
2. 表現意図を用いた図示への変換 タグの付与例 No. 節 タグ 1 また, 接続詞 2
すでにお手持ちの2回(前期・後期)の受診票に つきましては, 題目・ タイトル 3 平成20年度から一部内容が変更されますので, 理由 4 平成20年4月1日以降に受診の際は, 条件・仮定 5 医療機関にて新票と差し替えさせていただきま すので 理由 6 ご了承ください 指示・命令 10/24
2. 表現意図を用いた図示への変換 システムの出力例 11/24 入力(文の分割後の公的文書): 1 また, 2 すでにお手持ちの2回(前期・後期)の受診票につきま しては,
3 平成20年度から一部内容が変更されますので, 4 平成20年4月1日以降に受診の際は, 5 医療機関にて新票と差し替えさせていただきますので 6 ご了承ください
2. 表現意図を用いた図示への変換 システムの出力例 11/24 入力: 1 また, 2 すでにお手持ちの2回(前期・後期)の受診票につきま しては,
3 平成20年度から一部内容が変更されますので, 4 平成20年4月1日以降に受診の際は, 5 医療機関にて新票と差し替えさせていただきますので ご了承ください 出力: +: また, 題目・タイトル:すでにお手持ちの2回(前期・後期)の 受診票につきましては, 理由: 平成20年度から一部内容が変更されますので, ◦条件・仮定: 平成20年4月1日以降に受診の際は, 理由: 医療機関にて新票と差し替えさせていただきますので 指示・命令:ご了承ください
1. 文の分割 2. 表現意図を用いた図示への変換 3. 重要部分の強調 4. 「やさしい日本語」への変換
3. 重要部分の強調 重要な情報を強調することにより、その情報 を落とさずに理解できると考える。 方法: ◦ 係り受け解析(CaboCha)の結果を用いて、 係り受け関係にある文節を並べ句とする。 ◦
その句を動詞の数と含まれる助詞(ヲ、ノ、 ガ、ハ・・・の順)で順位付けを行う。 12/24
3. 重要部分の強調 システムの出力例 入力: 保護者の判断で登校を見合わせてください。 13/24
3. 重要部分の強調 システムの出力例 入力: 保護者の判断で登校を見合わせてください。 係り受け解析の結果: 保護者の –D 判断で –D
登校を –D 見合わせてください。 13/24
3. 重要部分の強調 システムの出力例 入力: 保護者の判断で登校を見合わせてください。 句: 1) 保護者の判断で見合わせてください。 2) 登校を見合わせてください。
係り受け解析の結果: 保護者の –D 判断で –D 登校を –D 見合わせてください。 13/24
3. 重要部分の強調 システムの出力例 入力: 保護者の判断で登校を見合わせてください。 句: 1) 保護者の判断で見合わせてください。 2) 登校を見合わせてください。
係り受け解析の結果: 保護者の –D 判断で –D 登校を –D 見合わせてください。 13/24
3. 重要部分の強調 システムの出力例 入力: 保護者の判断で登校を見合わせてください。 句: 1) 保護者の判断で見合わせてください。 2) 登校を見合わせてください。
係り受け解析の結果: 保護者の –D 判断で –D 登校を –D 見合わせてください。 ⇒ 強調 13/24
1. 文の分割 2. 表現意図を用いた図示への変換 3. 重要部分の強調 4. 「やさしい日本語」への変換
4. 「やさしい日本語」への変換 「やさしい日本語」へ変換することによって語 彙が理解しやすくなると考える。 使用データ:「やさしい日本語」変換対 例)ご不明な点がありましたら(原文) →わからないことがありましたら(逐語訳) 方法:原文-逐語訳の5893対を用いて、入
力文の一部が原文側と一致した場合に逐語 訳側へ変換する。 14/24
4. 「やさしい日本語」への変換 システムの出力例 入力: 入学手続が済めば、日本語学校の職員が代理 で就学ビザの在留資格認定証明書を申請する ことができます。 15/24
4. 「やさしい日本語」への変換 システムの出力例 入力: 入学手続が済めば、日本語学校の職員が代理 で就学ビザの在留資格認定証明書を申請する ことができます。 形態素解析と複合名詞(赤字)等の処理: 入学/手続/が/済め/ば/、/日本語/学校/の/職 員/が/代理/で/就学/ビザ/の/在留/資格/認定
/証明/書/を/申請/する/こと/が/でき/ます/。 ・名詞連続、数字+助数詞、 動詞+「こと」は複合名詞とする (接尾辞は除く) 15/24
4. 「やさしい日本語」への変換 システムの出力例 入力: 入学手続が済めば、日本語学校の職員が代理 で就学ビザの在留資格認定証明書を申請する ことができます。 出力: 入学手続が済めば、日本語学校の人が代わり で就学ビザの在留資格認定証明の紙を申し込
みすることができます。 形態素解析と複合名詞(赤字)等の処理: 入学/手続/が/済め/ば/、/日本語/学校/の/職 員/が/代理/で/就学/ビザ/の/在留/資格/認定 /証明/書/を/申請/する/こと/が/でき/ます/。 15/24
16/24 ①文の分割 形態素解析 ②意図タグ 係り受け解析 ③強調 ④変換 入力 出力
17/24
背景・関連研究・対象・目的 「やさしい日本語」変換システム 「やさしい日本語」への変換の評価実験 ① 日本語の評価 ② 「やさしさ」の評価
まとめ
「やさしい日本語」への変換について、 小規模な評価実験を行った。 ① 日本語の評価 日本語母語話者(発表者)による日本語の 文法と意味の評価 ② 「やさしさ」の評価 日本語非母語話者による入力文(公的文 書)と出力文のやさしいさの評価
18/24
「やさしい日本語」コーパスより無作為に100 文を公的文書から抽出し、原文-逐語訳の 変換対を用いて評価文を作成する 評価者(発表者)は入力文と出力文を見て、 出力文の日本語の意味の適切さ、文法の適 切さについて◦か×の2択で評価する 19/24 評価文の例)
入力:健康被害発生時の保障は、太田市のみの保障と なります。 出力:体の調子が悪くなるようなことが起こったの時の保 障は、太田市だけの保障となってます。
結果:変換されなかった文: 18文 変換された文: 82文 意味 合計 ◦ × 文法 ◦
47 4 51 × 22 9 31 合計 69 13 82 20/24
結果:変換されなかった文: 18文 変換された文: 82文 意味 合計 ◦ × 文法 ◦
47 4 51 × 22 9 31 合計 69 13 82 助詞や用言の活用の変化に 対応していないことが原因 20/24 変換例) 入力:ことば・パパ,ママなどの意味のある単語を言う 出力:ことば・パパ,ママとかの意味のあります言葉を言う
結果:変換されなかった文: 18文 変換された文: 82文 意味 合計 ◦ × 文法 ◦
47 4 51 × 22 9 31 合計 69 13 82 助詞や用言の活用の変化に 対応していないことが原因 複合名詞ではないとした 「名詞+接尾辞」のうちの 「名詞」だけが変化したもの 20/24 変換例) 入力:治療及び投薬に要する費用は対象外です。 出力:治すのと薬にかかるお金はのため外です。
結果:変換されなかった文: 18文 変換された文: 82文 意味 合計 ◦ × 文法 ◦
47 4 51 × 22 9 31 合計 69 13 82 助詞や用言の活用の変化に 対応していないことが原因 複合名詞ではないとした 「名詞+接尾辞」のうちの 「名詞」だけが変化したもの 20/24 結果、助詞や用言の活用の変化・ 変換ルールについて、 まだ改良が必要である。
①日本語の評価で「日本語が正しい」と評価 された47文より無作為に15文を抽出する 評価者は入力文と出力文を見て、どちらの文 がやさしいか、または同じくらいかと評価する 評価文それぞれに対してどちらがやさしいか を多数決方式で決定する 21/24
評価者: 23名のマレーシア人 22/24 人数 公的文書 「やさしい日本語」 全員 23名 5文 10文
N2保有者 17名 6文 9文 日本在住期間 1年未満 8名 3文 12文
評価者: 23名のマレーシア人 22/24 人数 公的文書 「やさしい日本語」 全員 23名 5文 10文
N2保有者 17名 6文 9文 日本在住期間 1年未満 8名 3文 12文 「やさしい日本語」の 方がやさしいという 評価が増えた
評価者: 23名のマレーシア人 22/24 人数 公的文書 「やさしい日本語」 全員 23名 5文 10文
N2保有者 17名 6文 9文 日本在住期間 1年未満 8名 3文 12文 結果、「やさしい日本語」への変換は 日本在住期間の短い「日本語初学者」に 有効であった。 「やさしい日本語」の 方がやさしいという 評価が増えた
背景・関連研究・対象・目的 「やさしい日本語」変換システム 「やさしい日本語」への変換の評価実験 ① 日本語の評価 ② 「やさしさ」の評価
まとめ
システムの効果を検証しつつ完成を目指す 1. 文の分割・・・さらなるルール改善 2. 表現意図を用いた図示への変換 ・・・アンケートを用いた効果的な図示の確立 3. 重要部分の強調 ・・・効果的な表示方法の確立
4. 「やさしい日本語」への変換 ・・・助詞や用言の活用の変化への対応、 変換ルールの確立 23/24
「やさしい日本語」変換システムの構築を目 指した。 メインシステムである「やさしい日本語」への 変換について評価実験を行い、改善の余地 や日本語初学者への効果が確認できた。 今後、システムの完成を目指し、引き続き外 国人に対する効果を検証していく。
最終的に、市役所で「やさしい日本語」による 文書の作成できる状況を目指したい。 24/24
ご清聴、ありがとうございました。
None
評価者が保有するJLPTの級 JLPTの保有級 人数 [名] N1 2 N2 17 N3
2 N4 1 N5 1 なし 1 合計 23
評価者の日本在住歴 ※在住期間のない評価者が1名 人数 [名] 期間 人数 [名] 人数 [名]
期間 人数 [名] 現在も 在住 15 ~1年 7 過去に 在住 7 ~1年 0 1~2年 5 1~2年 4 2~3年 2 2~3年 0 3~4年 0 3~4年 2 4~5年 1 4~5年 0 5年~ 1 5年~ 1
評価者の日本語学習歴 ※5年以上の評価者は学習期間が約6年 日本語学習期間 人数 [名] ~1年 0 1~2年 2
2~3年 10 3~4年 7 4~5年 3 5年~ 1 合計 23
タグの種類 例 忠告・助言 ~したほうがいいですよ 勧告 ~しませんか・しましょうよ 依頼 ~してもらえますか/くれませんか 指示・命令 ~してください・しなさい・お願いします
許可与え ~してもいいです 申し出 ~してあげましょうか 許可求め ~してもいいですか 確認 ~してもいいですね 通知・宣言 ~します・させてもらいます 条件・仮定 ~の場合・際、~すれば(用言の仮定形) 理由 ~ので 題目・タイトル ~について 項目 (各種項目の形式となっているもの) 既定の事実 (過去形) 禁止 ~いけません
「やさしい日本語」コーパスの公的文書と対応する 「やさしい日本語」の差異(句)を対とし構成している。 文単位で言い換えているため、句単位では等価で ない場合もある。 例) 公的文書:その他、申請に関してご不明な点があり ましたら、下記までお問い合わせください。
タグ対象語(原文): ご不明な点がありましたら 逐語訳: わからないことがありましたら 意訳: わからなかった 要約: わからなかった
原文、逐語訳、意訳、要約の4つの組み合わせで 以下の3つの変換対を作成した。 原文-逐語訳: 5893対 原文-意訳: 4772対
原文-要約: 3944対 変換の際には、原文側の句を 以下の順で優先順位を付けている。 i. 文字数が多いもの ii. 出現頻度の多いもの
None
入力文の接続詞やキーワードによる文の分割 各文を係り受け解析と助詞選択による文の分 割 5/9
入力文の接続詞やキーワードによる文の分割 各文を係り受け解析と助詞選択による文の分 割 5/9
入力文の接続詞やキーワードによる文の分割 各文を係り受け解析と助詞選択による文の分 割 例)入力文:悪天候の際には、大雨警報、暴風警 報、大雪警報、暴風雪警報が発令されていなくて も、周囲の状況で危険な場合は、保護者の判断で 登校を見合わせてください。 5/9
入力文の接続詞やキーワードによる文の分割 各文を係り受け解析と助詞選択による文の分 割 例)入力文:悪天候の際には、大雨警報、暴風警 報、大雪警報、暴風雪警報が発令されていなくて も、周囲の状況で危険な場合は、保護者の判断で 登校を見合わせてください。 ①悪天候のとき
②大雨警報、暴風警報、大雪警報、暴風雪警報 が発令されていなくても、周囲の状況で危険なとき ③保護者の判断で登校を見合わせてください。 5/9
入力文の接続詞やキーワードによる文の分割 各文を係り受け解析と助詞選択による文の分 割 5/9
入力文の接続詞やキーワードによる文の分割 各文を係り受け解析と助詞選択による文の分 割 例)保護者の判断で登校を見合わせてください。 5/9
入力文の接続詞やキーワードによる文の分割 各文を係り受け解析と助詞選択による文の分 割 例)保護者の判断で登校を見合わせてください。 保護者の 判断で 登校を 見合わせてください。
係り受け解析 と 助詞の選択 5/9
入力文の接続詞やキーワードによる文の分割 各文を係り受け解析と助詞選択による文の分 割 例)保護者の判断で登校を見合わせてください。 保護者の 判断で 登校を 見合わせてください。
登校を見合わせてください。 5/9 係り受け解析 と 助詞の選択
真意抽出の変換対の作成 真意抽出の変換対より、文の真意を抽出 6/9
真意抽出の変換対の作成 真意抽出の変換対より、文の真意を抽出 6/9
真意抽出の変換対の作成 真意抽出の変換対より、文の真意を抽出 6/9 「やさしい日本語」コーパスのお知らせ文書よ り、その文章の真意を人手で作成 作成した真意と対応するお知らせ文書より、 真意抽出の変換対を作成(165対) 例)
(市役所)でお申込み下さい →(市役所)に行ってください (プリント)を確認してください →(プリント)を見てください
真意抽出の変換対の作成 真意抽出の変換対より、文の真意を抽出 例)登校を見合わせてください。 6/9
真意抽出の変換対の作成 真意抽出の変換対より、文の真意を抽出 例)登校を見合わせてください。 ・(サ変名詞)を見合わせてください ↓ ・(サ変名詞)しないでください。 6/9
真意抽出の変換対の作成 真意抽出の変換対より、文の真意を抽出 例)登校を見合わせてください。 ・(サ変名詞)を見合わせてください ↓ ・(サ変名詞)しないでください。 登校しないでください。 真意抽出の
変換対 文の真意 6/9
真意抽出の変換対の作成 真意抽出の変換対より、文の真意を抽出 例)入力文: 悪天候の際には、大雨警報、暴風警報、大雪警報、 暴風雪警報が発令されていなくても、周囲の状況 で危険な場合は、保護者の判断で登校を見合わ せてください。 7/9
真意抽出の変換対の作成 真意抽出の変換対より、文の真意を抽出 例)入力文: 悪天候の際には、大雨警報、暴風警報、大雪警報、 暴風雪警報が発令されていなくても、周囲の状況 で危険な場合は、保護者の判断で登校を見合わ せてください。 出力文:
①悪天候のとき ②危険なとき ③登校しないでください。 7/9
真意抽出の変換対の作成 真意抽出の変換対より、文の真意を抽出 出力文: ①悪天候のとき ②危険なとき ③登校しないでください。 7/9 条件
悪天候のとき 危険なとき 指示 登校しないでください。 例)入力文: 悪天候の際には、大雨警報、暴風警報、大雪警報、 暴風雪警報が発令されていなくても、周囲の状況 で危険な場合は、保護者の判断で登校を見合わ せてください。
「やさしい日本語」コーパス(1179文)より無 作為に20文のお知らせ文書を抽出し、文の 真意を抽出した。 各種文の分割 ・・・ 使用したコーパスにおいては適用可能 さらに多くの文での検証と評価が必要 真意抽出の変換対 ・・・
データ数が少なく、多くの文が無変換 データの拡張により解消 8/9
さらに多くのお知らせ文書での検証 真意抽出の変換対データの拡張 真意を抽出するための各種ルールの作成 文の分割ルールの例) • 場合、の際、ので(接続助詞)等 •
助詞の優先順位:ヲ、ノ、ガ、ハ・・・ 「やさしい日本語」プロジェクトとして、 真意抽出のシステム作成 9/9
予備審査では外すスライド
3. 重要部分の強調 システムの出力例 入力: 保護者の判断で登校を見合わせてください。 句: 1) 保護者の判断で見合わせてください。 2) 登校を見合わせてください。
係り受け解析の結果: 保護者の –D 判断で –D 登校を –D 見合わせてください。 ⇒ 強調 13/24 予備実験の結果: 助詞は動詞に依存するため、単純な順 位付けができない。 (Manami MOKU et al., 2012)
3. 重要部分の強調 重要な情報を強調することにより、その情報 を落とさずに理解できると考える。 現在、以下のデータを作成中である。 作成中データ:重要文節データ ◦ 「やさしい日本語」に含まれる公的文書を文節に 区切り、日本語母語話者が日本語の文法を維持
し、生活する上で重要な文節以外を消去したもの。 方法:ルールベースで重要文節を 下線により強調する。 14/24 現在、以下のデータを作成中である。 作成中データ:重要文節データ ◦ 「やさしい日本語」に含まれる公的文書を文節に 区切り、日本語母語話者が日本語の文法を維持 し、生活する上で重要な文節以外を消去したもの。 方法:ルールベースで重要文節を 下線により強調する。
3. 重要部分の強調 システムの出力例 入力: インフルエンザにかかった人が咳やくしゃみな どをすることにより、ウイルスが空気中に広がり、 それを吸い込むことによって感染します。 15/24
3. 重要部分の強調 システムの出力例 入力: インフルエンザにかかった人が咳やくしゃみな どをすることにより、ウイルスが空気中に広がり、 それを吸い込むことによって感染します。 出力: インフルエンザにかかった人が咳やくしゃみな どをすることにより、ウイルスが空気中に広がり、
それを吸い込むことによって感染します。 15/24