Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「やさしい日本語」のための語彙制限の検討
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2012
Research
3
180
「やさしい日本語」のための語彙制限の検討
杢真奈見, 山本和英. 「やさしい日本語」のための語彙制限の検討. 言語処理学会第18回年次大会, pp.209-212 (2012.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
410
データサイエンス13_解析.pdf
jnlp
0
520
データサイエンス12_分類.pdf
jnlp
0
370
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
LLM-jp-3 and beyond: Training Large Language Models
odashi
1
780
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
3
540
「なんとなく」の顧客理解から脱却する ──顧客の解像度を武器にするインサイトマネジメント
tajima_kaho
10
7k
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
330
離散凸解析に基づく予測付き離散最適化手法 (IBIS '25)
taihei_oki
1
730
The mathematics of transformers
gpeyre
0
130
ウェブ・ソーシャルメディア論文読み会 第36回: The Stepwise Deception: Simulating the Evolution from True News to Fake News with LLM Agents (EMNLP, 2025)
hkefka385
0
200
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
2k
2026年1月の生成AI領域の重要リリース&トピック解説
kajikent
0
840
LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection
satai
3
620
LiDARセキュリティ最前線(2025年)
kentaroy47
0
280
2026 東京科学大 情報通信系 研究室紹介 (すずかけ台)
icttitech
0
890
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Unsuck your backbone
ammeep
672
58k
Technical Leadership for Architectural Decision Making
baasie
3
290
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.9k
Ruling the World: When Life Gets Gamed
codingconduct
0
180
4 Signs Your Business is Dying
shpigford
187
22k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
480
First, design no harm
axbom
PRO
2
1.1k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.9k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
440
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
60
43k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
140
Transcript
「やさしい日本語」のための 語彙制限の検討 長岡技術科学大学 電気系 杢 真奈見 山本 和英 1
研究背景 2 現在、日本には十分な日本語 能力を持たない外国人が数十万人い る。これらの人々のために日本語をやさ しくする「やさしい日本語」がある。 「やさしい日本語」 ・・・文法、語彙に制限をかけて、日本語 をやさしくする。対象は留学生や外国人 労働者等の日本語能力の低い人々。
関連研究(制限言語) 3 制限言語で書かれた文書は非母語 話者にとってわかりやすい。よって 各々の母国語への翻訳を必要としな くなる。 本研究では、語彙制限による 「やさしい日本語」を目指す。
日本語WordNetを用いた 語彙制限により文書をやさしくし、 外国人の方々が理解できる 語彙制限について検討する。 研究目的 4
5 使用するコーパス 「やさしい日本語」コーパス ・・・公的文書を「やさしい日本語」にしたコーパス 公的文書(市役所、学校、病院等で配布され る文書) 逐語訳、意訳、要約(日本語教師が公的文 書を訳したもの)
公的文書(このコーパスにおける原文) ・・・評価実験の置き換えに使用 逐語訳 ・・・評価実験の比較対象として使用
制限方法 6 1. ChaSenによる分かち書き 2. 全内容語を日本語WordNetと照合 3. 日本語WordNetに記載されていた 場合、上位語への置き換え ※複合名詞・・・記載されていない場合は形態
素を削り、組み合わせて照合 ※多義性・・・人手で最も近い語義の上位語を 選択
評価実験 7 「やさしい日本語」コーパスの公的文書 より無作為に15文を抽出して評価した。 ➢評価者:日本語学習者7名 (日本語能力試験におけるN2所有者) ➢評価方法:3種類 ① それぞれの意味がわかるか ②
やさしいと感じる順位 ③ 意味がわからない語彙かどうか
評価基準 8 原文 出力文 逐語訳 意味がわかる 意味がわからない 意味がわかる 変化なし やさしい
意味がわからない やさしくない やさしくない 評価①それぞれの意味がわかるか 評価②やさしいと感じる順位 原文に対する出力文・逐語訳の順位 評価 順位が上がる やさしい 順位が同じ 変化なし 順位が下がる やさしくない
評価例 9 分類 評価文 評価① 評価② 原文 本 人 確
認 済 み の [ 口 座 ] を 利用した送金や送金の受領を 除きます × 3 出力文 個人判定済みのアカウントを 使い行った支払金額や支払金 額の取得を消去します ◦ 1 逐語訳 本 人 確 認 済 み の 口 座 を 使った送金や送金のもらいは 問題ない ◦ 2 ※ [ ] は評価③意味がわからない語彙
評価①の結果 10 評価①それぞれの意味がわかるか やさしい 変化なし やさしくない 出力文 17.1% 15.2% 67.6%
逐語訳 33.3% 22.9% 43.8% 評価者の半数以上が「意味がわかる」と判断 した文は、原文は40%、出力文は13.3%、 逐語訳は73.3%であった。 置き換えることによって33.3%の文が 「意味がわかる」と判断されるが、 個人差が大きい。
評価②の結果 11 やさしい 変化なし やさしくない 出力文 24.8% 46.7% 28.6% 逐語訳
51.4% 46.7% 1.9% 評価②やさしいと感じる順位 出力文は人手でつくられた 逐語訳より評価が低いものの、 置き換えの効果はあった。
考察 12 意味がわかるようになった語彙 サ変名詞・・・サ変名詞は数も多い。動詞は 和語に置き換える処理が必要となる。 例) 原文:扶養している → 出力文:補助している
逐語訳:育てている 原文と逐語訳が等しい ・・・公的文書で頻出する語彙 例) 原文・逐語訳:口座、出力文:アカウント
考察 13 意味がわからなくなった語彙 複合名詞・・・上位語への置き換え時に、分か ち書きを行い個々の単語として置き換えること により意味が変化してしまう。 例) 原文:医療機関 →
出力文:トリートメント施設 逐語訳:病院
結論 14 内容語の上位語への置き換えは 公的文書、新聞記事共に有効であった。 今後の語彙制限のための検討結果 置き換える語彙 ・・・サ変名詞
置き換えない語彙 ・・・公的文書で頻出する語彙、 日常生活に頻出する語彙 今後検討 ・・・複合名詞 (上位語の領域についても検討予定)