Slide 1

Slide 1 text

文章自動生成に向けた非構造データの活用の比較検討 -文と文とのつながりを課題として- Comparative study on utilization of nonstructured data for automatic generation of sentences - Connection between sentence and sentence as a subject - 一般社団法人 電子情報通信学会2017年秋季全国研究発表大会 2017年9月23日(土) @京都京都工芸繊維大学 ノートルダム館 K202 株式会社Speee/ 放送大学 教養学部 太田 博三

Slide 2

Slide 2 text

1. はじめに 1.0 タスク設定について 補足:構文解析による可視化の例一文のシンプルさの確認 1.1 自然言語処理の研究区分について 1.2 文章自動生成の入力の問題設定とその難しさについて 1.3.文章自動生成のコンペティションのご照会 3

Slide 3

Slide 3 text

1.0.1 文章自動生成のタスク設定 ࠓճͷλεΫͷ ΰʔϧɿ ฐࣾͷӦۀ͕ɺΫ ϥΠΞϯτʹɺ ʮ͜͏͍͏ςΩε τจΛૠೖͯ͠΄ ͍͠ʂʯ ͱ͍͏จΛࣗಈੜ ੒͢Δ͜ͱɻ ʹۀ຿ޮ཰Խ 4

Slide 4

Slide 4 text

1.0.2 文章自動生成のタスク設定 5 メゾネット物件の特徴としては、建物の中に内階段が設 置されており、2階以上の階層からなる物件になります。 2階建の戸建てと似たような作りになります。メゾネッ ト物件のメリットとしては内階段があり、2階建になり ますので一戸建てに住んでいるような気分になれるとい う点でしょう。開放感を求めている方にはおススメの物 件です。ただし、子どもがいる方は階段から落ちてし まって、などという心配もありますので避けた方がいい かもしれません。メゾネット物件の探し方はメリットに もあるように開放感というのが1つのキーワードとなり ますので採光面や風通りがどうなっているのかは重要な ポイントとなるでしょう。 (287文字)

Slide 5

Slide 5 text

1.0.3 文章自動生成のタスク設定(構文解析)1/6 6 メゾネット物件の特徴としては、建物の中に内階段が設 置されており、2階以上の階層からなる物件になります。 メゾネット物件の-D 特徴としては、-----------------D 建物の-D | 中に---D | 内階段が-D | 設置されており、---------D 2階以上の-D | 階層から-D | なる-D | 物件に-D なります。 • 構⽂解析してみて,シ ンプルで読みやすいか を可視的に⾒てみる.

Slide 6

Slide 6 text

1.0.3 文章自動生成のタスク設定(構文解析) 2/6 7 2階建の戸建てと似たような作りになります。 2階建の-D 戸建てと-D 似たような-D 作りに-D なります。 EOS • 構⽂解析してみて,シン プルで読みやすいかを可 視的に⾒てみる.

Slide 7

Slide 7 text

1.0.4 文章自動生成のタスク設定(構文解析) 3/6 8 メゾネット物件のメリットとしては内階段があり、2階 建になりますので一戸建てに住んでいるような気分にな れるという点でしょう。 メゾネット物件の-D メリットとしては---D 内階段が-D あり、-----------D 2階建に-D | なりますので-------D 一戸建てに-D | 住んでいるような-D | 気分に-D なれるという-D 点でしょう。EOS • 構⽂解析してみて, シンプルで読みや すいかを可視的に ⾒てみる.

Slide 8

Slide 8 text

1.0.5 文章自動生成のタスク設定(構文解析) 4/6 9 開放感を求めている方にはおススメの物件です。 開放感を-D 求めている-D 方には---D おススメの-D 物件です。 EOS • 構⽂解析してみて, シンプルで読みやす いかを可視的に⾒て みる.

Slide 9

Slide 9 text

1.0.6 文章自動生成のタスク設定(構文解析) 5/6 10 ただし、子どもがいる方は階段から落ちてしまって、な どという心配もありますので避けた方がいいかもしれま せん。 ただし、-------------------D 子どもが-D | いる-D | 方は---D | 階段から-D | 落ちてしまって、などという-D | 心配も-D | ありますので-D | 避けた-D | 方が-D いいかもしれません。EOS • 構⽂解析してみて, シンプルで読みや すいかを可視的に ⾒てみる.

Slide 10

Slide 10 text

1.0.7 文章自動生成のタスク設定(構文解析) 6/6 11 メゾネット物件の探し方はメリットにもあるように開放感というの が1つのキーワードとなりますので採光面や風通りがどうなってい るのかは重要なポイントとなるでしょう。 メゾネット物件の-D 探し方は-----D メリットにも-D | あるように-D 開放感というのが-----D 1つの-D | キーワードと-D なりますので-------D 採光面や-D | 風通りが---D どう-D なっているのかは-----D 重要な-D | ポイントと-D なるでしょう。EOS • 構⽂解析してみて, シンプルで読みや すいかを可視的に ⾒てみる.

Slide 11

Slide 11 text

1.1. 自然言語処理の研究区分 (入力) (出力) テキスト ----------解析系--------à 情報 情報 ----------生成系--------à テキスト 図1.1 解析系と生成系 ・解析系の研究とは,Amazonのレビューなどのポジ・ネガ判別 ・生成系の研究とは,逆で入力はポジティブなどと判別された情報とは限らない. 出力はテキストである. ・変換系の研究とは,機械翻訳など⼊⼒と出⼒が対価である場合. 12 解析系 ⽣成系 変換系

Slide 12

Slide 12 text

1.2. 文章自動生成の入力の問題設定とその難しさ ⽂章⾃動⽣成のアプリ開発の主な仕様を下記の2点とした. 1. 剽窃になってはいけないこと,そのまま過去の⽂章の引⽤と ならないこと, 2. 独⾃性があること, 3. 300−500⽂字の⾃然な⽂章であること. <懸念点として考えられたこと> • 過去の⽂集合をもとに作られるため,独⾃性が出せなく、⾔い 換えがうまく⾏かないと,本末転倒になりかねない. 13

Slide 13

Slide 13 text

1.3.1 文章自動生成のシンポジウムの歴史的概観 • WEB上のコンテンツは「研究のためなら」引用先を明記すれ ば用いて良いとされている. • 昨今のニューラルネットワークの発展においても,ゴッホ風 の画像やモーツァルト風の音楽まで出ており,著作権に関す る議論はあまり出ていない. cf. 東京五輪のエンブレムは主観で真似たと判断されている 事例がある. →定量化できないものか? →評価基準の設定の問題 →オリジナルであることの難しさ 14

Slide 14

Slide 14 text

1.3.2 五輪エンブレムの盗用の事例 東京五輪のエンブレムは主観で真似 たと判断されている事例がある. →定量化できないものか? →評価基準の設定の問題 →オリジナルであることの難しさ ※参考URL: デザイナーの僕が感じる、 五輪エンブレム盗用疑惑について http://グラフィックデザイナー独立奮 闘記.com/olympics-logo 15

Slide 15

Slide 15 text

จষࣗಈੜ੒ͷ஫໨౓ • 文章自動生成のコンテストなど欧米で盛んである. E2E NLG Challenge http://www.macs.hw.ac.uk/InteractionLab/E2E/ も開催されており,世界的に盛んである. cf. 文書自動要約(Text Summarization)は 10年以上前から盛んに 行なわれている. 16

Slide 16

Slide 16 text

2. 本研究で用いた手法 2.1 マルコフ連鎖による文生成 2.2 自動要約による文章自動生成 2.3 リカレントニューラルネットワーク(RNN)/ LSTM/GANによる文章自動生成 17

Slide 17

Slide 17 text

2.1 各手法についての概観(イメージ) 1. マルコフ連鎖による文生成 2. 自動要約による文章自動生成 3. リカレントニューラルネットワーク/ LSTMによる文章自動生成 ※この他にも制御文による フレームワークを用いた文章自動 生成などもある. 18

Slide 18

Slide 18 text

2.2 マルコフ連鎖による文生成 • マルコフ性(Markov property)とは、 次の状態が過去の状態に依存せず 現在の状態のみによって 決まる性質のことである. • 詳しくはこちらの記事をご参照ください! マルコフモデル ~概要から原理まで~ (前編) http://postd.cc/from-what-is-a-markov-model-to-here-is-how-markov- models-work-1/ 19

Slide 19

Slide 19 text

ࣗಈཁ໿ʹΑΔจষࣗಈੜ੒ • ⾃動要約の古典的なH. P. Luhnが⾃動要約の元祖と⾔われております. ↓ • テキスト中の重要な⽂を抜き出し,それを出現順に並べることによっ て,そのテキストを読むべきか否かを判定するといったスクリーニン グのための要約が⾃動⽣成できることを⽰したことが業績. • つまり,⾃動抄録に似ており,「理解し,再構成し,⽂章⽣成」とい うのではなく、「理解する箇所が重要部に近似する」と割り切って考 えたもの. • 重要語の決定には,単語頻度を⽤いるなど,現在の⾃動要約の流れは, Luhnの影響が少なくない! 20

Slide 20

Slide 20 text

2.4 リカレントニューラルネットワーク (RNN)/LSTM/GANによる文章自動生成 • Andrej Karpathyのchar-rnnによるtiny shakespeare[7]が有名. • 今までの単語列として,もっともらしい次の単語を予測す ることをLong short term memory(LSTM)が担うもの. • Recurrent Neural Network(RNN)の拡張として,1995年に登 場した時系列データに対するモデルまたは構造の⼀種であ る. • しかしLSTMでも,Epochが100を超えないとまともな⽂章 になっていなかったり,GPUが必要になるなど,莫⼤な学 習データと時間を要する. ⇩ • そこで,GANなど教師なしの⽣成モデルに着⽬した. 21

Slide 21

Slide 21 text

࣮ݧ݁Ռ <> 3.1 各⼿法の実験概要 ➡ 約3ヶ⽉間 (成果が出たら続ける というもの) 3.2 各⼿法と好ましいと 思われるデータ量 (⽂字数) ➡ Minimumから 始めて⾏きました 22

Slide 22

Slide 22 text

֤ख๏ͷ࣮ݧ֓ཁ • 実験に⽤いたデータの概要: 23

Slide 23

Slide 23 text

֤ख๏ͱ޷·͍͠ͱࢥΘΕΔσʔλྔ จࣈ਺ • データ量の観点から,得られた実験結果([7]) • 各⼿法と好ましいと思われる⽂字数(すごくいい加減です) 1) マルコフ連鎖による文章の自動生成:100−200字程度の文書 2) keras(RNN/ LSTM)による文章の自動生成:5000文字以上の文書 3) Luhn による文章要約:1000字以上 4) LexRank/ TextRank による文章要約:300−400文字以上 5) tensorflow/ seq2seqによる文章自動要約:100000文字以上 24

Slide 24

Slide 24 text

4. 実験結果([8]) 4.1 実験で⽤いた各⼿法の⻑所・短所 4.2実験で⽤いた⽂章と評価の⼀部(その1) 4.2.1 マルコフ連鎖による2つの⽂章の評価 4.2.2 マルコフ連鎖による⽣成された⽂章例(2つ) 4.2.2.1 マルコフ連鎖による⽣成された⽂章例その1 4.2.2.2 マルコフ連鎖による⽣成された⽂章例その2 4.3 実験で⽤いた⽂章と主観的なSEOの視点での評価の⼀部(その2) 4.4 ⽂章の⾔い換えと類似度の検討 4.4.1 本節で⽤いた例⽂ 4.4.2 n-gram(n = 1-5)での定量化と⾔い換え回数について 4.4.3 考察結果 25

Slide 25

Slide 25 text

࣮ݧͰ༻͍֤ͨख๏ͷ௕ॴɾ୹ॴ • [実験: 2パターンでの検証結果] 1.(元データ) 4.2.1 マルコフ連鎖による2つの⽂章の評価 ・元の⽂章のままではない点が評価できる. ・元の⽂章が⻑い⽂章であれば,⽂と⽂のつながりはよくはないが 悪くもない. ・内包表記などで⼯夫できれば簡易的で良い. 26 B L . K : : 3::7 / 034 19 5/2 065

Slide 26

Slide 26 text

Ϛϧίϑ࿈࠯ʹΑΔੜ੒͞Εͨจষྫʢͭʣ 27 4.2.2.1 マルコフ連鎖による⽣成された⽂章例 その1 化粧⽔などで泡⽴ててくださいね。そのまま化粧⽔を 防腐剤、安定剤や酸化亜鉛などの影響で、かさつかず しっとりとしました。ドクターズオーガニックの無添 加化粧品の材料とコールドプロセス法によって製造す ることがわかります(新陳代謝が正常に導きます。ま たお⼿元に届くよう、⼀刻も早い安全性と、とても良 い下地クリームにした作りになっていますが、抗菌仕 様製品では次のような選び⽅が推奨されています。毎 ⽇⾝体を動かすことで、⾃分達の基礎化粧品の中⾝を 確かめてくださいね。無添加⽯鹸で…。油分を⼗分に 補って、盲信は禁物です。ナイロンタオルやボディケ ア⽤品の基材としてよく使われています。という具合 に⾃分の肌トラブルを起こさない、これは現実的に引 き締まった感じがするかもしれませんよね?乾燥が気 になることもあります。刺激感などの添加があります。 (361⽂字) 4.2.2.2 マルコフ連鎖による⽣成された⽂章例その2 例えばクモノスカビの⼤きさを保ち、かさかさ、ボロ ボロに。⼀体何が無添加⽯鹸を泡⽴て、泡の保持のた め、ニキビ肌、敏感にしましょう。「今⽇はとても不 ⾃然だと悪化します。また、脂肪を燃焼させ除去する ことフットクリームの全成分しかし、同時に流れは細 胞から⼆酸化炭素や⽼廃物を回収してください。シア バター 1,800円(約70g)ご購⼊はこちらから」 フットクリームの全成分漢⽅薬としては、洗浄感の良 いハンドクリームには⽪膚がんの原因は消毒も殺菌し て作られますが、散乱剤②の2種類がありませんが、 すでにたくさんの化粧⽔と、やわらかくて、たっぷり のお湯でお肌は、天然の成分かつて健康法として推奨 された安全性はまだまだ不確かです。でも、必ずしも ⽯鹸が必要なわけでも、瞬間湯沸かし器などで泡⽴て てください。乾燥肌対策のため植物性油脂であっても、 きれいな⽔だけで数百種類以上の化学成分を毎⽇肌に のせたりすることが⼤事です。原料への安全性はあり ません。この後、あるいはお⾵呂で体を温める効果の ある⼈々(活字関係)からは常温で固体のためのスキ ンケア (455⽂字)

Slide 27

Slide 27 text

Ϛϧίϑ࿈࠯ʹΑΔੜ੒͞Εͨจষྫʢͭʣ 28 4.2.2.1 マルコフ連鎖による⽣成された⽂章例その1 化粧水などで泡立ててくださいね。そのまま化粧水を防腐剤、安定剤や酸化亜 鉛などの影響で、かさつかずしっとりとしました。ドクターズオーガニックの 無添加化粧品の材料とコールドプロセス法によって製造することがわかります (新陳代謝が正常に導きます。またお手元に届くよう、一刻も早い安全性と、 とても良い下地クリームにした作りになっていますが、抗菌仕様製品では次の ような選び方が推奨されています。毎日身体を動かすことで、自分達の基礎化 粧品の中身を確かめてくださいね。無添加石鹸で…。油分を十分に補って、盲 信は禁物です。ナイロンタオルやボディケア用品の基材としてよく使われてい ます。という具合に自分の肌トラブルを起こさない、これは現実的に引き締 まった感じがするかもしれませんよね?乾燥が気になることもあります。刺激 感などの添加があります。(361文字)

Slide 28

Slide 28 text

Ϛϧίϑ࿈࠯ʹΑΔੜ੒͞Εͨจষྫʢͭʣ 29 4.2.2.2 マルコフ連鎖による⽣成された⽂章例その2 例えばクモノスカビの大きさを保ち、かさかさ、ボロボロに。一体何が無添 加石鹸を泡立て、泡の保持のため、ニキビ肌、敏感にしましょう。「今日は とても不自然だと悪化します。また、脂肪を燃焼させ除去することフットク リームの全成分しかし、同時に流れは細胞から二酸化炭素や老廃物を回収し てください。シアバター 1,800円(約70g)ご購入はこちらから」フットク リームの全成分漢方薬としては、洗浄感の良いハンドクリームには皮膚がん の原因は消毒も殺菌して作られますが、散乱剤②の2種類がありませんが、す でにたくさんの化粧水と、やわらかくて、たっぷりのお湯でお肌は、天然の 成分かつて健康法として推奨された安全性はまだまだ不確かです。でも、必 ずしも石鹸が必要なわけでも、瞬間湯沸かし器などで泡立ててください。乾 燥肌対策のため植物性油脂であっても、きれいな水だけで数百種類以上の化 学成分を毎日肌にのせたりすることが大事です。原料への安全性はありませ ん。この後、あるいはお風呂で体を温める効果のある人々(活字関係)から は常温で固体のためのスキンケア (455文字)

Slide 29

Slide 29 text

࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺Ͱͷ ධՁͷҰ෦ʢͦͷʣ • 以下の⽂章が⾃然であるかに留意し,5段階評価を⾏った. ※評価尺度は次の通りです. (⾃然な⽇本語) 5 ‒ 4 ‒ 3 ‒ 2 - 1 (機械的な⽇本語) また、気がついた問題や箇所は下線のスペースに記⼊してください。 30

Slide 30

Slide 30 text

࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺Ͱͷ ධՁͷҰ෦ʢͦͷʣ (例⽂) 興味深い話がありますが、続けることがわかってきたという⼈が歩⾏不⾜です から。お酒を飲んでいたら、昔か ら「寝る⼦は育つ」と⾔うのは神様の業と⾔ えるのです。ですから、いつも幼⼦のようにしましょう!考えたりします。やは りちょっと添加物を旬なうちに運動をしてもらったらよいでしょうか?また、 健康診断はしっかり 歩くだけでは、さらに湿疹などになります。よくよく聞い てなるほどなーとも⾔えるのではなく、なぜか⾊々と 語られているのですが、 健康維持やダイエットにつながります。⼿軽に薬ではないでしょうか?⽼化防 ⽌にも沢 ⼭あるのです。ですから、お⽔や空気も⼊ります。もしハリが残って いるとか・・・?さて、今⽇のタイトルは「炭 酸⽔で薄めて飲んだらよいで しょうか?漢⽅の王様と⾔われています。そのくらい⾝体の健康についてです。 (351 ⽂字) 31

Slide 31

Slide 31 text

࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺Ͱͷ ධՁͷҰ෦ʢͦͷʣ ⽂章1(マルコフ連鎖) 2点 (実務者の評価) "1つ1つの⽂としては問題がないレベル。 ただし⽂章のつながり=⽂脈が⽀離滅裂のため、明らかに全体の⽂ 章としては⼈間の⽬から⾒て不⾃然。 例:⼿軽に薬ではないでしょうか?⽼化防⽌にも沢⼭あるのです。 ですから、お⽔や空気も⼊ります。 例えばこの⽂章は前後で繋がりがないようにみえる。ですから、の 後が繋がらないように感じる。" 32

Slide 32

Slide 32 text

࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺ͰͷධՁͷҰ෦ ʢͦͷʣ (例⽂) 私の知り合いの⽼⼈ Y さんは現在90才の元気な男性。Y さんの健康法は毎⽇ 2 時 間くらいは散歩を続ける事だ そうです。それも晴の⽇だけでなく、⾬の⽇も散歩 に⾏かれると⾔うのでびっくり。本⼈いわく「この年で仕事 もないので、私は散 歩する事が仕事と思って毎⽇歩いているので、⾬の⽇でも⾏きます。⾬だから今 ⽇は仕事が 休みとは普通ならないでしょう・・・」との事でした。流⽯に脱帽で す。 実はこんな事があったそうです。お 医者さんから「もう90才になるのだから、 あまり無理して歩かないほうがよいですよ。」と⾔われ、Y さんも 「そうか なー」と思い 1 ヶ⽉近く散歩を⽌めていました。そしたら、バス停から家までの 道のり約5分くらいの 緩やかな坂道が、途中に⼀度休まないと息が切れて歩けな くなったそうです。それで「これではまずい!」と思 って、また歩き始めて3週間 くらい歩き続けたら元に戻ったそうです。歩く事は健康の基本です。半⾝の静脈 の 流れを良くし、⾝体の基礎筋⾁を維持し、⼼肺機能を維持する事ができるので す。また、腰痛の70%はしっか り歩くだけでも改善されています。現代は飽⾷に よる肝脂肪が増えています。私も最近は運動不⾜なので、昨年 の10⽉からは⼦供 と毎⽉1回は⼭登りをするようにしています。皆さんも運動不⾜と思われる⽅は是 ⾮散歩を お勧め致します。毎⽇1時間は歩いてほしいですね (572⽂字) 33

Slide 33

Slide 33 text

࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺ͰͷධՁͷҰ෦ ʢͦͷʣ ⽂章2(⾃動要約) 5点(満点) (実務者の評価) 語句の使い⽅や⽂章としてきわめて⾃然であり、前後の⽂脈もつな がっている。この精度で⽂章⽣成であれば⼆重丸。 34

Slide 34

Slide 34 text

จষͷݴ͍׵͑ͱྨࣅ౓ͷݕ౼ • ⽂章⾃動⽣成は⼀⽂が⾃然な⽂章で⽂と⽂との間のつながりも⾃然 であること,これに加えて,盗作とならないことを考えた場合,元 の⽂章と新たに⽣成された⽂章との⾮類似度が⾼いことが求められ る. • そこでn-gram(n = 1, 2, 3, 4, 5)で類似度を求め,もう⼀⽅で係り 受け解析を⾏い複雑すぎる⽂になっていないかを考察してみた. • Googleは5-gramを⽤いているとの⾒解もあり,5-gramまでとした (⽂献[10]より). 35

Slide 35

Slide 35 text

ຊઅͰ༻͍ͨྫจ • 本節で⽤いた例⽂とそれを⾔い換えた⽂章、さらにもう⼀度⾔い換 えた⽂章を次に⽰す. • また⾔い換えは主に3種類⾏った. 1)名詞,形容詞,動詞,格助詞 2)能動態⇄受動態, 3)2つ以上の単語を1つの単語にまとめること 36

Slide 36

Slide 36 text

ຊઅͰͷݴ͍׵͑ͷྫ 1. ⾔い換え:2個 求⼈事情➡ 求職実態 知ろう➡ 把握しよう 2. ⾔い換え:4個 都⼼➡ 都会 近い➡ 隣接した ベッドタウン➡ ⼤型住宅地 商業エリア➡お店が並ぶ地域の 3. ⾔い換え:3個 県庁所在地➡ 中⼼ 最⼤の➡ ⼀番の 知られている➡ 伝えられている 37 4.⾔い換え5件 政治と経済の中⼼部は、横浜市中区や⻄区に 集約されています。 ⬇ 政治や経済の中⼼部が、横浜市中区と⻄区へ 集約できます。 5.⾔い換え4件 ⾺⾞道や⼭下公園、横浜中華街なども近くに 存在するため、観光地として知られていま す。 ⬇ ⾺⾞道と⼭下公園、横浜中華街などが近くへ 存在することで、観光地として知られていま す。

Slide 37

Slide 37 text

ຊઅͰ༻͍ͨྫจ • a (元の⽂章・⾔い換え前)456⽂字 • b(⼀回⽬の⾔い換え後 448⽂字) • c(2回⽬の⾔い換え後 405⽂字) 4.4.2 n-gram(n = 1-5)での定量化と⾔い 換え 回数について 以下のように定義した. a: 元の⽂章, b: aを⾔い換えた⽂章, c: bを⾔い換えた⽂章 38 aとcの類似度の⽐較 2-gram: 1.151 3-gram: 0.582 4-gram: 0.506 5-gram: 0.388 ・bとcの類似度の⽐較 2-gram: 1.386 3-gram: 0.798 4-gram: 0.3171 5-gram: 0.2075

Slide 38

Slide 38 text

OHSBN O ͰͷఆྔԽͱݴ͍׵͑ճ਺ʹ͍ͭͯ • a (元の⽂章・⾔い換え前)456⽂字 • b(⼀回⽬の⾔い換え後 448⽂字) • c(2回⽬の⾔い換え後 405⽂字) 4.4.2 n-gram(n = 1-5)での定量化と⾔い換え 回数について 以下のように定義した. a: 元の⽂章, b: aを⾔い換えた⽂章, c: bを⾔い換えた⽂章 aからbへの⾔い換え総数: 56回 bからcへの⾔い換え総数: 38回 39 aとcの類似度の⽐較 2-gram: 1.151 3-gram: 0.582 4-gram: 0.506 5-gram: 0.388 ・bとcの類似度の⽐較 2-gram: 1.386 3-gram: 0.798 4-gram: 0.3171 5-gram: 0.2075

Slide 39

Slide 39 text

ຊઅͰ༻͍ͨྫจ a (元の⽂章・⾔い換え前)456⽂字 横浜市の求⼈事情を知ろう。都⼼に近いベッドタウンと商業エリアが広がる 横浜市。神奈川県の県庁所在地でもあり、県内で最⼤の都市として知られて いるのが横浜市です。⾏政と経済の中⼼は、横浜市中区や⻄区に集まってい ます。⾺⾞道や⼭下公園、横浜中華街などもこの辺りにあるため、観光地と しても有名です。横浜港に⾯してホテルや商業施設、オフィスが建ち並ぶ横 浜みなとみらい21も、このエリアに含まれます。横浜市は⿊船来航といった 歴史的な背景もあり、洋⾵な建造物やインターナショナルスクール、外国⼈ を多くみかけるでしょう。横浜駅を中⼼に広がる繁華街や観光地では、飲⾷ 店やさまざまなショップが集まっています。私鉄や地下鉄が多数乗り⼊れて いることから、エリアによってはアクセスが便利で、都内のベッドタウンと しても⼈気です。横浜市には、⼤学のキャンパスも多いことから、学校の近 くや通いやすい場所でさまざまなアルバイトを探すことができるでしょう。 未経験から始められる職種、スキルが⾝に付くものなど、⾃分にあったバイ トを⾒つけることが可能です。 40

Slide 40

Slide 40 text

ຊઅͰ༻͍ͨྫจ b(⼀回⽬の⾔い換え後 448⽂字) 横浜市の求職実態を把握しよう。都会に隣接した⼤型住宅地とお店が並ぶ地 域の横浜市。神奈川県の中⼼でもあり、県内で⼀番の都市として伝えられて いるのが横浜市です。政治と経済の中⼼部は、横浜市中区や⻄区に集約され ています。⾺⾞道や⼭下公園、横浜中華街なども近くに存在するため、観光 地として知られています。横浜港に⾯してホテルや経済施設、商業施設が建 ち並ぶ横浜みなとみらい21も、この地域に含まれます。横浜市は⿊船来航と いった伝統的な事実もあり、⻄洋の建造や帰国⼦⼥の学校、海外旅⾏客を多 くみるでしょう。横浜駅を軸に広がるダウンタウンや観光地では、レストラ ンやさまざまなお店が並んでいます。私鉄や都営地下鉄が多くあることから、 地域によっては移動が楽で、都⼼の⼤型住宅地としても有名です。横浜市に は、カレッジの施設も多いことから、⼤学の近郊や通学しやすい点で多くの アルバイトを⾒つけることが可能でしょう。経験のない⼈から始められる職 業、技術が習得できるものなど、⾃分に適したアルバイトを⾒つけることが できます。 41

Slide 41

Slide 41 text

ຊઅͰ༻͍ͨྫจ c(2回⽬の⾔い換え後 405⽂字) 横浜市で求職実態を把握しよう。都会の隣接した⼤型住宅地とお店の並 ぶ地域の横浜市。神奈川県が中⼼でもあり、県内の⼀番の都市として伝 えられているのは横浜市です。政治や経済の中⼼部が、横浜市中区と⻄ 区へ集約できます。⾺⾞道と⼭下公園、横浜中華街などが近くへ存在す ることで、観光地として知られています。横浜港に⾯してホテルと経済 施設、商業施設の横浜みなとみらい21が、この地域に含んでいます。横 浜市の⿊船来航といった伝統的な事実があり、⻄洋の建造と海外旅⾏客 が多くみられるでしょう。横浜駅に広がる⾏楽地で、⾷堂と多くの ショップがあります。鉄道がたくさんあることから、場所によって、移 動が容易で、都⼼のベットタウンとして⼈気があります。横浜市では、 ⼤学の施設も多く、⼤学周辺や通学⾯でたくさんのアルバイトが⾒つか るでしょう。未経験から始められるジョブやスキルがマスターできるも のを、⾃分に合ったアルバイトを⾒つけられます。 42

Slide 42

Slide 42 text

ߟ࡯݁Ռ ・3-gram, 4-gram, 5-gramと⾔い換え回数と類似性との関係は負の関係 にあり, ・nが5に近づくほど、⾔い換え回数が⼤きく増⼤する. 43

Slide 43

Slide 43 text

• ैདྷͷࣗવݴޠॲཧγεςϜ • ϝϦοτɿ ݸผͷςʔϚʹରԠग़དྷΔɻ • σϝϦοτɿ౷ҰੑΛ୲อ͢Δ ͷʹࠔ೉Ͱɺͳ͔ͳ͔ਐ·ͳ͍ ͜ͱɻ Ὄ • 4FOUFODF0SEFSJOH • &OUJUZ(SJENPEFM 44 5.まとめ 課題1/3 Ԡ༻λεΫग़ྗ Ԡ༻λεΫ༻ग़ྗث ड़ޠ߲ߏ଄ೝࣝ ߏจղੳ ඼ࢺλά෇͚ ೖྗςΩετ ैདྷͷࣗવݴޠॲཧγεςϜ Ԡ༻܇࿅༻λεΫͷ ܇࿅σʔλ ݴޠղ ੳ༻ ෦෼ ໰୊ ༻ͷ܇ ࿅σʔ λ ※深層学習による⾃然⾔語処理 坪井・海野・鈴⽊ (2017) P4-6を引⽤

Slide 44

Slide 44 text

45 5.まとめ 課題2/3 ਂ૚ֶशʹΑΔࣗવݴޠॲཧγεςϜ Ԡ༻λεΫग़ྗ Ԡ༻λεΫ༻ग़ྗث ӅΕ૚ ӅΕ૚ ӅΕ૚ ೖྗςΩετ ϒϥο ΫϘο Ϋεʹ ͳͬͯ ͍Δʂ ֶश Ԡ༻܇࿅༻λεΫ ͷ܇࿅σʔλ • ਂ૚ֶशʹΑΔࣗવݴޠ ॲཧγεςϜ • ϝϦοτɿऴ࢝Ұ؏ͯ͠ *OQVUͱ0VUQVU͕ग़ͤ Δɻ • σϝϦοτɿݸผͷςʔ ϚʹରԠग़དྷΔɻ Ὄ • ("/ (FOFSBUJWF "EWFSTBSJBM/FUT ※深層学習 による⾃然 ⾔語処理 坪井・海 野・鈴⽊ (2017) P4- 6を引⽤

Slide 45

Slide 45 text

※深層学習による⾃然 ⾔語処理 坪井・海野・ 鈴⽊(2017) P4-6を引⽤ 5.まとめ 課題3/3 ֶश ֶश ֶश ֶश ֶश Ԡ༻λεΫग़ྗ Ԡ༻λεΫ༻ग़ྗث ड़ޠ߲ߏ଄ೝࣝ ߏจղੳ ඼ࢺλά෇͚ ೖྗςΩετ ैདྷͷࣗવݴޠॲཧγεςϜ Ԡ༻܇࿅༻λεΫͷ ܇࿅σʔλ ݴޠղ ੳ༻ ෦෼ ໰୊ ༻ͷ܇ ࿅σʔ λ ਂ૚ֶशʹΑΔࣗવݴޠॲཧγεςϜ Ԡ༻λεΫग़ྗ Ԡ༻λεΫ༻ग़ྗث ӅΕ૚ ӅΕ૚ ӅΕ૚ ೖྗςΩετ ・ い か に 両 立 さ せ ら れ る か が 鍵 を 考 え ら れ ま す !

Slide 46

Slide 46 text

• ⽂と⽂のつながりについては,⾃動要約との関連や⽂と⽂とのつなが りをentity-grid model[11]やSentence Orderingを⽤いて局所的なつなが りの良さを表現するなどの談話構造解析[9][10]がある. • しかし,⼿動で⾏う判断を⾃動化することが可能か試⾏錯誤中である. • Sentence orderingなどからヒントを得たいと考えている. • またディープラーニングを⽤いた⽅策としては,敵対的⽣成ネット ワーク(Generative Adversarial Network: GAN)による精度向上も精度向 上が期待され,実験中である. • 従って,今のところは完全⾃動化ではなく,⼈⼿を含めざる負えなく, 主に制御⽂による⽂章⾃動⽣成が無難と思われる. 47 5.総括

Slide 47

Slide 47 text

6. 今後の予定 • ⽂と⽂のつながりについては,次の⼿法で解決の⽷⼝を⾒出 すべく,取り組み中である. • 次回,次の項⽬を中⼼に報告させて頂きたいと考えておりま す. • [理論⾯: 論⽂サーベイ]Sentence Ordering, Coherence • [⼿法⾯: ⽂脈解析] Entity-grid model※1 • [⼿法⾯: 深層学習] GAN(⽣成系モデル) ※1 現在、⾃動要約との関連や⽂と⽂とのつながりをentity-gridを⽤いて局所的なつな がりの良さを表現するなどの談話構造解析があるが発展段階である. 48

Slide 48

Slide 48 text

ご清聴、どうもありがとうございました. 9/26発売! Juliaデータサイエンス https://goo.gl/3PkX6x 49 ◎機械学習や自然言語処理の業務も 可能な採用求人がございましたら、ぜ ひ、応募させてください! ➡ Wantedlyに履歴等が詳しくあり ます! https://www.wantedly.com/users/394 8982 太田 博三

Slide 49

Slide 49 text

質疑応答からのFB 同じものをこねくり回しているようなので、 GA 遺伝アルゴリズムのように、 あえて関係ない⽂(異物)を⼊れてみる。 ⇒試してみること、実験してみること! 広告のように、ハッと気を引くキーワードを⼊れてみる。 ⇒試してみること、実験してみること! マルコフ連鎖でやるより、隠れマルコフの⽅がいいのではないか。 マルコフ決定過程なども強化学習で⽤いられている。 ⇒試してみること、実験してみること! キャプションで⽂⽣成もあるので、できそうなのではないか。ヒントにな ると思われる。 ⇒試してみること、実験してみること! ・⾼橋先⽣より、進展があったら、⽂章⾃動⽣成の講義をビジネススクー ルでコードの説明も兼ねて、進捗を含めて、お伝えすること!GPUを使う こと! 50

Slide 50

Slide 50 text

51