Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文章自動生成に向けた非構造データの活用の一考察 -文と文とのつながりを課題として-

太田 博三
September 21, 2017

文章自動生成に向けた非構造データの活用の一考察 -文と文とのつながりを課題として-

アブストラクト(日本語)

ビックデータの時代が到来して数年が経過する.さらに,ここ数年の深層学習の発展は目覚しいものがあり,画像処理の分野だけでなく,自然言語処理や音声認識の分野まで及んでいる.本考察では,文章生成を実践し,そこで用いた主に3つの手法を比較考察する.1)マルコフ連鎖,2)自動要約,3)ディープラーニング(RNN/ LSTM)による文章生成.課題として,課題として,文と文とのつながりが不自然であることが検討される.実務で通用する自然な文と文とのつながりを検討する.

太田 博三

September 21, 2017
Tweet

More Decks by 太田 博三

Other Decks in Science

Transcript

  1. 文章自動生成に向けた非構造データの活用の一考察
    -文と文とのつながりを課題として-
    Comparative study of automatic sentence generation method
    - Issues and measures of connection among sentences in their generation -
    一般社団法人経営情報学会2017年秋季全国研究発表大会
    2017年9月21日(木)
    @岩手県立大学アイーナキャンパス・
    いわて県民情報交流センター(アイーナ)
    放送大学 教養学部 太田 博三

    View full-size slide

  2. 1. はじめに
    1.1 タスク設定について
    1.2 自然言語処理の研究区分について
    1.3 文章自動生成の入力の問題設定とその難しさについて
    1.4.文章自動生成のコンペティションのご照会
    3

    View full-size slide

  3. 1.1 文章自動生成のタスク設定
    ࠓճͷλεΫͷ
    ΰʔϧɿ
    ΫϥΠΞϯτʹɺ
    ͜͏͍͏ςΩετ
    จΛૠೖͯ͠΄͠
    ͍ʂͱ͍͏จΛࣗ
    ಈੜ੒͢Δ͜ͱͰ
    ͨ͠ɻ
    ʹۀ຿ޮ཰Խ
    4

    View full-size slide

  4. 1.1. 自然言語処理の研究区分
    (入力) (出力)
    テキスト ----------解析系--------à 情報
    情報 ----------生成系--------à テキスト
    図1.1 解析系と生成系
    ・解析系の研究とは,Amazonのレビューなどのポジ・ネガ判別
    ・生成系の研究とは,逆で入力はポジティブなどと判別された情報とは限らない.
    出力はテキストである.
    ・変換系の研究とは,機械翻訳など⼊⼒と出⼒が対価である場合.
    5
    解析系
    ⽣成系
    変換系

    View full-size slide

  5. 1.2. 文章自動生成の入力の問題設定とその難しさ
    ⽂章⾃動⽣成のアプリ開発の主な仕様を下記の2点とした.
    1. 剽窃になってはいけないこと,そのまま過去の⽂章の引⽤と
    ならないこと,
    2. 独⾃性があること,
    3. 300−500⽂字の⾃然な⽂章であること.
    <懸念点として考えられたこと>
    • 過去の⽂集合をもとに作られるため,独⾃性が出せなく、⾔い
    換えがうまく⾏かないと,本末転倒になりかねない.
    6

    View full-size slide

  6. 1.3. 文章自動生成のシンポジウムの歴史的概観
    • WEB上のコンテンツは「研究のためなら」引用先を明記すれ
    ば用いて良いとされている.
    • 昨今のニューラルネットワークの発展においても,ゴッホ風
    の画像やモーツァルト風の音楽まで出ており,著作権に関す
    る議論はあまり出ていない.
    cf. 東京五輪のエンブレムは主観で真似たと判断されている
    事例がある.
    →定量化できないものか?
    →評価基準の設定の問題
    →オリジナルであることの難しさ
    7

    View full-size slide

  7. จষࣗಈੜ੒ͷ஫໨౓
    • 文章自動生成のコンテストなど欧米で盛んである.
    E2E NLG Challenge
    http://www.macs.hw.ac.uk/InteractionLab/E2E/
    も開催されており,世界的に盛んである.
    cf. 文書自動要約(Text Summarization)は 10年以上前から盛んに
    行なわれている.
    8

    View full-size slide

  8. 2. 本研究で用いた手法
    2.1 マルコフ連鎖による文生成
    2.2 自動要約による文章自動生成
    2.3 リカレントニューラルネットワーク(RNN)/
    LSTM/GANによる文章自動生成
    9

    View full-size slide

  9. 2.1 各手法についての概観(イメージ)
    1. マルコフ連鎖による文生成
    2. 自動要約による文章自動生成
    3. リカレントニューラルネットワーク/
    LSTMによる文章自動生成
    ※この他にも制御文による
    フレームワークを用いた文章自動
    生成などもある.
    10

    View full-size slide

  10. 2.2 マルコフ連鎖による文生成
    • マルコフ性(Markov property)とは、
    次の状態が過去の状態に依存せず
    現在の状態のみによって
    決まる性質のことである.
    • 詳しくはこちらの記事をご参照ください!
    マルコフモデル ~概要から原理まで~ (前編)
    http://postd.cc/from-what-is-a-markov-model-to-here-is-
    how-markov-models-work-1/
    11

    View full-size slide

  11. ࣗಈཁ໿ʹΑΔจষࣗಈੜ੒
    • ⾃動要約の古典的なH. P. Luhnが⾃動要約の元祖と⾔われております.

    • テキスト中の重要な⽂を抜き出し,それを出現順に並べることによっ
    て,そのテキストを読むべきか否かを判定するといったスクリーニン
    グのための要約が⾃動⽣成できることを⽰したことが業績.
    • つまり,⾃動抄録に似ており,「理解し,再構成し,⽂章⽣成」とい
    うのではなく、「理解する箇所が重要部に近似する」と割り切って考
    えたもの.
    • 重要語の決定には,単語頻度を⽤いるなど,現在の⾃動要約の流れは,
    Luhnの影響が少なくない!
    12

    View full-size slide

  12. 2.4 リカレントニューラルネットワーク
    (RNN)/LSTM/GANによる文章自動生成
    • Andrej Karpathyのchar-rnnによるtiny shakespeare[7]が
    有名.
    • 今までの単語列として,もっともらしい次の単語を予測す
    ることをLong short term memory(LSTM)が担うもの.
    • Recurrent Neural Network(RNN)の拡張として,1995年
    に登場した時系列データに対するモデルまたは構造の⼀種
    である.
    • しかしLSTMでも,Epochが100を超えないとまともな⽂
    章になっていなかったり,GPUが必要になるなど,莫⼤な
    学習データと時間を要する.

    • そこで,GANなど教師なしの⽣成モデルに着⽬した. 13

    View full-size slide

  13. ࣮ݧ݁Ռ <>

    3.1 各⼿法の実験概要
    ➡ 約3ヶ⽉間
    (成果が出たら続ける
    というもの)
    3.2 各⼿法と好ましいと
    思われるデータ量
    (⽂字数)
    ➡ Minimumから
    始めて⾏きました
    14

    View full-size slide

  14. ֤ख๏ͷ࣮ݧ֓ཁ
    • 実験に⽤いたデータの概要:
    15

    View full-size slide

  15. ֤ख๏ͱ޷·͍͠ͱࢥΘΕΔσʔλྔ จࣈ਺

    • データ量の観点から,得られた実験結果([7])
    • 各⼿法と好ましいと思われる⽂字数(すごくいい加減です)
    1) マルコフ連鎖による文章の自動生成:100−200字程度の文書
    2) keras(RNN/ LSTM)による文章の自動生成:5000文字以上の文書
    3) Luhn による文章要約:1000字以上
    4) LexRank/ TextRank による文章要約:300−400文字以上
    5) tensorflow/ seq2seqによる文章自動要約:100000文字以上
    16

    View full-size slide

  16. 4. 実験結果([8])
    4.1 実験で⽤いた各⼿法の⻑所・短所
    4.2実験で⽤いた⽂章と評価の⼀部(その1)
    4.2.1 マルコフ連鎖による2つの⽂章の評価
    4.2.2 マルコフ連鎖による⽣成された⽂章例(2つ)
    4.2.2.1 マルコフ連鎖による⽣成された⽂章例その1
    4.2.2.2 マルコフ連鎖による⽣成された⽂章例その2
    4.3 実験で⽤いた⽂章と主観的なSEOの視点での評価の⼀部(その2)
    4.4 ⽂章の⾔い換えと類似度の検討
    4.4.1 本節で⽤いた例⽂
    4.4.2 n-gram(n = 1-5)での定量化と⾔い換え回数について
    4.4.3 考察結果
    17

    View full-size slide

  17. ࣮ݧͰ༻͍֤ͨख๏ͷ௕ॴɾ୹ॴ
    • [実験: 2パターンでの検証結果]
    1.(元データ)
    4.2.1 マルコフ連鎖による2つの⽂章の評価
    ・元の⽂章のままではない点が評価できる.
    ・元の⽂章が⻑い⽂章であれば,⽂と⽂のつながりはよくはないが
    悪くもない.
    ・内包表記などで⼯夫できれば簡易的で良い.
    18
    B L .
    K : : 3::7 / 034 19 5/2 065

    View full-size slide

  18. Ϛϧίϑ࿈࠯ʹΑΔੜ੒͞Εͨจষྫʢͭʣ
    19
    4.2.2.1 マルコフ連鎖による⽣成された⽂章例
    その1
    化粧⽔などで泡⽴ててくださいね。そのまま化粧⽔を
    防腐剤、安定剤や酸化亜鉛などの影響で、かさつかず
    しっとりとしました。ドクターズオーガニックの無添
    加化粧品の材料とコールドプロセス法によって製造す
    ることがわかります(新陳代謝が正常に導きます。ま
    たお⼿元に届くよう、⼀刻も早い安全性と、とても良
    い下地クリームにした作りになっていますが、抗菌仕
    様製品では次のような選び⽅が推奨されています。毎
    ⽇⾝体を動かすことで、⾃分達の基礎化粧品の中⾝を
    確かめてくださいね。無添加⽯鹸で…。油分を⼗分に
    補って、盲信は禁物です。ナイロンタオルやボディケ
    ア⽤品の基材としてよく使われています。という具合
    に⾃分の肌トラブルを起こさない、これは現実的に引
    き締まった感じがするかもしれませんよね?乾燥が気
    になることもあります。刺激感などの添加があります。
    (361⽂字)
    4.2.2.2 マルコフ連鎖による⽣成された⽂章例その2
    例えばクモノスカビの⼤きさを保ち、かさかさ、ボロ
    ボロに。⼀体何が無添加⽯鹸を泡⽴て、泡の保持のた
    め、ニキビ肌、敏感にしましょう。「今⽇はとても不
    ⾃然だと悪化します。また、脂肪を燃焼させ除去する
    ことフットクリームの全成分しかし、同時に流れは細
    胞から⼆酸化炭素や⽼廃物を回収してください。シア
    バター 1,800円(約70g)ご購⼊はこちらから」
    フットクリームの全成分漢⽅薬としては、洗浄感の良
    いハンドクリームには⽪膚がんの原因は消毒も殺菌し
    て作られますが、散乱剤②の2種類がありませんが、
    すでにたくさんの化粧⽔と、やわらかくて、たっぷり
    のお湯でお肌は、天然の成分かつて健康法として推奨
    された安全性はまだまだ不確かです。でも、必ずしも
    ⽯鹸が必要なわけでも、瞬間湯沸かし器などで泡⽴て
    てください。乾燥肌対策のため植物性油脂であっても、
    きれいな⽔だけで数百種類以上の化学成分を毎⽇肌に
    のせたりすることが⼤事です。原料への安全性はあり
    ません。この後、あるいはお⾵呂で体を温める効果の
    ある⼈々(活字関係)からは常温で固体のためのスキ
    ンケア (455⽂字)

    View full-size slide

  19. Ϛϧίϑ࿈࠯ʹΑΔੜ੒͞Εͨจষྫʢͭʣ
    20
    4.2.2.1 マルコフ連鎖による⽣成された⽂章例その1
    化粧水などで泡立ててくださいね。そのまま化粧水を防腐剤、安定剤や酸化亜
    鉛などの影響で、かさつかずしっとりとしました。ドクターズオーガニックの
    無添加化粧品の材料とコールドプロセス法によって製造することがわかります
    (新陳代謝が正常に導きます。またお手元に届くよう、一刻も早い安全性と、
    とても良い下地クリームにした作りになっていますが、抗菌仕様製品では次の
    ような選び方が推奨されています。毎日身体を動かすことで、自分達の基礎化
    粧品の中身を確かめてくださいね。無添加石鹸で…。油分を十分に補って、盲
    信は禁物です。ナイロンタオルやボディケア用品の基材としてよく使われてい
    ます。という具合に自分の肌トラブルを起こさない、これは現実的に引き締
    まった感じがするかもしれませんよね?乾燥が気になることもあります。刺激
    感などの添加があります。(361文字)

    View full-size slide

  20. Ϛϧίϑ࿈࠯ʹΑΔੜ੒͞Εͨจষྫʢͭʣ
    21
    4.2.2.2 マルコフ連鎖による⽣成された⽂章例その2
    例えばクモノスカビの大きさを保ち、かさかさ、ボロボロに。一体何が無添
    加石鹸を泡立て、泡の保持のため、ニキビ肌、敏感にしましょう。「今日は
    とても不自然だと悪化します。また、脂肪を燃焼させ除去することフットク
    リームの全成分しかし、同時に流れは細胞から二酸化炭素や老廃物を回収し
    てください。シアバター 1,800円(約70g)ご購入はこちらから」フットク
    リームの全成分漢方薬としては、洗浄感の良いハンドクリームには皮膚がん
    の原因は消毒も殺菌して作られますが、散乱剤②の2種類がありませんが、す
    でにたくさんの化粧水と、やわらかくて、たっぷりのお湯でお肌は、天然の
    成分かつて健康法として推奨された安全性はまだまだ不確かです。でも、必
    ずしも石鹸が必要なわけでも、瞬間湯沸かし器などで泡立ててください。乾
    燥肌対策のため植物性油脂であっても、きれいな水だけで数百種類以上の化
    学成分を毎日肌にのせたりすることが大事です。原料への安全性はありませ
    ん。この後、あるいはお風呂で体を温める効果のある人々(活字関係)から
    は常温で固体のためのスキンケア (455文字)

    View full-size slide

  21. ࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺Ͱͷ
    ධՁͷҰ෦ʢͦͷʣ
    • 以下の⽂章が⾃然であるかに留意し,5段階評価を⾏った.
    ※評価尺度は次の通りです.
    (⾃然な⽇本語) 5 ‒ 4 ‒ 3 ‒ 2 - 1 (機械的な⽇本語)
    また、気がついた問題や箇所は下線のスペースに記⼊してください。
    22

    View full-size slide

  22. ࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺Ͱͷ
    ධՁͷҰ෦ʢͦͷʣ
    (例⽂)
    興味深い話がありますが、続けることがわかってきたという⼈が歩⾏不⾜です
    から。お酒を飲んでいたら、昔か ら「寝る⼦は育つ」と⾔うのは神様の業と⾔
    えるのです。ですから、いつも幼⼦のようにしましょう!考えたりします。やは
    りちょっと添加物を旬なうちに運動をしてもらったらよいでしょうか?また、
    健康診断はしっかり 歩くだけでは、さらに湿疹などになります。よくよく聞い
    てなるほどなーとも⾔えるのではなく、なぜか⾊々と 語られているのですが、
    健康維持やダイエットにつながります。⼿軽に薬ではないでしょうか?⽼化防
    ⽌にも沢 ⼭あるのです。ですから、お⽔や空気も⼊ります。もしハリが残って
    いるとか・・・?さて、今⽇のタイトルは「炭 酸⽔で薄めて飲んだらよいで
    しょうか?漢⽅の王様と⾔われています。そのくらい⾝体の健康についてです。
    (351 ⽂字)
    23

    View full-size slide

  23. ࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺Ͱͷ
    ධՁͷҰ෦ʢͦͷʣ
    ⽂章1(マルコフ連鎖) 2点
    (実務者の評価)
    "1つ1つの⽂としては問題がないレベル。
    ただし⽂章のつながり=⽂脈が⽀離滅裂のため、明らかに全体の⽂
    章としては⼈間の⽬から⾒て不⾃然。
    例:⼿軽に薬ではないでしょうか?⽼化防⽌にも沢⼭あるのです。
    ですから、お⽔や空気も⼊ります。
    例えばこの⽂章は前後で繋がりがないようにみえる。ですから、の
    後が繋がらないように感じる。"
    24

    View full-size slide

  24. ࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺ͰͷධՁͷҰ෦
    ʢͦͷʣ
    (例⽂)
    私の知り合いの⽼⼈ Y さんは現在90才の元気な男性。Y さんの健康法は毎⽇ 2 時
    間くらいは散歩を続ける事だ そうです。それも晴の⽇だけでなく、⾬の⽇も散歩
    に⾏かれると⾔うのでびっくり。本⼈いわく「この年で仕事 もないので、私は散
    歩する事が仕事と思って毎⽇歩いているので、⾬の⽇でも⾏きます。⾬だから今
    ⽇は仕事が 休みとは普通ならないでしょう・・・」との事でした。流⽯に脱帽で
    す。 実はこんな事があったそうです。お 医者さんから「もう90才になるのだから、
    あまり無理して歩かないほうがよいですよ。」と⾔われ、Y さんも 「そうか
    なー」と思い 1 ヶ⽉近く散歩を⽌めていました。そしたら、バス停から家までの
    道のり約5分くらいの 緩やかな坂道が、途中に⼀度休まないと息が切れて歩けな
    くなったそうです。それで「これではまずい!」と思 って、また歩き始めて3週間
    くらい歩き続けたら元に戻ったそうです。歩く事は健康の基本です。半⾝の静脈
    の 流れを良くし、⾝体の基礎筋⾁を維持し、⼼肺機能を維持する事ができるので
    す。また、腰痛の70%はしっか り歩くだけでも改善されています。現代は飽⾷に
    よる肝脂肪が増えています。私も最近は運動不⾜なので、昨年 の10⽉からは⼦供
    と毎⽉1回は⼭登りをするようにしています。皆さんも運動不⾜と思われる⽅は是
    ⾮散歩を お勧め致します。毎⽇1時間は歩いてほしいですね (572⽂字)
    25

    View full-size slide

  25. ࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺ͰͷධՁͷҰ෦
    ʢͦͷʣ
    ⽂章2(⾃動要約) 5点(満点)
    (実務者の評価)
    語句の使い⽅や⽂章としてきわめて⾃然であり、前後の⽂脈もつな
    がっている。この精度で⽂章⽣成であれば⼆重丸。
    26

    View full-size slide

  26. จষͷݴ͍׵͑ͱྨࣅ౓ͷݕ౼
    • ⽂章⾃動⽣成は⼀⽂が⾃然な⽂章で⽂と⽂との間のつながりも⾃然
    であること,これに加えて,盗作とならないことを考えた場合,元
    の⽂章と新たに⽣成された⽂章との⾮類似度が⾼いことが求められ
    る.
    • そこでn-gram(n = 1, 2, 3, 4, 5)で類似度を求め,もう⼀⽅で係り
    受け解析を⾏い複雑すぎる⽂になっていないかを考察してみた.
    • Googleは5-gramを⽤いているとの⾒解もあり,5-gramまでとした
    (⽂献[10]より).
    27

    View full-size slide

  27. ຊઅͰ༻͍ͨྫจ
    • 本節で⽤いた例⽂とそれを⾔い換えた⽂章、さらにもう⼀度⾔い換
    えた⽂章を次に⽰す.
    • また⾔い換えは主に3種類⾏った.
    1)名詞,形容詞,動詞,格助詞
    2)能動態⇄受動態,
    3)2つ以上の単語を1つの単語にまとめること
    28

    View full-size slide

  28. ຊઅͰͷݴ͍׵͑ͷྫ
    1. ⾔い換え:2個
    求⼈事情➡ 求職実態
    知ろう➡ 把握しよう
    2. ⾔い換え:4個
    都⼼➡ 都会
    近い➡ 隣接した
    ベッドタウン➡ ⼤型住宅地
    商業エリア➡お店が並ぶ地域の
    3. ⾔い換え:3個
    県庁所在地➡ 中⼼
    最⼤の➡ ⼀番の
    知られている➡ 伝えられている
    29
    4.⾔い換え5件
    政治と経済の中⼼部は、横浜市中区や⻄区に
    集約されています。

    政治や経済の中⼼部が、横浜市中区と⻄区へ
    集約できます。
    5.⾔い換え4件
    ⾺⾞道や⼭下公園、横浜中華街なども近くに
    存在するため、観光地として知られていま
    す。

    ⾺⾞道と⼭下公園、横浜中華街などが近くへ
    存在することで、観光地として知られていま
    す。

    View full-size slide

  29. ຊઅͰ༻͍ͨྫจ
    • a (元の⽂章・⾔い換え前)456⽂字
    • b(⼀回⽬の⾔い換え後 448⽂字)
    • c(2回⽬の⾔い換え後 405⽂字)
    4.4.2 n-gram(n = 1-5)での定量化と⾔い
    換え
    回数について
    以下のように定義した.
    a: 元の⽂章,
    b: aを⾔い換えた⽂章,
    c: bを⾔い換えた⽂章
    30
    aとcの類似度の⽐較
    2-gram: 1.151
    3-gram: 0.582
    4-gram: 0.506
    5-gram: 0.388
    ・bとcの類似度の⽐較
    2-gram: 1.386
    3-gram: 0.798
    4-gram: 0.3171
    5-gram: 0.2075

    View full-size slide

  30. OHSBN O
    ͰͷఆྔԽͱݴ͍׵͑ճ਺ʹ͍ͭͯ
    • a (元の⽂章・⾔い換え前)456⽂字
    • b(⼀回⽬の⾔い換え後 448⽂字)
    • c(2回⽬の⾔い換え後 405⽂字)
    4.4.2 n-gram(n = 1-5)での定量化と⾔い換え
    回数について
    以下のように定義した.
    a: 元の⽂章,
    b: aを⾔い換えた⽂章,
    c: bを⾔い換えた⽂章
    aからbへの⾔い換え総数: 56回
    bからcへの⾔い換え総数: 38回
    31
    aとcの類似度の⽐較
    2-gram: 1.151
    3-gram: 0.582
    4-gram: 0.506
    5-gram: 0.388
    ・bとcの類似度の⽐較
    2-gram: 1.386
    3-gram: 0.798
    4-gram: 0.3171
    5-gram: 0.2075

    View full-size slide

  31. ຊઅͰ༻͍ͨྫจ
    a (元の⽂章・⾔い換え前)456⽂字
    横浜市の求⼈事情を知ろう。都⼼に近いベッドタウンと商業エリアが広がる
    横浜市。神奈川県の県庁所在地でもあり、県内で最⼤の都市として知られて
    いるのが横浜市です。⾏政と経済の中⼼は、横浜市中区や⻄区に集まってい
    ます。⾺⾞道や⼭下公園、横浜中華街などもこの辺りにあるため、観光地と
    しても有名です。横浜港に⾯してホテルや商業施設、オフィスが建ち並ぶ横
    浜みなとみらい21も、このエリアに含まれます。横浜市は⿊船来航といった
    歴史的な背景もあり、洋⾵な建造物やインターナショナルスクール、外国⼈
    を多くみかけるでしょう。横浜駅を中⼼に広がる繁華街や観光地では、飲⾷
    店やさまざまなショップが集まっています。私鉄や地下鉄が多数乗り⼊れて
    いることから、エリアによってはアクセスが便利で、都内のベッドタウンと
    しても⼈気です。横浜市には、⼤学のキャンパスも多いことから、学校の近
    くや通いやすい場所でさまざまなアルバイトを探すことができるでしょう。
    未経験から始められる職種、スキルが⾝に付くものなど、⾃分にあったバイ
    トを⾒つけることが可能です。
    32

    View full-size slide

  32. ຊઅͰ༻͍ͨྫจ
    b(⼀回⽬の⾔い換え後 448⽂字)
    横浜市の求職実態を把握しよう。都会に隣接した⼤型住宅地とお店が並ぶ地
    域の横浜市。神奈川県の中⼼でもあり、県内で⼀番の都市として伝えられて
    いるのが横浜市です。政治と経済の中⼼部は、横浜市中区や⻄区に集約され
    ています。⾺⾞道や⼭下公園、横浜中華街なども近くに存在するため、観光
    地として知られています。横浜港に⾯してホテルや経済施設、商業施設が建
    ち並ぶ横浜みなとみらい21も、この地域に含まれます。横浜市は⿊船来航と
    いった伝統的な事実もあり、⻄洋の建造や帰国⼦⼥の学校、海外旅⾏客を多
    くみるでしょう。横浜駅を軸に広がるダウンタウンや観光地では、レストラ
    ンやさまざまなお店が並んでいます。私鉄や都営地下鉄が多くあることから、
    地域によっては移動が楽で、都⼼の⼤型住宅地としても有名です。横浜市に
    は、カレッジの施設も多いことから、⼤学の近郊や通学しやすい点で多くの
    アルバイトを⾒つけることが可能でしょう。経験のない⼈から始められる職
    業、技術が習得できるものなど、⾃分に適したアルバイトを⾒つけることが
    できます。
    33

    View full-size slide

  33. ຊઅͰ༻͍ͨྫจ
    c(2回⽬の⾔い換え後 405⽂字)
    横浜市で求職実態を把握しよう。都会の隣接した⼤型住宅地とお店の並
    ぶ地域の横浜市。神奈川県が中⼼でもあり、県内の⼀番の都市として伝
    えられているのは横浜市です。政治や経済の中⼼部が、横浜市中区と⻄
    区へ集約できます。⾺⾞道と⼭下公園、横浜中華街などが近くへ存在す
    ることで、観光地として知られています。横浜港に⾯してホテルと経済
    施設、商業施設の横浜みなとみらい21が、この地域に含んでいます。横
    浜市の⿊船来航といった伝統的な事実があり、⻄洋の建造と海外旅⾏客
    が多くみられるでしょう。横浜駅に広がる⾏楽地で、⾷堂と多くの
    ショップがあります。鉄道がたくさんあることから、場所によって、移
    動が容易で、都⼼のベットタウンとして⼈気があります。横浜市では、
    ⼤学の施設も多く、⼤学周辺や通学⾯でたくさんのアルバイトが⾒つか
    るでしょう。未経験から始められるジョブやスキルがマスターできるも
    のを、⾃分に合ったアルバイトを⾒つけられます。
    34

    View full-size slide

  34. ߟ࡯݁Ռ
    ・3-gram, 4-gram, 5-gramと⾔い換え回数と類似性との関係は負の関係
    にあり,
    ・nが5に近づくほど、⾔い換え回数が⼤きく増⼤する.
    35

    View full-size slide

  35. • ैདྷͷࣗવݴޠॲཧγες
    Ϝ
    • ϝϦοτɿ
    ݸผͷςʔϚʹରԠग़དྷΔɻ
    • σϝϦοτɿ౷ҰੑΛ୲อ
    ͢Δͷʹࠔ೉Ͱɺͳ͔ͳ͔
    ਐ·ͳ͍͜ͱɻ
    36
    5.まとめ 課題1/3
    Ԡ༻λεΫग़ྗ
    Ԡ༻λεΫ༻ग़ྗث
    ड़ޠ߲ߏ଄ೝࣝ
    ߏจղੳ
    ඼ࢺλά෇͚
    ೖྗςΩετ
    ैདྷͷࣗવݴޠॲཧγεςϜ
    Ԡ༻܇࿅༻λεΫͷ
    ܇࿅σʔλ
    ݴޠղ
    ੳ༻
    ෦෼
    ໰୊

    ༻ͷ܇
    ࿅σʔ
    λ
    ※深層学習による⾃然⾔語処理 坪井・海野・鈴⽊
    (2017) P4-6を引⽤

    View full-size slide

  36. 37
    5.まとめ 課題2/3
    ਂ૚ֶशʹΑΔࣗવݴޠॲཧγεςϜ
    Ԡ༻λεΫग़ྗ
    Ԡ༻λεΫ༻ग़ྗث
    ӅΕ૚
    ӅΕ૚
    ӅΕ૚
    ೖྗςΩετ
    ϒϥο
    ΫϘο
    Ϋεʹ
    ͳͬͯ
    ͍Δʂ
    ֶश
    Ԡ༻܇࿅༻λεΫ
    ͷ܇࿅σʔλ
    • ਂ૚ֶशʹΑΔࣗવݴޠ
    ॲཧγεςϜ
    • ϝϦοτɿऴ࢝Ұ؏ͯ͠
    *OQVUͱ0VUQVU͕ग़ͤ
    Δɻ
    • σϝϦοτɿݸผͷςʔ
    ϚʹରԠग़དྷΔɻ
    ※深層学習による⾃然⾔語処理 坪井・海野・鈴⽊
    (2017) P4-6を引⽤

    View full-size slide

  37. ※深層学習による⾃然
    ⾔語処理 坪井・海野・
    鈴⽊(2017) P4-6を引⽤
    5.まとめ 課題3/3
    ֶश
    ֶश
    ֶश
    ֶश ֶश
    Ԡ༻λεΫग़ྗ
    Ԡ༻λεΫ༻ग़ྗث
    ड़ޠ߲ߏ଄ೝࣝ
    ߏจղੳ
    ඼ࢺλά෇͚
    ೖྗςΩετ
    ैདྷͷࣗવݴޠॲཧγεςϜ
    Ԡ༻܇࿅༻λεΫͷ
    ܇࿅σʔλ
    ݴޠղ
    ੳ༻
    ෦෼
    ໰୊

    ༻ͷ܇
    ࿅σʔ
    λ
    ਂ૚ֶशʹΑΔࣗવݴޠॲཧγεςϜ
    Ԡ༻λεΫग़ྗ
    Ԡ༻λεΫ༻ग़ྗث
    ӅΕ૚
    ӅΕ૚
    ӅΕ૚
    ೖྗςΩετ

    View full-size slide

  38. • ⽂と⽂のつながりについては,⾃動要約との関連や⽂と⽂とのつなが
    りをentity-grid model[11]やSentence Orderingを⽤いて局所的なつ
    ながりの良さを表現するなどの談話構造解析[9][10]がある.
    • しかし,⼿動で⾏う判断を⾃動化することが可能か試⾏錯誤中である.
    • Sentence orderingなどからヒントを得たいと考えている.
    • またディープラーニングを⽤いた⽅策としては,敵対的⽣成ネット
    ワーク(Generative Adversarial Network: GAN)による精度向上も精度向上
    が期待され,実験中である.
    • 従って,今のところは完全⾃動化ではなく,⼈⼿を含めざる負えなく,
    主に制御⽂による⽂章⾃動⽣成が無難と思われる.
    39
    5.総括

    View full-size slide

  39. 6. 今後の予定
    • ⽂と⽂のつながりについては,次の⼿法で解決の⽷⼝を⾒出
    すべく,取り組み中である.
    • 次回,次の項⽬を中⼼に報告させて頂きたいと考えておりま
    す.
    • [理論⾯: 論⽂サーベイ]Sentence Ordering, Coherence
    • [⼿法⾯: ⽂脈解析] Entity-grid model※1
    • [⼿法⾯: 深層学習] GAN(⽣成系モデル)
    ※1 現在、⾃動要約との関連や⽂と⽂とのつながりをentity-gridを⽤いて局所的なつな
    がりの良さを表現するなどの談話構造解析があるが発展段階である.
    40

    View full-size slide

  40. ご清聴、どうもありがとうございました.
    9/26発売!
    Juliaデータサイエンス
    https://goo.gl/3PkX6x
    41
    ◎機械学習や自然言語処理の業務も
    可能な採用求人がございましたら、ぜ
    ひ、応募させてください!
    ➡ Wantedlyに履歴等が詳しくあり
    ます!
    https://www.wantedly.com/users/394
    8982
    太田 博三

    View full-size slide