Upgrade to Pro — share decks privately, control downloads, hide ads and more …

メディアにおけるAI活用とAWSに期待すること / JAWS DAYS 2019 (ICTRAD)

メディアにおけるAI活用とAWSに期待すること / JAWS DAYS 2019 (ICTRAD)

2019年2月23日 JAWS DAYS 2019
朝日新聞社・ICTRAD(研究開発チーム)では、AI(機械学習)を活用した様々な取り組みをしています。今回、2018年に公開したクイズの自動生成と高校野球戦評記事の自動生成を題材に、その研究開発手法やAWSの使い方を紹介するとともに、今後AWSに期待したいことについて共有します。
クイズサービス  "https://qrich.asahi.com"
高校野球戦評記事 "http://www.asahi.com/sports/baseball/ai-news/"

Akihiko Sado

February 21, 2019
Tweet

Other Decks in Technology

Transcript

  1. メディアにおけるAI活用と
    AWSに期待すること
    ~時事クイズと高校野球戦評記事の自動生成~
    2019/02/23 JAWS DAYS 2019
    株式会社朝日新聞社
    情報技術本部 開発部(ICTRAD)
    佐渡 昭彦(Akihiko Sado)
    ©The Asahi Shimbun Company 2019

    View Slide

  2. 自己紹介
    • 氏名 佐渡 昭彦
    • 年齢 40歳(2003年入社)
    • 社歴 新聞輸送管理、システム構築・運用
    セキュリティ・ネットワーク、スタンフォード留学
    ICTRAD(研究開発チーム)
    • 趣味 サッカー(プレーするのも見るのも)
    スキー(主にコブ斜面)、海外旅行
    ©The Asahi Shimbun Company 2019

    View Slide

  3. ICTRADとは
    情報技術本部(技術系)内にある研究開発チーム
    目標:社内外の課題をICTの力で解決していく
    →プロトタイプを作りながら実用化を目指す
    →メディアラボ(新規事業や自然言語処理の研究)と協力
    • 編集業務の生産性向上
    serverlessなアプローチ(JAWS2018)
    • 自動見出し生成、自動要約、自動校正(メディアラボ)
    機械学習を用いた取り組み(AWS Summit 2018)
    • 単語ベクトル(メディアラボ)
    • 時事クイズの自動生成
    • 高校野球戦評記事の自動生成
    本日紹介
    ©The Asahi Shimbun Company 2019

    View Slide

  4. それでは、第一問
    JAWS-UGとは、AWS (Amazon Web Services) が提供
    する______を利用する人々の集まりです。
    ① 電子決済
    ② クラウドコンピューティング
    ③ ビッグデータ
    ④ インターネットサービス
    ©The Asahi Shimbun Company 2019

    View Slide

  5. クイズ自動生成
    • 毎日大量に出稿されるニュース記事を利用
    • 利用した技術(重要語抽出、単語ベクトル)
    • サーバー構成
    朝日新聞 2月4日朝刊 総合2面
    ©The Asahi Shimbun Company 2019

    View Slide

  6. Motivation
    • ニュースを読まない学生が非常に多い
    • 時事ニュースに触れる機会を増やす
    https://qrich.asahi.com/
    ©The Asahi Shimbun Company 2019

    View Slide

  7. クイズ生成フロー
    ©The Asahi Shimbun Company 2019

    View Slide

  8. 重要語抽出①
    • AWS Comprehend 中距離 名詞
    核 名詞
    戦力 名詞
    全廃 名詞
    条約 名詞
    から 助詞
    の 助詞
    中距離核戦力全廃条約からの
    中距離核戦力全廃条約
    名詞,固有名詞
    から 助詞
    の 助詞
    大量の記事を学習
    形態素解析
    複合語
    ①形態素解析
    ②複合語で意味をとらえる
    ③過去記事50万件を学習して重要語抽出
    • 東大・横国大のオープンソース
    「専門用語自動抽出システム」を活用
    日本語未対応
    ©The Asahi Shimbun Company 2019

    View Slide

  9. 重要語抽出②
    3
    2
    4
    1
    朝日新聞 2月4日朝刊 総合2面
    304.322
    ‘ 214.609
    ‘ 419.818
    320.252
    87.4
    41.2
    ©The Asahi Shimbun Company 2019

    View Slide

  10. 単語ベクトル
    • 単語ベクトルとは
    単語の特徴を数値(ベクトル)で表現したもの
    <例えば>
    「王」という単語から「男」を引いて「女」を足した結果の性質に近い単語は?
    (‘女帝’, 0.6063517332077026), ('女王', 0.6007771492004395),
    ('君王', 0.5941751003265381), ('クィーン', 0.583606481552124)
    ©The Asahi Shimbun Company 2019

    View Slide

  11. 朝日単語ベクトル
    • 朝日新聞単語ベクトルを公開
    • 記事800万件から学習
    • 類似度の近い言葉を検出
    (時事関連に強い)
    http://www.asahi.com/shimbun/medialab/word_embedding/
    抽出した重要語に近い言葉を
    クイズの選択肢として利用
    ©The Asahi Shimbun Company 2019

    View Slide

  12. 当初はこんなギャグも・・・
    12日の______で最大の焦点となるのは、北朝鮮の非核
    化の行方だ。
    米朝首脳会談
    「人名」「地名」などの固有名詞を考慮した
    類義語を抽出するよう修正
    朝日新聞 2018年6月12日朝刊 総合3面
    ① 枝雀 ② 桂春団治 ③ ④ 米団治
    ©The Asahi Shimbun Company 2019

    View Slide

  13. まだ対応できていないものも・・・
    トヨタ自動車と______は4日午後、移動サービス事業で業務提携
    すると発表した。自動運転車を使った無人タクシーや宅配などを
    目指す共同出資会社を設立する。会見ではトヨタの豊田章男社長
    と______の孫正義会長兼社長が顔を並べ、モビリティー社会の未
    来から、20年前の出会いについても語り合った。
    ソフトバンク
    AWS Comprehendの日本語版が出る時に
    対応できることを期待
    朝日新聞デジタル 2018年10月04日
    ① オリックス ② ③日本ハム ④ロッテ
    ©The Asahi Shimbun Company 2019

    View Slide

  14. 構成
    フロントはGCPを利用
    →SNS認証はGCPの方が構築が簡単
    ©The Asahi Shimbun Company 2019

    View Slide

  15. では、第二問
    常葉大菊川の1番奈良間が強力打
    線を引っ張った。一回に中越えの
    二塁打、四回には低めのボール球
    を強振して、バックスクリーンま
    で運ぶ2ラン。「まさか入るとは
    思わなかった」と笑った。静岡大
    会では驚異の8割1分8厘。「好
    調が続いている感じ。リラックス
    して打席に入れている」と充実感
    をにじませた。
    両チーム合わせて22安打のシー
    ソーゲームを常葉大菊川が制した。
    3回に1点差をひっくり返し、再
    びリードを奪われた8回も敵失な
    どで逆転。益田東は3回、首藤の
    左適時打により先制。7回は、稲
    林の右中間適時三塁打や佐野の中
    適時打などで逆転する粘りを見せ
    た。
    記者と自動生成、どっちがどっちの記事でしょうか?
    記者
    自動生成
    ©The Asahi Shimbun Company 2019

    View Slide

  16. では、第三問
    日大三は八回、2死満塁から金子
    の押し出し死球で勝ち越し、競り
    勝った。三回に金子の本塁打など
    で先行すると、2度追いつかれた
    が一度もリードを許さなかった。
    龍谷大平安は小寺が粘りの投球を
    したが、八回の失点に失策が絡む
    など、守備が乱れた。
    日大三が長打を絡めて得点し勝利
    した。三回、大会第45号となる
    金子の中越え本塁打で先行。同点
    で迎えた八回は中村の左二塁打と
    四球などで2死満塁とし、押し出
    しで勝ち越した。龍谷大平安は小
    寺の中適時打など五、七回に2度
    追いつく粘りを見せたが、競り負
    けた。
    記者と自動生成、どっちがどっちの記事でしょうか?
    記者 自動生成
    これは記者でも判別が困難
    ©The Asahi Shimbun Company 2019

    View Slide

  17. 高校野球戦評記事の自動生成
    • 夏の高校野球大会は朝日新聞社主催
    • 2018年夏の甲子園は第100回の記念大会
    ©The Asahi Shimbun Company 2019

    View Slide

  18. 戦評記事とは
    野球の試合のポイントを短い文字数で伝える記事
    星稜が長短打を集めて快勝した。一回無
    死から遊ゴロ併殺打の間に先制。同点で
    迎えた三回、河井の右中間適時三塁打で
    勝ち越した。藤蔭は二回に武井の一二塁
    間適時打で同点に追いついた。八回にも
    加点したが、及ばなかった。
    自動生成
    ©The Asahi Shimbun Company 2019

    View Slide

  19. 実現方法検討(非採用方式)
    戦評記事
    スコアテーブル
    約8万件のセット
    AI
    Deeplearning
    (LSTM)
    電子スコアブック
    (スコア・詳細
    データ)
    試合の詳細成績など
    (電子化されていない)
    文章を自動生成 戦評記事
    • 詳細成績データは手書きのスコアブック
    →手書きのためOCRは難しい。AWS RekognitionやTextractは日本語未対応
    • 記事は正確である必要がある
    →機械学習は試合に関係のない表現を出力してしまうこともある
    こういう試合では
    こういう戦評になる
    というのを大量に
    覚え込ませる
    ©The Asahi Shimbun Company 2019

    View Slide

  20. 実現方法検討(採用方式)
    戦評記事
    スコアテーブル
    約8万件のセット
    AI
    データ解析・
    分類
    (機械学習)
    電子スコアブック
    (スコア・詳細
    データ)
    戦評記事
    ルールに基づいた戦評記事を自動生成
    →文章の修正などもコントロール可能
    試合分析
    (タグ付与)

    テンプレート

    戦評記事
    過去試合の分析
    試合内容の分析
    表現の分析
    ©The Asahi Shimbun Company 2019

    View Slide

  21. 過去データの分析①
    1. データの前処理(関連付けやデータクレンジング)
    戦評記事とスコアデータ8万件
    2. 戦評記事から試合の流れを分類
    KHcoder等を利用して戦評記事の中の
    頻出ワードを抽出し共起語を分析
    ある試合の流れで利用するワードとして選択
    3. スコアデータから試合の流れを分類
    試合タグ付与等に活用
    ©The Asahi Shimbun Company 2019

    View Slide

  22. 過去データの分析②
    4. 代表的な戦評記事をテンプレート化
    抽出したワードを含む戦評記事をword2vecでベクトル化
    K-Meansを使って50分類にクラスタリング
    そこで得られた代表的な文章を使い、テンプレートに応用
    5. 戦評を学習させた単語ベクトルを作成
    8万件の戦評記事を使い、高校野球用の単語ベクトルを作成
    そこから同義語を抽出して、表現の豊かさに利用
    ©The Asahi Shimbun Company 2019

    View Slide

  23. 戦評記事生成の流れ
    試合にフォーカスし
    たデータを格納
    スコアブック
    データ
    選手にフォーカスし
    たデータを格納
    チームの戦歴を格納
    チーム戦歴テーブル
    選手情報テーブル
    打席・イニング・
    試合タグ
    特徴タグ
    (打者、投手)
    特徴タグ
    (チーム)
    特徴タグ
    (打者、投手)
    選手戦歴テーブル
    選手の戦歴を格納 特徴タグ
    (打者、投手)
    事前に用意した
    テンプレートを
    当てはめて
    戦評記事を生成
    ※約100万パターン可能
    試合情報テーブル
    ©The Asahi Shimbun Company 2019

    View Slide

  24. テンプレートから記事作成
    勝ち越し 先制点
    ①試合結果サマリー ②勝者視点の試合経過
    (決勝点の場面など)
    ③敗者視点の試合経過
    決勝点 逆転
    完投 二けた奪三振
    逆転サヨナラ
    投手戦 準々決勝
    テンプレート テンプレート テンプレート
    <テンプレート>>
    ①息詰まる投手戦を%KEY-勝者チーム%が逆転サヨナラで制し、準決勝進出を決
    めた。
    ②(省略)
    ③%KEY-敗者チーム%は%修飾1_先制点イニング%回、%修飾1_先制点動き%
    先行。%修飾1_勝ち越し点イニング%回は%修飾1_勝ち越し点動き%勝ち越した
    が、リードを守り切れなかった。
    ©The Asahi Shimbun Company 2019

    View Slide

  25. 構成
    • 実は、EC2 1台しか使っていません
    • 事前分析にはオープンソースのソフトウエアを利用
    • K-means等はSageMakerでも可能だったが、既に社内に
    ノウハウがあり利用しなかった
    ©The Asahi Shimbun Company 2019

    View Slide

  26. まだ、こんな戦評も・・・
    【自動生成】息詰まる投手戦を金足農が逆転サヨナラで制し、準決勝進出を
    決めた。1点を追う九回、無死満塁から斎藤のスクイズで逆転し、勝負を決
    めた。先発吉田は被安打7、10奪三振、2失点で4試合連続の完投。近江
    は四回、住谷の右適時二塁打により先行。六回は北村の三遊間適時打で勝ち
    越したが、リードを守り切れなかった。
    【記者】金足農は1点を追う九回、無死満塁から斎藤の三前2ランスクイズ
    でサヨナラ勝ち。五回にも佐々木大夢のスクイズで一時同点とした。先発の
    吉田は7安打、10奪三振の力投。近江は五回から佐合を継いだ林が変化球
    を軸に好投したが、九回の奇襲に屈した。
    2018年8月18日準々決勝第4試合
    近江 0 0 0 1 0 1 0 0 0 | 2
    金足農 0 0 0 0 1 0 0 0 2 | 3
    稀有のパターンに弱い
    →小まめに追加?
    →手法の変更?
    スコアブックにないデータ
    →映像?Rekognition?
    ©The Asahi Shimbun Company 2019

    View Slide

  27. まとめ
    • 朝日新聞社の資産は、毎日生成される記事と写真
    (過去30年分以上がデジタル化)
    • AI(機械学習)を活用して新しいことにも挑戦
    (クイズや記事の自動生成など)
    • AWSを含めたインフラやツールは適材適所で利用
    (新聞メディアでは精度を求められることも多々ある)
    • AWSサービスの進化に期待
    (日本語の自然言語処理サービス、画像認識、SNSとの連携等)
    ©The Asahi Shimbun Company 2019

    View Slide