$30 off During Our Annual Pro Sale. View Details »

メディアにおけるAI活用とAWSに期待すること / JAWS DAYS 2019 (ICTRAD)

Akihiko Sado
February 21, 2019

メディアにおけるAI活用とAWSに期待すること / JAWS DAYS 2019 (ICTRAD)

2019年2月23日 JAWS DAYS 2019
朝日新聞社・ICTRAD(研究開発チーム)では、AI(機械学習)を活用した様々な取り組みをしています。今回、2018年に公開したクイズの自動生成と高校野球戦評記事の自動生成を題材に、その研究開発手法やAWSの使い方を紹介するとともに、今後AWSに期待したいことについて共有します。
クイズサービス  "https://qrich.asahi.com"
高校野球戦評記事 "http://www.asahi.com/sports/baseball/ai-news/"

Akihiko Sado

February 21, 2019
Tweet

Other Decks in Technology

Transcript

  1. 自己紹介 • 氏名 佐渡 昭彦 • 年齢 40歳(2003年入社) • 社歴

    新聞輸送管理、システム構築・運用 セキュリティ・ネットワーク、スタンフォード留学 ICTRAD(研究開発チーム) • 趣味 サッカー(プレーするのも見るのも) スキー(主にコブ斜面)、海外旅行 ©The Asahi Shimbun Company 2019
  2. それでは、第一問 JAWS-UGとは、AWS (Amazon Web Services) が提供 する______を利用する人々の集まりです。 ① 電子決済 ②

    クラウドコンピューティング ③ ビッグデータ ④ インターネットサービス ©The Asahi Shimbun Company 2019
  3. 重要語抽出① • AWS Comprehend 中距離 名詞 核 名詞 戦力 名詞

    全廃 名詞 条約 名詞 から 助詞 の 助詞 中距離核戦力全廃条約からの 中距離核戦力全廃条約 名詞,固有名詞 から 助詞 の 助詞 大量の記事を学習 形態素解析 複合語 ①形態素解析 ②複合語で意味をとらえる ③過去記事50万件を学習して重要語抽出 • 東大・横国大のオープンソース 「専門用語自動抽出システム」を活用 日本語未対応 ©The Asahi Shimbun Company 2019
  4. 重要語抽出② 3 2 4 1 朝日新聞 2月4日朝刊 総合2面 304.322 ‘

    214.609 ‘ 419.818 320.252 87.4 41.2 ©The Asahi Shimbun Company 2019
  5. では、第二問 常葉大菊川の1番奈良間が強力打 線を引っ張った。一回に中越えの 二塁打、四回には低めのボール球 を強振して、バックスクリーンま で運ぶ2ラン。「まさか入るとは 思わなかった」と笑った。静岡大 会では驚異の8割1分8厘。「好 調が続いている感じ。リラックス して打席に入れている」と充実感

    をにじませた。 両チーム合わせて22安打のシー ソーゲームを常葉大菊川が制した。 3回に1点差をひっくり返し、再 びリードを奪われた8回も敵失な どで逆転。益田東は3回、首藤の 左適時打により先制。7回は、稲 林の右中間適時三塁打や佐野の中 適時打などで逆転する粘りを見せ た。 記者と自動生成、どっちがどっちの記事でしょうか? 記者 自動生成 ©The Asahi Shimbun Company 2019
  6. では、第三問 日大三は八回、2死満塁から金子 の押し出し死球で勝ち越し、競り 勝った。三回に金子の本塁打など で先行すると、2度追いつかれた が一度もリードを許さなかった。 龍谷大平安は小寺が粘りの投球を したが、八回の失点に失策が絡む など、守備が乱れた。 日大三が長打を絡めて得点し勝利

    した。三回、大会第45号となる 金子の中越え本塁打で先行。同点 で迎えた八回は中村の左二塁打と 四球などで2死満塁とし、押し出 しで勝ち越した。龍谷大平安は小 寺の中適時打など五、七回に2度 追いつく粘りを見せたが、競り負 けた。 記者と自動生成、どっちがどっちの記事でしょうか? 記者 自動生成 これは記者でも判別が困難 ©The Asahi Shimbun Company 2019
  7. 実現方法検討(非採用方式) 戦評記事 スコアテーブル 約8万件のセット AI Deeplearning (LSTM) 電子スコアブック (スコア・詳細 データ)

    試合の詳細成績など (電子化されていない) 文章を自動生成 戦評記事 • 詳細成績データは手書きのスコアブック →手書きのためOCRは難しい。AWS RekognitionやTextractは日本語未対応 • 記事は正確である必要がある →機械学習は試合に関係のない表現を出力してしまうこともある こういう試合では こういう戦評になる というのを大量に 覚え込ませる ©The Asahi Shimbun Company 2019
  8. 実現方法検討(採用方式) 戦評記事 スコアテーブル 約8万件のセット AI データ解析・ 分類 (機械学習) 電子スコアブック (スコア・詳細

    データ) 戦評記事 ルールに基づいた戦評記事を自動生成 →文章の修正などもコントロール可能 試合分析 (タグ付与) ↓ テンプレート ↓ 戦評記事 過去試合の分析 試合内容の分析 表現の分析 ©The Asahi Shimbun Company 2019
  9. 戦評記事生成の流れ 試合にフォーカスし たデータを格納 スコアブック データ 選手にフォーカスし たデータを格納 チームの戦歴を格納 チーム戦歴テーブル 選手情報テーブル

    打席・イニング・ 試合タグ 特徴タグ (打者、投手) 特徴タグ (チーム) 特徴タグ (打者、投手) 選手戦歴テーブル 選手の戦歴を格納 特徴タグ (打者、投手) 事前に用意した テンプレートを 当てはめて 戦評記事を生成 ※約100万パターン可能 試合情報テーブル ©The Asahi Shimbun Company 2019
  10. テンプレートから記事作成 勝ち越し 先制点 ①試合結果サマリー ②勝者視点の試合経過 (決勝点の場面など) ③敗者視点の試合経過 決勝点 逆転 完投

    二けた奪三振 逆転サヨナラ 投手戦 準々決勝 テンプレート テンプレート テンプレート <テンプレート>> ①息詰まる投手戦を%KEY-勝者チーム%が逆転サヨナラで制し、準決勝進出を決 めた。 ②(省略) ③%KEY-敗者チーム%は%修飾1_先制点イニング%回、%修飾1_先制点動き% 先行。%修飾1_勝ち越し点イニング%回は%修飾1_勝ち越し点動き%勝ち越した が、リードを守り切れなかった。 ©The Asahi Shimbun Company 2019