Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文字起こしサービスの開発-第69回新聞製作講座上流コース-

 文字起こしサービスの開発-第69回新聞製作講座上流コース-

More Decks by Media R&D Center, The Asahi Shimbun

Other Decks in Technology

Transcript

  1. The Asahi Shimbun Company 02 自己紹介 Copyright 2022 The Asahi

    Shimbun Company. [email protected] 経歴 2018年4月 朝日新聞社入社 2018年8月 情報技術本部ICTRAD配属 2021年4月 メディア研究開発センター 主な実績 編集者向け記事レコメンドサービス開発 政治学者向け分析サービス開発 編集局と連携したデータジャーナリズム案件など 第69回新聞製作講座
  2. The Asahi Shimbun Company 02 参院選2022 Copyright 2022 The Asahi

    Shimbun Company. [email protected] 第69回新聞製作講座 各党⾸が街頭演説でどのテーマについて語っているか レーダーチャートで表現
  3. The Asahi Shimbun Company 03 INDEX 01. 文字起こしサービスについて 02. 使用状況

    03. YOLOで現在取り組んでいるテーマ a. 音声認識 b. 画像生成 c. サムネイルの選択と切り取り 04. まとめと今後の展望 Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  4. The Asahi Shimbun Company 07 You Only upLoad Own-file ファイルだったらなんでもアップロードしておけ、あとはうまく処理しまっせ

    みたいな理想を掲げたサービス ところでこのサービスの名前 Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  5. The Asahi Shimbun Company 08 You Only upLoad Own-file ところでこのサービスの名前

    YOLO Copyright 2022 The Asahi Shimbun Company. [email protected] ファイルだったらなんでもアップロードしておけ、あとはうまく処理しまっせ みたいな理想を掲げたサービス 第69回新聞製作講座
  6. 取材音源など貴重なデータを保管 する場所がない データ保管場所 データ音源を文字起こしする作業 コストがかかる 作業コスト 既存のクラウドサービスは情報漏 洩のリスクあり 安全性 The

    Asahi Shimbun Company 06 開発背景 Copyright 2022 The Asahi Shimbun Company. [email protected] 課題 音源を保存できて、自動で文字起こししてくれて、保存した音声・動画・ テキストファイルを簡単に検索できるサービスを開発しよう! 第69回新聞製作講座
  7. The Asahi Shimbun Company 09 Copyright 2022 The Asahi Shimbun

    Company. [email protected] 本社 YOLO ユーザー データの潜在価値を発見し、認識、活用していく 音声認識や動画処理の 知見を活用した 他サービス展開 データの継続的蓄積 による新機能の開発や 認識精度向上 精度向上による さらなる業務改善 目指すべき姿 第69回新聞製作講座
  8. 2021/05 OCR 2022/09 2022/03 動画サムネイル 自動選択 2022/05 句読点付与 The Asahi

    Shimbun Company 10 2021/01 β版リリース これまでリリースした機能 2021/12 データ収集基盤 Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  9. The Asahi Shimbun Company 20 データ収集基盤 Copyright 2022 The Asahi

    Shimbun Company. [email protected] YOLO 学習データ 作成 モデル構築 ①YOLOでアップロードされたファイルを ②人手によって学習データを作成し ③そのデータからモデルを構築 ① ② ③ 第69回新聞製作講座
  10. 政治 外交 教育 事件・事故・裁判 医療・健康 環境・産業 科学・IT 国際 30 20

    10 0 The Asahi Shimbun Company 21 音声認識エンジン 朝日モデル 大手クラウド CER(文字誤り率)で算出 独自評価データセットに対して、 朝日モデルが17.52% 、大手クラウドが17.61% Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  11. 政治 外交 教育 事件・事故・裁判 医療・健康 環境・産業 科学・IT 国際 40 30

    20 10 0 The Asahi Shimbun Company 22 音声認識エンジン 朝日モデル 大手クラウド WER(単語誤り率)で算出 独自評価データセットに対して、 朝日モデルが22.83% 、大手クラウドが20.79% Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  12. 【Before】 もう二十年前三十年前の船と違うんで性能もグッとアップして るしなるほどえーそういう面では非常にあの期待はしてはいた んです 【After】 もう二十年前、三十年前の船と違うんで性能もグッとアップし てるし、なるほどえーそういう面では非常にあの期待はしては いたんです。 【Before】 えっとまあ今は休みもなくと言う状況ですのでなかなか遊びに

    行くと言うことはありませんけどもあのー最近ですね 【After】 えっとまあ今は休みもなくと言う状況ですので、なかなか遊び に行くと言うことはありませんけども、あのー最近ですね、 「あのー」などのフィラーワード、「う んうん」などの相槌を検出するモデルを 構築 自社の記事データ・書き起こしデータを 用いて、話し言葉の書き起こしに適切に 句読点を付与するモデルを構築 ケバ取り 句読点の付与 ▶ 視認性が大きく向上 音声認識の後処理 The Asahi Shimbun Company 23 Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  13. 【SPEAKER_01】 鈴木さんいかがですかね。あの他に感じたこととかあ りますか。 【SPEAKER_00】 そうですね。まあジャンルとしてはミステリーになる と思うんですけど、やっぱり昔ばなしが大事だという ことで結構ファンタジー色が強く感じたんですが、フ ァンタジーを題材にすると難しくなることって何かあ りますか。 【SPEAKER_02】

    えっとねファンタジーを題材すると難しくなるという のはえ、ファンタジーでミステリーをやるとですね、 素早い実装を目指す 自社データでのチューニングも着手予定 ユーザーからのフィードバック • 話している人ごとに改行できないもの でしょうか • 文字おこしテキストについて、話手が変 わった際に行替えが行われると、非常に 見やすくとてもありがたいです OSSの活用 ユーザーの需要が高い機能 話者分離 The Asahi Shimbun Company 24 Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  14. The Asahi Shimbun Company 26 画像生成 Text(文章や単語)を条件として、その条件に合うImage(画像)を生成する技術 生成される画像の品質や多様性の高さから注目を浴びているホットトピックの一つ Text to

    Image • アートの生成 • コンピュータ補助によるデザイン設計 • 画像編集 なぜテキストから画像生成? • マルチモーダル学習の発展 • ビジョンと言語の関連付け ...etc Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  15. • テキストに合ったサムネイルの作成 • 挿絵の作成 • コラム等読み物の絵要約 新聞社 × Text to

    Image The Asahi Shimbun Company 27 画像生成 YOLOのファイル検索結果画面 サムネイル付き検索結果イメージ Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  16. The Asahi Shimbun Company 28 出典:【メタサーベイ】基盤モデル / Foundation Models by

    cvpaper.challenge DALL-E CLIP+VQGAN GLIDE DALL-E2 LDM Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  17. The Asahi Shimbun Company 28 出典:【メタサーベイ】基盤モデル / Foundation Models by

    cvpaper.challenge DALL-E CLIP+VQGAN GLIDE DALL-E2 LDM Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  18. The Asahi Shimbun Company 29 画像生成の取り組み OpenAIが発表したDALL-Eを用いて、朝日新聞社の記事データに含まれる画像と テキストのペアを学習 記事データの画像とテキストのペアを学習 データ収集

    データ加工 学習 画像生成 画像 絵解き 画像とそれに紐づく 絵解きのペアデータを収集 • キーワード抽出 • 人名などの固有名詞の抽象化 • 背景除去 • ドメインごとに学習 • データ量や言語の違いに よる変化を検証 学習データに沿ったテキスト を入力し、画像を生成 Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  19. The Asahi Shimbun Company 30 画像生成の取り組み 画像 絵解き 画像とそれに紐づく 絵解きのペアデータを収集

    • キーワード抽出 • 人名などの固有名詞の抽象化 • 背景除去 • ドメインごとに学習 • データ量や言語の違いに よる変化を検証 学習データに沿ったテキスト を入力し、画像を生成 OpenAIが発表したDALL-Eを用いて、朝日新聞社の記事データに含まれる画像と テキストのペアを学習 記事データの画像とテキストのペアを学習 Copyright 2022 The Asahi Shimbun Company. [email protected] データ収集 データ加工 学習 画像生成 第69回新聞製作講座
  20. The Asahi Shimbun Company 31 画像生成の取り組み • キーワード抽出 • 人名などの固有名詞の抽象化

    • 背景除去 • ドメインごとに学習 • データ量や言語の違いに よる変化を検証 学習データに沿ったテキスト を入力し、画像を生成 画像 絵解き 画像とそれに紐づく 絵解きのペアデータを収集 OpenAIが発表したDALL-Eを用いて、朝日新聞社の記事データに含まれる画像と テキストのペアを学習 記事データの画像とテキストのペアを学習 Copyright 2022 The Asahi Shimbun Company. [email protected] データ収集 データ加工 学習 画像生成 第69回新聞製作講座
  21. The Asahi Shimbun Company 32 画像生成の取り組み • キーワード抽出 • 人名などの固有名詞の抽象化

    • 背景除去 • ドメインごとに学習 • データ量や言語の違いに よる変化を検証 学習データに沿ったテキスト を入力し、画像を生成 画像 絵解き 画像とそれに紐づく 絵解きのペアデータを収集 OpenAIが発表したDALL-Eを用いて、朝日新聞社の記事データに含まれる画像と テキストのペアを学習 記事データの画像とテキストのペアを学習 Copyright 2022 The Asahi Shimbun Company. [email protected] データ収集 データ加工 学習 画像生成 第69回新聞製作講座
  22. The Asahi Shimbun Company 33 生成結果 画像生成の取り組み 「野球選手」 「四月下旬に県動物愛護センター で撮影された子猫」

    「黒い靴」 • 学習データ:約3万ペア • 記事分類「スポーツ」 (朝日新聞デジタル内) • 学習データ:約7千ペア • 画像分類「猫」 (バーティカルメディアsippo内) • 学習データ:約4.5万ペア • ファッションデータセット (背景除去データ) Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  23. その他手法の試行 The Asahi Shimbun Company 34 画像生成の取り組み CLIP+VQGAN Latent Diffusion

    Model(LDM) Stable Diffusion 公開されている日本語CLIPや朝日CLIPを用いて検証 音声認識結果を元にしたテキストを入力文として画像を生成 画像にノイズを与えていく過程を学習させたモデル LDMを改良しオープンソース化されたモデル 日本語版Stable DiffusionはAPIも公開されているためYOLOでの利用を検討中 作:Japanese Stable Diffusion 作:朝日CLIP+VQGAN 入力文: 「街のゴミを拾うサンタ クロースの集団」 Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  24. Stable DiffusionにYOLOのロゴを作るよう指示した結果 The Asahi Shimbun Company 34 ここで余談 Copyright 2022

    The Asahi Shimbun Company. [email protected] 第69回新聞製作講座 Input:The logo represents the service name YOLO, which means you only upload own-file
  25. 動画サムネイル選択 • 動画のタイトルを活用した手法 • 朝日の記事データで構築した2つの機械学習モデルを 使用 ⚬ 画像とテキストの類似度を算出するモデル ⚬ サムネイルにふさわしい画像を評価するモデル

    委員特別賞を受賞 −【新規性】【有用性】の観点での評価 手法 学会発表(NLP2022) The Asahi Shimbun Company 37 Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  26. 画像トリミング The Asahi Shimbun Company 43 • 汎用的に適応可能(⇔ 顔認識による手法) マスコットの顔、イラストでも良い結果

    乗り物なども人以外の物体、風景もOK • Saliency Mapとは 人の視線が集まりやすい場所を推定し、注視の起こる 確率をヒートマップに描画 • ロジック 最高スコアのタイル(=注目点) を中心として切り取る ⇒ 切り取る比率、サイズは自由に選択可能 特徴 切り取り手法 Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  27. • 汎用的に適応可能(⇔ 顔認識による手法) マスコットの顔、イラストでも良い結果 乗り物なども人以外の物体、風景もOK • Saliency Mapとは 人の視線が集まりやすい場所を推定し、注視の起こる 確率をヒートマップに描画

    • ロジック 最高スコアのタイル(=注目点) を中心として切り取る ⇒ 切り取る比率、サイズは自由に選択可能 特徴 切り取り手法 画像トリミング The Asahi Shimbun Company 44 Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  28. サムネイル − まとめ • 動画からサムネイルを選択するAIを開発 − 自社データの活用 • 適切な画像切り取りの手法を研究・実装 −

    様々な現場への適用模索 サムネイル画像へのアプローチ YOLOのみならず、本社のコンテンツ制作への適用を目指す The Asahi Shimbun Company 45 Copyright 2022 The Asahi Shimbun Company. [email protected] 第69回新聞製作講座
  29. 第69回新聞製作講座 千葉県一カメラマン。六十三歳。あの日。人生が一変しました。音楽から私の家が見えるんですが。家は全く流されてありません。ここに家が あるはずなんですがありません。震災を伝えるメディアそして自身も被災者。千葉カメラマンにあの日からの十年を聞きました。おう。宮城県気 仙沼市千葉さんはカメラマン歴三十年。元々は電気店の店主。映像カメラは趣味で始めた副業でした。地元イベントを週二回ほど取材してい ました。そしてあの日。東北を襲った大きな揺れ。市内を撮影して回った千葉さんは記録ディスク交換のため自宅へ。当時自宅は魚市場近く にありました。自宅前には高台へと続く渋滞の歴史。高台に避難してください車を降りての避難を呼びかける警察。その時千葉さんは。車から 降りて避難をしろと指示をしているわけです。その様子を撮影して。始めるんですねあそこの場所は低いですでこれはちょっとあの自分も危険 だなあという思いがあってで自分も避難所に行こうと。選んだのは自宅すぐそばの高台。津波をまず待ち受けようと言うことで選んだ場所がこ こなんですここはすぐ避難路があって高台に行ける避難所がすぐそこに。あの階段がありました津波が来るのであれば。あの第一の市場側 から来ると言う事がわかっていましたのであちら向きにカメラを構えたの。構えた瞬間遠くに見えたのは津波のその黒い塊だったんですね。黒

    い波GA。あってそれはもう想像以上の速さ。瞬く間に上がる推移。一段また一段と登りながら撮影を続けました。ものすごい不気味な音と。何 て言うんでしょうね。街が流されていくその。空機関っていいますかね。想像できない映画でしか見たことのないようなあの世界が自分の睾丸 かに広がっているわけですよねこれ。現実なのかっていうやっぱり撮影しながらそう思いましたね。軋む音。二ヽ流される家屋。そのどれもが 見覚えのある近所の家でした。流される自宅を見つめ声にならない声を上げる近所の人。千葉さんには葛藤がありました。私はカメラを回せ なかったんです。知ってる人が近所の人が逃げ惑うってるわけですよで知ってる私がその人にカメラを向けていいのかどうかとかそんな葛藤 がその時にありました。意を決し高台の反対に降りる千葉さん。そのレンズの先には。今午後。五時十分に。なろうとしています。普段はここ から私の家が見えるんですが家は全く流されてありません。ここに家があるはずなんですがありません。地獄ですね中国。中国です。こんなよ うに撮影するとは思ってもいませんでした。伝えなくちゃならない何が伝えられるだろう分かりやすいのは自宅が流されたこれはきちんと伝え られるその状況が私だからこそこのここから見たその街の様子がわかる。からこそそこは伝えられるんではないかなというふうに。切り替えて ですねその時にリポートした。言うことはあります。家を失った千葉者。自身も仮設住宅に住みながら被災地気仙沼を伝えてきました。震災か ら七年半後。ようやく自宅兼事務所を再建。ただ八十歳までローンが残ります。かつての自宅跡。当時の面影はありません。復興って何なん でしょうね。もしかして百人いれば百通りの復興があって復興できた人もいるかもしれないし。一升復興できない人もいるかもしれない復興と いうのはその施設やあのー家の整備だけじゃなくてですね心の復興まで終わってからの復興。なのかなと思ってるんですがそれが出来ない ままの方も居るんではないかなっていうふうに思ってただあの取材する側にとってはそれも含めて。ひとたびああいう大きいし災害があると。 人間が復興するのはこれだけ時間がかかるんだこれだけ大変なことがあるんだということはあのう伝えていかなきゃないっていうそういう意識 はあってそういう人たちの心の声と言いますか。こういったものは。感じて伝えていきたいなというような思い。 จࣈϨϕϧͰͷਖ਼ղ཰ 音声認識 Copyright 2022 The Asahi Shimbun Company. [email protected] The Asahi Shimbun Company
  30. 第69回新聞製作講座 ྨࣅهࣄ Ի੠ೝࣝ݁Ռͱҙຯతʹྨࣅͨ͠هࣄͷநग़ Copyright 2022 The Asahi Shimbun Company. [email protected]

    The Asahi Shimbun Company 例1 東日本大震災後に臨時で開設した陸前高田災害FM。そこに1 人のパーソナリティーがいた。21日に東京で公開が始まり、盛 岡でも公開予定の映画空に聞くは、彼女が地域の人の思いを 聞き取り、ラジオを通じて届ける日々を記録している。監督は、 東北を拠点に被災した人と街にカメラを向け続ける小森はるか さんだ。風も強く寒い一日でしたねいよいよ明日から奇跡の一 本松の設置作業が始まるそうです-。そこは陸前高田市のプレ ハブでつくられたラジオ局。番組パーソナリティーの阿部裕美さ んの声が、地域の人に向けて柔らかく響く。 … 説明的なナレーションやテロップが一切ないため、阿部さんの 言葉、声色が、より胸に迫ってくる。現在も被災地の姿を記録し 続ける小森監督は言う。震災で失われたものは映像に写せな い。けれど、阿部さんや街の人の声や表情に、あるいは風景の 間に見えてくるのではないかと思っています。 例2 どうしても⾒てもらいたい写真がある。朝⽇新聞仙台総局駐在の写 真記者だった当時、撮影した1枚だ。2008年7⽉19⽇だった。福島 県沖を震源とする地震で宮城県沿岸にも津波注意報が発令された。 仙台市若林区の深沼海⽔浴場に様⼦を⾒に⾏くと、近くの防潮堤に 避難する⼈たちがいた。3年後の2011年に起きた東⽇本⼤震災の被 害を知ってしまった後では、ありえない状況だと思う。本当に津波がやっ て来たら、撮影していた⾃分も⽣きてはいなかっただろう。ただ、防潮堤 の上でのんびりとした様⼦で海を⾒つめていた⼈たちの気持ちはよくわ かる。宮城県に津波なんて来るわけがない-。 … 、家族で訪れた⽯巻市のすし屋も津波で流されていた。ありふれた⽇ 常の⼤切さや、いとおしさを強く感じた。あの⽇、押し寄せた津波に、 仙台市の⼈たちはどんなに驚いたことだろう。深沼海⽔浴場がある若 林区も⼤きな被害を受けた。かつてお世話になったあの街が……。3⽉ 11⽇を迎えるたびに、海⽔浴場で撮影した1枚の写真を思い出す。 ҙຯతʹྨࣅͨ͠هࣄΛநग़͢Δ͜ͱ͕Ͱ͖ΔͨΊɺ ಈը഑৴ϓϥοτϑΥʔϜ⁶ࣗࣾαΠτͰίϯςϯπͷີͳ࿈ܞʹظ଴
  31. 第69回新聞製作講座 ΩʔϞʔϝϯτࣗಈ࡞੒ Copyright 2022 The Asahi Shimbun Company. [email protected] The

    Asahi Shimbun Company ಈըΛ͍͔ͭ͘ͷηάϝϯτʹ෼ׂ͠ɺͦΕͧΕʹઆ໌Λ෇༩ {0: {'midashi': '千葉県⼀カメラマンの63歳', 'start_time': 5.95, 'end_time': 45.98}, 1: {'midashi': 'カメラマン歴30年気仙沼', 'start_time': 47.77, 'end_time': 94.32}, 2: {'midashi': '渋滞の⾼台へ、避難呼びかけ', 'start_time': 96.64, 'end_time': 150.65}, 3: {'midashi': '波GA津波のその⿊い塊は‘, 'start_time': 153.86, 'end_time': 208.82}, 4: {'midashi': '「いやっぱり」パチリ写真', 'start_time': 217.47, 'end_time': 260.0}, 5: {'midashi': '葛藤カメラを回せなかった', 'start_time': 267.07, 'end_time': 317.97}, 6: {'midashi': '千葉正治さんレンズの先に‘, 'start_time': 320.68, 'end_time': 381.87}, 7: {'midashi': '「からこそそこは伝えられる」', 'start_time': 382.23, 'end_time': 419.28}, 8: {'midashi': '⼀升復興できぬ⼈もいるかも', 'start_time': 425.69, 'end_time': 473.24}, 9: {'midashi': 'いかなきゃない、うそういう’, 'start_time': 474.53, 'end_time': 511.36}} λΠϜελϯϓΛ΋ͱʹϢʔβʔ͕ݟ͍ͨγʔϯΛ͙͢ݟΔ͜ͱ͕Ͱ͖Δ ྨࣅهࣄϦϯΫ΍ཁ໿ಈը΋Մ