Upgrade to Pro — share decks privately, control downloads, hide ads and more …

IBM Watsonの進化が止まらない - Watson Discovery編 -

yanagih
June 03, 2021

IBM Watsonの進化が止まらない - Watson Discovery編 -

yanagih

June 03, 2021
Tweet

More Decks by yanagih

Other Decks in Business

Transcript

  1. IBM Watsonの進化が
    ⽌まらない
    柳 英⽣
    Watson Solution Architect
    〜 Watson Discovery 編 〜

    View Slide

  2. 2
    従業員の57%は、正しい情報を
    見つけることの難しさが、オ
    フィスでの生産性を低下させる
    最大の要因の一つであると考え
    ています。
    57% of employees believe
    the difficulty of finding the
    correct information is one
    of the biggest contributors
    to lagging productivity in
    the office.

    View Slide

  3. 3
    IBMが考えるあるべき姿
    ビジネス上の意思決定に必要な、複
    雑ではあるが、価値の高い文書を探し
    出すために、形式を問わず、簡潔で信
    頼できる、パーソナライズされた情報
    への即時アクセスを提供します。
    Our vision
    Augment an expert’s ability to
    understand complex, high value
    documents needed for a
    business decision by providing
    immediate access to concise,
    trusted, personalized
    information, regardless of form.

    View Slide

  4. データの取り込みから、検索/分析/マイニングまでサポートするコグニティブ検索エンジン
    IBM Watson Discoveryとは

    View Slide

  5. 学習済みのモデルを使⽤した⽂章へのタグ付け(メタ情報の付与)により、精度の⾼い
    検索や分析を実⾏することが可能です。
    単語に意味を
    付与する︕
    エンリッチ機能

    View Slide

  6. Reading Comprehension
    ⽂書中から答えを⾒つけて返します
    • 具体的な結果を得るために、本⽂中から回
    答を特定します
    • ⾃然⽂の質問に対して、直接的な結果を取
    得することができます
    適⽤例
    • チャットボットでユーザーからの質問に対
    して、⽂書を提⽰するのではなくピンポイ
    ントの回答を返すことができます
    Beta
    DEMO
    https://reading-comprehension-website.mybluemix.net/
    by IBM Watson Discovery

    View Slide

  7. ドキュメント
    検索
    コレクション
    (検索対象文書)
    センテンス
    選択
    文章の読解
    (Reading Comprehension)
    質問
    回答が含まれて
    そうな関連文章
    ピンポイントの回答
    https://www.ibm.com/blogs/watson/2020/12/innovations-in-natural-language-processing-from-ibm-to-help-enterprises-better-understand-the-language-of-their-business/
    New
    富士山の高さは?
    ・・・
    xxxxxxxxxxxxxx
    xxxxxxxxxxxxxx
    xxxxxxxxxxxxxx
    xxxxxxxxxxxxxx
    xxxxxxxxxxxxxx
    xxxxxxxxxxxxxx
    富⼠⼭の⾼さは
    3776 m xxxxxx
    xxxxxxxxxxxxxx
    xxxxxxxxxxx
    xxx・・・
    3776m
    何が変わるのか : Discoveryの今と近い将来
    本⽇のテーマ
    パッセージ回答
    Reading
    Comprehension
    ピンポイント回答

    View Slide

  8. デモ環境
    ⽇本語
    Wikipedia
    コレクション
    Discovery plus beta plan
    ⽇本語 Wikipedia 200万文書から10万文書(注)を読込 (5%)
    データ取込
    検索結果
    (注) 2021/6/3にて確認したところ、最大1万文書
    に変更となっていました

    View Slide

  9. デモ

    View Slide

  10. title: Wikipedia のタイトル
    answer: Wikipedia の本⽂
    url: Wikipedia 該当ページのURL
    基本構造
    passages[]
    Discoveryに対して、自然文検索すると...
    passagesとanswersが動的に生成される
    answers[] New
    動的生成
    タイトル
    本文
    出⾝地が含まれているパッセージの領域
    出⾝地に関する情報
    『タイトルさんの出身地は』
    を実行した場合…

    View Slide

  11. タイトル
    本文
    タイトルさんが社⻑に就任
    したのはxxさん以来何年⽬
    タイトルさんの⽣年⽉⽇は
    タイトルさんの出⾝地は
    タイトルさんが勉強した⾔語は

    View Slide

  12. タイトル
    本文
    誤認識のケースもあるので注意
    正解
    タイトル 趣味
    タイトルの趣味
    誤認識した対象
    タイトルさんの趣味は
    誤認識した対象

    View Slide

  13. 質問: 『タイトルさんの出身地は』
    補⾜
    Watson Discovery
    Reading Comprehension (ベータ)
    パッセージ (現在)
    検索エンジ
    キーワード・マッチ
    タイトル
    本文
    タイトル
    本文
    タイトル
    本文

    View Slide

  14. 質問応答システムWatsonが⽰す未来
    https://www.ibm.com/downloads/cas/8Q4LALEM
    (1) 質問⽂解析
    質問⽂ごとに正確な公⽂解析を実施して、何が問われてい
    るかを判断する
    (2) 解候補の⽣成
    上記(1)によって得られた⼿がかりと同じ⽂脈に解答が現れやす
    いだろうと仮定して、⼤量の情報源から解答候補を列挙する
    * この段階で候補として正しい答えを⾒落とすと取り返しがで
    きないので、質問⽂に含まれている語句と同時に現れやすい語
    句を検索したり、質問で問われている事物に該当する語句を辞
    書から列挙したり、複数の⼿段で候補を補完する
    (3) 根拠の探索
    各候補をもとの質問⽂に「代⼊」して、仮説を⽣成し、これを
    情報源に利⽤して検証する。
    (例) ある候補が質問⽂に対する解答なら、その「根拠」が情報
    源の中に⾒つかるはずだ、その合致(マッチング)の評価のため
    の次元を「観点」、マッチしたものを「根拠」と呼ぶ
    (4) 解の統合・確信度の計算
    解答候補に(3)で⾒つかった「根拠」に応じて得点付けする。正
    解につながりやすい強い「根拠」を持つ候補に⼤きな値が割り
    当てられるように、それぞれの「観点」に『重み』を付与する
    * Jeopardy!の数万件に及ぶ過去問を⽤いて機械学習により最
    適な重みの配分を計算。過去の問題に最⾼の正解率を達成した
    (「観点」の『重み』の配分を調整した)システムであれば、本
    番でも最も良い成績を上げることができるはず

    View Slide

  15. 質問応答システムWatsonが⽰す未来
    ・Watsonには最初から⽇本の43の「県」だけを考えればよ
    いと結論付けできない
    ・全ての観点で根拠を⾒出せる回答は存在しないことが多い
    ので、過去の問題から学習した重み付けに基づいた確信度を
    計算する
    ・Watsonは⼈間と全く違う処理の流れであっても⼈と同等の
    速度や精度で質問に応答するタスクを実現してみせた
    Watsonの処理の流れ
    1. Watsonは必要な情報の種類を把握し、多くの回答
    候補を⽣成
    2. 質問から得られる他の情報を使⽤して悪い回答を除
    外し、よい回答を裏付ける根拠を収集する
    3. 残った回答候補は根拠に基づいて採点され、ベスト
    アンサを関連する根拠と確信度のスコアと共にトッ
    プに表⽰する このアプローチは質問応答に限らず、様々な問題解決技術に
    利⽤できる
    質問⽂: 「本州の中で最も⻄に位置するこの県は
    1871年に発⾜した」
    答え: 「⼭⼝ (県)」
    ⼈間の思考の流れ
    1. 質問⽂を誤りなく理解できる
    2. 「本州という⾔葉から、これは⽇本についての質問で、
    回答は47 都道府県のうち、43ある「県」である
    3. 仮に1871年に発⾜したかどうか⾃信がなくても、⽇
    本の地形的な特徴と本州の最も⻄にあるという地理的
    な条件を強い根拠として「⼭⼝ (県)」と答える
    https://www.ibm.com/downloads/cas/8Q4LALEM

    View Slide

  16. IBM Research addressing Enterprise NLP challenges in 2020
    https://www.ibm.com/blogs/research/2020/06/advancingnlp2020/
    UNDERSTAND
    エンタープライズNLPの最初のステップは、
    基本的なレベルでの⾔語の理解です。これに
    は、⽂章の意味的理解、⽂書内の主要なエン
    ティティやコンセプトの抽出、エンティティ
    間の関係の特定、さらには複雑な⽂書の
    フォーマットの理解などが含まれます。この
    研究の⼀部は、⽂書内のカスタムフィールド
    やアーティファクトを抽出して解釈するよう
    に訓練されたWatson Discovery Smart
    Document Understanding(SDU)など、
    IBMのAI製品にすでに組み込まれています。
    さらに、IBMリサーチは、⽂書レイアウト分
    析(PDF⽂書に埋め込まれた情報を抽出する
    プロセスを合理化すること)を⽬的とした史
    上最⼤のデータセットであるPubLayNetを開
    発し、公開しました。
    CLASSIFY
    第2のステップは、テキストやドキュメント
    をより⾼いレベルの構成要素に分類するこ
    とである。これらには、⽂書または⽂書の
    ⼀部の全体的なセンチメント(⽂書内の概
    念の関連付け)や、より⼀般的には⽂書内
    の⽂、段落、表、グラフ、図の要素分類が
    含まれます。IBMは2020年3⽉、IBMリ
    サーチのProject DebaterのNLP機能を
    Watson Discovery、Watson Assistant、
    Watson Core Servicesに統合し、企業が初
    めて⾼度なセンチメント分析、⾼度なト
    ピック・クラスタリング、ビジネス⽂書の
    要素のカスタマイズ可能な分類を利⽤でき
    るようにしました。
    RETRIEVE
    テキストが理解され、分類されると、アプ
    リケーションはこれを利⽤して、データの
    検索や探索を⾏うことができます。これに
    は、ユーザークエリに基づくドキュメント、
    パラグラフ、テーブルのきめ細かな検索、
    質問応答(QA)、ドキュメントにカプセル
    化された知識の視覚化とナビゲーションな
    どが含まれます。IBMリサーチは最近、
    COVID-19上の科学論⽂のCORD-19コーパ
    スにQAシステムを展開し、QA技術が統合
    された場合に企業がWatson Discoveryを
    使って独⾃のコンテンツに期待できる機能
    を実証しました。また、IBMリサーチは昨
    秋、IBMリサーチのトップパフォーマンス
    であるGAAMA(Go Ahead Ask Me
    Anything)システムをベースにした
    TechQAリーダーボードを発表しており、
    企業のQAユースケースに対応した初のリー
    ダーボードとなっています。
    GENERATE
    最後に、新しい⾔語が⽣成されることがありま
    す。この例としては、単⼀のドキュメント、ま
    たは複数のドキュメント、そしてクエリの⽂脈
    でのサマリーが挙げられます。NLPシステムは、
    カスタマーサポートの質問、取引、⼀般的なガ
    イダンスなどのリクエストを解決しようとする
    ⼈間と会話をします。IBMの対話システムの代
    表的なソリューションであるWatson
    Assistantは、IBMリサーチのいくつかのイノ
    ベーションに基づいています。また現在、ログ
    ファイル、ユーザーマニュアル、ウェブページ
    など、企業のコミュニケーションの構造や内容
    を⽂書化したものを分析し、ダイアログ⽣成プ
    ロセスを⾃動化する⽅法をさらに開発していま
    す。特に、最近のグラミー賞授賞式では、IBM
    リサーチのサマライズ技術を⽤いて、1,800万
    件のニュース記事、ブログ、バイオグラフィー
    を分析し、レッドカーペットのライブストリー
    ムに、より深い⽂脈と情報を追加して、ライブ
    感を提供しました。
    下記⽇本語は機械翻訳になりますので、
    必ず元の内容をご確認ください

    View Slide

  17. https://reading-comprehension-website.mybluemix.net/
    こちらで試せます (ただし、英語のみ)
    Reading Comprehensionデモサイト

    View Slide

  18. https://www.surveygizmo.com/s3/6081949/wd-beta
    朗報!

    View Slide

  19. Bookmark
    • Reading Comprehensionデモサイト (GAAMA)
    • https://reading-comprehension-website.mybluemix.net/
    • 質問応答システムWatsonが⽰す未来
    • https://www.ibm.com/downloads/cas/8Q4LALEM
    • IBM Research addressing Enterprise NLP challenges in 2020
    • https://www.ibm.com/blogs/research/2020/06/advancingnlp2020/
    • TechQA LeaderBoard
    • https://leaderboard.techqa.us-
    east.containers.appdomain.cloud/?_ga=2.52450208.941874064.16221
    72310-858458798.1619489324

    View Slide

  20. View Slide

  21. © 2021 IBM Corporation 21
    ダイアログ・スキルとサーチ・スキルの連携
    !よく聞かれる質問や定型的なタスクはダイアログ・スキルで対応し、頻度は低いがそのレパートリーはたく
    さんあるようなものは質問と回答の類似性に焦点をおいて回答候補を提⽰する検索スキルで対応するという
    分担により、運⽤負荷を抑えつつ回答率を向上させることが可能になります。
    質問の意図
    100s 100,000+
    Long Tail
    頻度
    Turn on my headlights.
    My exhaust is making a rattling sound,
    how do I troubleshoot the problem?
    Short Tail
    FAQや定型的なタスク
    取説・保守マニュアル等からの探索
    法規制や税制度についての問い合わせ
    関連事例についての照会
    Dialog Skill
    質問の意図や表現およびコンテキ
    ストにフォーカスし、それを条件と
    して回答を判断
    Search Skill
    質問と回答の類似性に焦点をお
    き回答候補をランキングして
    提示

    View Slide

  22. © 2021 IBM Corporation
    https://leaderboard.techqa.us-east.containers.appdomain.cloud/?_ga=2.52450208.941874064.1622172310-858458798.1619489324

    View Slide

  23. 23
    (2021/3/4 ベータ提供)
    https://www.ibm.com/blogs/solutions/jp-ja/ibm-watson-announcements-editorials-tutorials-code-spotlight-
    build-with-watson-an-assistant-for-any-language/
    ・ユニバーサル⾔語モデルの提供
    - 現在サポートされる13⾔語以外の⾔語を理解する⾔語モデルの作成が可能
    - 特定⾔語に最適化されているわけではないので、ターゲット⾔語の学習に⼗分なト
    レーニングデータを追加して、その⾔語の固有の構⽂規則および⽂法規則について学
    習させることが必要です (サポートされる13⾔語については、これまで通り、個別の
    ⾔語モデルを使⽤してください)
    - ダイアログスキルとアクションスキルの両⽅がサポート
    - コンテント・カタログ以外はサポート (インテントやエンティティを使ったダイア
    ログフローの作成、脱線、アナリティクス・ダッシュボードを使った分析等)
    ・100を超える異なるグローバル⾔語をサポート
    (他社は10-30ぐらいの⾔語にのみ対応、差別化要因)
    ・⼀から⾔語モデルを作成する場合と⽐較すると、より少ないトレーニングデータで⾔
    語モデルの学習が可能
    ・これまで培ってきたWatson Assistantに関する開発/運⽤スキルはそのまま継承可能
    An assistant for any language

    View Slide

  24. 24

    View Slide