IBM Watsonの進化が止まらない - Watson Discovery編 -

IBM Watsonの進化が⽌まらない柳英⽣ Watson Solution Architect 〜 Watson
Discovery 編〜

2 従業員の57%は、正しい情報を見つけることの難しさが、オフィスでの生産性を低下させる最大の要因の一つであると考えています。 57% of employees believe
the difficulty of finding the correct information is one of the biggest contributors to lagging productivity in the office.

3 IBMが考えるあるべき姿ビジネス上の意思決定に必要な、複雑ではあるが、価値の高い文書を探し出すために、形式を問わず、簡潔で信頼できる、パーソナライズされた情報への即時アクセスを提供します。 Our vision Augment
an expert’s ability to understand complex, high value documents needed for a business decision by providing immediate access to concise, trusted, personalized information, regardless of form.

データの取り込みから、検索/分析/マイニングまでサポートするコグニティブ検索エンジン IBM Watson Discoveryとは

学習済みのモデルを使⽤した⽂章へのタグ付け(メタ情報の付与)により、精度の⾼い検索や分析を実⾏することが可能です。単語に意味を付与する︕ エンリッチ機能

Reading Comprehension ⽂書中から答えを⾒つけて返します • 具体的な結果を得るために、本⽂中から回答を特定します • ⾃然⽂の質問に対して、直接的な結果を取得することができます適⽤例
• チャットボットでユーザーからの質問に対して、⽂書を提⽰するのではなくピンポイントの回答を返すことができます Beta DEMO https://reading-comprehension-website.mybluemix.net/ by IBM Watson Discovery

ドキュメント検索コレクション (検索対象文書) センテンス選択文章の読解 (Reading Comprehension) 質問
回答が含まれてそうな関連文章ピンポイントの回答 https://www.ibm.com/blogs/watson/2020/12/innovations-in-natural-language-processing-from-ibm-to-help-enterprises-better-understand-the-language-of-their-business/ New 富士山の高さは？・・・ xxxxxxxxxxxxxx xxxxxxxxxxxxxx xxxxxxxxxxxxxx xxxxxxxxxxxxxx xxxxxxxxxxxxxx xxxxxxxxxxxxxx 富⼠⼭の⾼さは 3776 m xxxxxx xxxxxxxxxxxxxx xxxxxxxxxxx xxx・・・ 3776m 何が変わるのか : Discoveryの今と近い将来本⽇のテーマパッセージ回答 Reading Comprehension ピンポイント回答

デモ環境⽇本語 Wikipedia コレクション Discovery plus beta plan ⽇本語 Wikipedia
200万文書から10万文書(注)を読込 (5%) データ取込検索結果 (注) 2021/6/3にて確認したところ、最大1万文書に変更となっていました

デモ

title: Wikipedia のタイトル answer: Wikipedia の本⽂ url: Wikipedia 該当ページのURL 基本構造
passages[] Discoveryに対して、自然文検索すると... passagesとanswersが動的に生成される answers[] New 動的生成タイトル本文出⾝地が含まれているパッセージの領域出⾝地に関する情報『タイトルさんの出身地は』を実行した場合…

タイトル本文タイトルさんが社⻑に就任したのはxxさん以来何年⽬タイトルさんの⽣年⽉⽇はタイトルさんの出⾝地はタイトルさんが勉強した⾔語は

タイトル本文誤認識のケースもあるので注意正解タイトル趣味タイトルの趣味誤認識した対象タイトルさんの趣味は誤認識した対象

質問: 『タイトルさんの出身地は』補⾜ Watson Discovery Reading Comprehension (ベータ) パッセージ (現在)
検索エンジキーワード・マッチタイトル本文タイトル本文タイトル本文

質問応答システムWatsonが⽰す未来 https://www.ibm.com/downloads/cas/8Q4LALEM (1) 質問⽂解析質問⽂ごとに正確な公⽂解析を実施して、何が問われているかを判断する (2) 解候補の⽣成上記(1)によって得られた⼿がかりと同じ⽂脈に解答が現れやすいだろうと仮定して、⼤量の情報源から解答候補を列挙する
* この段階で候補として正しい答えを⾒落とすと取り返しができないので、質問⽂に含まれている語句と同時に現れやすい語句を検索したり、質問で問われている事物に該当する語句を辞書から列挙したり、複数の⼿段で候補を補完する (3) 根拠の探索各候補をもとの質問⽂に「代⼊」して、仮説を⽣成し、これを情報源に利⽤して検証する。 (例) ある候補が質問⽂に対する解答なら、その「根拠」が情報源の中に⾒つかるはずだ、その合致(マッチング)の評価のための次元を「観点」、マッチしたものを「根拠」と呼ぶ (4) 解の統合・確信度の計算解答候補に(3)で⾒つかった「根拠」に応じて得点付けする。正解につながりやすい強い「根拠」を持つ候補に⼤きな値が割り当てられるように、それぞれの「観点」に『重み』を付与する * Jeopardy!の数万件に及ぶ過去問を⽤いて機械学習により最適な重みの配分を計算。過去の問題に最⾼の正解率を達成した (「観点」の『重み』の配分を調整した)システムであれば、本番でも最も良い成績を上げることができるはず

質問応答システムWatsonが⽰す未来・Watsonには最初から⽇本の43の「県」だけを考えればよいと結論付けできない・全ての観点で根拠を⾒出せる回答は存在しないことが多いので、過去の問題から学習した重み付けに基づいた確信度を計算する・Watsonは⼈間と全く違う処理の流れであっても⼈と同等の速度や精度で質問に応答するタスクを実現してみせた Watsonの処理の流れ 1.
Watsonは必要な情報の種類を把握し、多くの回答候補を⽣成 2. 質問から得られる他の情報を使⽤して悪い回答を除外し、よい回答を裏付ける根拠を収集する 3. 残った回答候補は根拠に基づいて採点され、ベストアンサを関連する根拠と確信度のスコアと共にトップに表⽰するこのアプローチは質問応答に限らず、様々な問題解決技術に利⽤できる質問⽂: 「本州の中で最も⻄に位置するこの県は 1871年に発⾜した」答え: 「⼭⼝ (県)」⼈間の思考の流れ 1. 質問⽂を誤りなく理解できる 2. 「本州という⾔葉から、これは⽇本についての質問で、回答は47 都道府県のうち、43ある「県」である 3. 仮に1871年に発⾜したかどうか⾃信がなくても、⽇本の地形的な特徴と本州の最も⻄にあるという地理的な条件を強い根拠として「⼭⼝ (県)」と答える https://www.ibm.com/downloads/cas/8Q4LALEM

IBM Research addressing Enterprise NLP challenges in 2020 https://www.ibm.com/blogs/research/2020/06/advancingnlp2020/ UNDERSTAND
エンタープライズNLPの最初のステップは、基本的なレベルでの⾔語の理解です。これには、⽂章の意味的理解、⽂書内の主要なエンティティやコンセプトの抽出、エンティティ間の関係の特定、さらには複雑な⽂書のフォーマットの理解などが含まれます。この研究の⼀部は、⽂書内のカスタムフィールドやアーティファクトを抽出して解釈するように訓練されたWatson Discovery Smart Document Understanding（SDU）など、 IBMのAI製品にすでに組み込まれています。さらに、IBMリサーチは、⽂書レイアウト分析（PDF⽂書に埋め込まれた情報を抽出するプロセスを合理化すること）を⽬的とした史上最⼤のデータセットであるPubLayNetを開発し、公開しました。 CLASSIFY 第2のステップは、テキストやドキュメントをより⾼いレベルの構成要素に分類することである。これらには、⽂書または⽂書の⼀部の全体的なセンチメント（⽂書内の概念の関連付け）や、より⼀般的には⽂書内の⽂、段落、表、グラフ、図の要素分類が含まれます。IBMは2020年3⽉、IBMリサーチのProject DebaterのNLP機能を Watson Discovery、Watson Assistant、 Watson Core Servicesに統合し、企業が初めて⾼度なセンチメント分析、⾼度なトピック・クラスタリング、ビジネス⽂書の要素のカスタマイズ可能な分類を利⽤できるようにしました。 RETRIEVE テキストが理解され、分類されると、アプリケーションはこれを利⽤して、データの検索や探索を⾏うことができます。これには、ユーザークエリに基づくドキュメント、パラグラフ、テーブルのきめ細かな検索、質問応答（QA）、ドキュメントにカプセル化された知識の視覚化とナビゲーションなどが含まれます。IBMリサーチは最近、 COVID-19上の科学論⽂のCORD-19コーパスにQAシステムを展開し、QA技術が統合された場合に企業がWatson Discoveryを使って独⾃のコンテンツに期待できる機能を実証しました。また、IBMリサーチは昨秋、IBMリサーチのトップパフォーマンスであるGAAMA（Go Ahead Ask Me Anything）システムをベースにした TechQAリーダーボードを発表しており、企業のQAユースケースに対応した初のリーダーボードとなっています。 GENERATE 最後に、新しい⾔語が⽣成されることがあります。この例としては、単⼀のドキュメント、または複数のドキュメント、そしてクエリの⽂脈でのサマリーが挙げられます。NLPシステムは、カスタマーサポートの質問、取引、⼀般的なガイダンスなどのリクエストを解決しようとする⼈間と会話をします。IBMの対話システムの代表的なソリューションであるWatson Assistantは、IBMリサーチのいくつかのイノベーションに基づいています。また現在、ログファイル、ユーザーマニュアル、ウェブページなど、企業のコミュニケーションの構造や内容を⽂書化したものを分析し、ダイアログ⽣成プロセスを⾃動化する⽅法をさらに開発しています。特に、最近のグラミー賞授賞式では、IBM リサーチのサマライズ技術を⽤いて、1,800万件のニュース記事、ブログ、バイオグラフィーを分析し、レッドカーペットのライブストリームに、より深い⽂脈と情報を追加して、ライブ感を提供しました。下記⽇本語は機械翻訳になりますので、必ず元の内容をご確認ください

https://reading-comprehension-website.mybluemix.net/ こちらで試せます (ただし、英語のみ) Reading Comprehensionデモサイト

https://www.surveygizmo.com/s3/6081949/wd-beta 朗報！

Bookmark • Reading Comprehensionデモサイト (GAAMA) • https://reading-comprehension-website.mybluemix.net/ • 質問応答システムWatsonが⽰す未来 •
https://www.ibm.com/downloads/cas/8Q4LALEM • IBM Research addressing Enterprise NLP challenges in 2020 • https://www.ibm.com/blogs/research/2020/06/advancingnlp2020/ • TechQA LeaderBoard • https://leaderboard.techqa.us- east.containers.appdomain.cloud/?_ga=2.52450208.941874064.16221 72310-858458798.1619489324

© 2021 IBM Corporation 21 ダイアログ・スキルとサーチ・スキルの連携 !よく聞かれる質問や定型的なタスクはダイアログ・スキルで対応し、頻度は低いがそのレパートリーはたくさんあるようなものは質問と回答の類似性に焦点をおいて回答候補を提⽰する検索スキルで対応するという分担により、運⽤負荷を抑えつつ回答率を向上させることが可能になります。質問の意図
100s 100,000+ Long Tail 頻度 Turn on my headlights. My exhaust is making a rattling sound, how do I troubleshoot the problem? Short Tail FAQや定型的なタスク取説・保守マニュアル等からの探索法規制や税制度についての問い合わせ関連事例についての照会 Dialog Skill 質問の意図や表現およびコンテキストにフォーカスし、それを条件として回答を判断 Search Skill 質問と回答の類似性に焦点をおき回答候補をランキングして提示

23 (2021/3/4 ベータ提供) https://www.ibm.com/blogs/solutions/jp-ja/ibm-watson-announcements-editorials-tutorials-code-spotlight- build-with-watson-an-assistant-for-any-language/ ・ユニバーサル⾔語モデルの提供 - 現在サポートされる13⾔語以外の⾔語を理解する⾔語モデルの作成が可能 - 特定⾔語に最適化されているわけではないので、ターゲット⾔語の学習に⼗分なト
レーニングデータを追加して、その⾔語の固有の構⽂規則および⽂法規則について学習させることが必要です (サポートされる13⾔語については、これまで通り、個別の⾔語モデルを使⽤してください) - ダイアログスキルとアクションスキルの両⽅がサポート - コンテント・カタログ以外はサポート (インテントやエンティティを使ったダイアログフローの作成、脱線、アナリティクス・ダッシュボードを使った分析等) ・100を超える異なるグローバル⾔語をサポート (他社は10-30ぐらいの⾔語にのみ対応、差別化要因) ・⼀から⾔語モデルを作成する場合と⽐較すると、より少ないトレーニングデータで⾔語モデルの学習が可能・これまで培ってきたWatson Assistantに関する開発/運⽤スキルはそのまま継承可能 An assistant for any language

IBM Watsonの進化が止まらない - Watson Discovery編 -

IBM Watsonの進化が止まらない - Watson Discovery編 -

yanagih

More Decks by yanagih

Other Decks in Business

Featured

Transcript

IBM Watsonの進化が⽌まらない柳英⽣ Watson Solution Architect 〜 Watson

2 従業員の57%は、正しい情報を見つけることの難しさが、オフィスでの生産性を低下させる最大の要因の一つであると考えています。 57% of employees believe

3 IBMが考えるあるべき姿ビジネス上の意思決定に必要な、複雑ではあるが、価値の高い文書を探し出すために、形式を問わず、簡潔で信頼できる、パーソナライズされた情報への即時アクセスを提供します。 Our vision Augment

データの取り込みから、検索/分析/マイニングまでサポートするコグニティブ検索エンジン IBM Watson Discoveryとは

学習済みのモデルを使⽤した⽂章へのタグ付け(メタ情報の付与)により、精度の⾼い検索や分析を実⾏することが可能です。単語に意味を付与する︕ エンリッチ機能

Reading Comprehension ⽂書中から答えを⾒つけて返します • 具体的な結果を得るために、本⽂中から回答を特定します • ⾃然⽂の質問に対して、直接的な結果を取得することができます適⽤例

ドキュメント検索コレクション (検索対象文書) センテンス選択文章の読解 (Reading Comprehension) 質問

デモ環境⽇本語 Wikipedia コレクション Discovery plus beta plan ⽇本語 Wikipedia

デモ

title: Wikipedia のタイトル answer: Wikipedia の本⽂ url: Wikipedia 該当ページのURL 基本構造

タイトル本文タイトルさんが社⻑に就任したのはxxさん以来何年⽬タイトルさんの⽣年⽉⽇はタイトルさんの出⾝地はタイトルさんが勉強した⾔語は

タイトル本文誤認識のケースもあるので注意正解タイトル趣味タイトルの趣味誤認識した対象タイトルさんの趣味は誤認識した対象

質問: 『タイトルさんの出身地は』補⾜ Watson Discovery Reading Comprehension (ベータ) パッセージ (現在)

IBM Research addressing Enterprise NLP challenges in 2020 https://www.ibm.com/blogs/research/2020/06/advancingnlp2020/ UNDERSTAND

https://reading-comprehension-website.mybluemix.net/ こちらで試せます (ただし、英語のみ) Reading Comprehensionデモサイト

https://www.surveygizmo.com/s3/6081949/wd-beta 朗報！

Bookmark • Reading Comprehensionデモサイト (GAAMA) • https://reading-comprehension-website.mybluemix.net/ • 質問応答システムWatsonが⽰す未来 •

© 2021 IBM Corporation https://leaderboard.techqa.us-east.containers.appdomain.cloud/?_ga=2.52450208.941874064.1622172310-858458798.1619489324

24