Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Watson Discoveryを使ったAI検索体験

osonoi
November 16, 2020

Watson Discoveryを使ったAI検索体験

osonoi

November 16, 2020
Tweet

More Decks by osonoi

Other Decks in Technology

Transcript

  1. 小薗井 康志 日本IBM Developer Advocacy Group, Client Developer Advocate ブログ:

    https://qiita.com/osonoi (Qiita) https://blogs.itmedia.co.jp/osonoi/ (IT Media) Twitter: @osonoi Facebook: @osonoi 珍しい名前なのでたいがい “osonoi”で発見できます。
  2. © 2020 IBM Corporation 10 多種多様・⼤量の ドキュメント Watson AI型検索 Watson

    Discoveryは多種多様な⼤量のドキュメントから適切な情報を引き出し、 パターンや傾向を読み取って適切な意思決定を⽀援するためのテキスト検索・分析エンジンです。 ⽂章の構造や特定の業界、企業特有の表現を教え込み、特有の業務もより賢く⽀援することができます。 Watson Discovery とは サポートデスクとのやりとりで 顧客が⼀番多く⾔及している⾔葉 は何か? 今回実施したキャンペーンは、 この30⽇間に何回ネット上で評価 されたか? ロックのかかったアカウントで、 新しい接続をセットアップするに はどうしたらいいか︖
  3. © 2020 IBM Corporation 11 専⾨家 顧客 テキストデータを活⽤するために有⽤な最新のAIテクノロジーによる機能をご利⽤いただけます。 Watson Discovery

    主な機能 * Watson Discovery for Cloud Pak for dataのみでの提供機能 Watson Assistant Search Skill Watson Assistantから 接続して会話として表⽰ ロングテールの質問対応 ①データ収集・取込 ②エンリッチメント ③検索・分析* Content Repository Connectivity Extract meaning Teach domain concepts Search Enhancement l クリック操作で設定可能な接 続性 l ⽂書から品詞、感情など特⻑ 抽出 l 業界固有の⾔葉のAI学習 l 検索結果の分類 * l AI型辞書登録⽀援 * l カテゴリ分類学習 * l 質問に対する回答の学習 l パッセージの抽出 Smart Document Understanding l カテゴリ分類学習* Content Miner * l ドキュメント構造を学習 l テーブル情報の抽出 l ガイド型のテキスト分析
  4. © 2020 IBM Corporation 12 Watson Discoveryの5つの特⻑ データソースへの簡単な接続 ⽂書構造を理解した取込 標準&カスタムでメタ情報抽出

    ほしい情報を上位に表⽰ ⼤量ドキュメントから気づきを得る* 1 2 3 4 5 • Watson Discovery for Cloud Pak for dataのみでの提供機能、今回は説明しません ご興味あれば資料の最後の補⾜を参考にしてください。
  5. APIからの 取り込み データ・ソース 接続から取込 (次ページ参照) Discoveryツール からの取り込み データ収集・取込 3つの⽂書の取込⽅法 HTML

    PDF WORD JSON • Box • Salesforce • Microsoft SharePoint Online • Microsoft SharePoint 2016 On- Premise • Web Crawl • IBM Cloud オブジェクト・ストレージ データの 変換と加⼯ To JSON Smart Document Understanding 以下のファイル・タイプが取り込み可能です:
  6. © 2020 IBM Corporation 14 多様な情報源に接続するための、クリック操作で設定できるコネクターを提供します。 Watson Discoveryの特⻑ データソースへの簡単な接続 l

    Box* l SharePoint Online* l SharePoint 2013/2016/2019* l Salesforce l Webサイト l Windows File System* l Database (JDBC ) l IBM Cloud Object Storage * ⽂書単位のアクセス権チェックが含まれる + カスタムコネクター https://cloud.ibm.com/docs/discovery-data?topic=discovery-data-connector-dev 1
  7. © 2020 IBM Corporation 15 Watsonが⽂書の構造を理解して検索 (機能名︓Smart Document Understanding )

    効果 l ヘッダーやフッダーなど、不要な箇所を検索させないと いった、検索時のノイズの除去が可能 l ⻑く繋がった⽂書も分割して認識し効率的な検索を実⾏ l タイトル+本⽂、といった検索ができるので、FAQの Q&Aのペアを探し出すようなことも可能 l 特定のコンテンツに絞り込む検索 等 l スキャンされた画像ファイル内のテキストを識別(OCR機能 ) l PDF、Word、Excel、PowerPoint、PNG、JPG、TIFF ファイ ル形式に対応 l ⽂章中のテーブルの⾏や列、ラベルといった構造を理解 l 学習はポイント&クリックの容易な作業 200-300のラベリングされたページに て99%の精度を達成(開発部⾨でのテス ト結果/同種のドキュメントに限る) 学習作業画⾯ Watsonが⽂書の構造を学習し、ユーザーの検索時にほしい情報を効率よく迅速、⾼度に探し出します。 Watson Discoveryの特⻑ ⽂書構造を理解した取込 2
  8. © 2020 IBM Corporation 16 マニュアルのような⼤量ページで定型的な書式の⽂書を検索対象とする場合に有効です。 ! 検索⽂= “ How

    to reinstall watson explorer? “ Smart Document Understanding 動画デモ(⽇本語字幕付き ) https://youtu.be/Jpr3wVH3FVA 3ʼ:05” - SDU使⽤前 9ʼ:05” - SDU 使⽤後 SDU使⽤前の検索結果 SDU使⽤後の検索結果 SDUで⽂書の構造を教える l 検索結果は1ファイル l 注釈のようなものも検 索結果に含まれる l 意図に近い分割されたコ ンテンツが検索結果に表 ⽰される l 従来は⼿組みの前処理ロジックとしてアプリで実装してい た作業を、簡単なUIで指定できる
  9. エンティティ キーワード コンセプト リレーション センチメント エモーション(英語のみ) セマンティックロール カテゴリ カテゴリー付きの単語抽出 2つのEntityの関係(50種類程度)を特定

    重要なキーワードを抽出 5階層のカテゴリーに分類 含まれるコンセプトを抽出 主語/動作/対象を抽出 ポジティブ・ネガティブの判定 感情を判定(喜び/悲しみ/怒り/恐れ/嫌気) 学 習 済 み モ デ ル エンティティ リレーション カテゴリー付きの単語抽出 2つのEntityの関係を特定 カ ス タ ム 学 習 エンリッチメント 8つの情報抽出と意味付け
  10. © 2020 IBM Corporation 18 未分類の⽂書に複数の分類カテゴリー(ラベル )を割り当てます。 付与された分類カテゴリーは検索時に絞り込み条件として利⽤できます。 Watson Discoveryの特⻑

    標準&カスタムでメタ情報抽出 スポーツ 科学 スポーツ 政治 科学 ⽂書 分類カテゴリ トレーニングデータ • 正解ラベル付きの⽂書 • WDは同じラベルを持つ⽂書群から、そのラ ベルを付与するために、重視すべき特⻑を学 習します ⽂書分類 メディア スポーツサイエンスマガジン 出版社 Sport News Inc. ⽇付 2017/MM/DD タイトル 男⼦100m 世界新記録 本⽂ 靴をより速く⾛らせる技術の進 化は、100メートル⾛の記録の 改善に寄与する 経済 機械学習による⽂書分類 3
  11. 検索 分析機能 検索 アグリゲーション 関連性学習(Relevancy Training) ⾃然⾔語での検索(Natural Language Query) パッセージ抽出

    ⽂書類似性照会 意味付けされた情報を活⽤した各種集計 (頻度・ヒストグラム・時系列etc) 質問と回答候補の関連性を学習させて 最適なランキングモデルに育てていく
  12. © 2020 IBM Corporation 21 l 他の回答よりも上位にランキングすべき回答を Watsonが提⽰し、ユーザーはより迅速に正し い回答を獲得 l

    学習のさせ⽅も、質問/適切な回答のペアを教 え込ませるだけでなく、利⽤と共に最も関連性 の⾼い回答を⾃動的に学習することもでき、⼿ 動トレーニングの時間と労⼒を削減 l モデル性能の改善も実際に使われたデータを 使ってトレーニング l 関連性の度合いを推定し、スコアを返すことが 可能 © 2019 IBM Corporation Watsonが質問と回答候補の関連性を学習することで、検索対象に対し最適なランキングモデルが育ちます。 (機能名︓Relevancy Training 関連性学習 ) Watson Discoveryの特⻑ ほしい情報を上位に表⽰ 4
  13. Discovery 適⽤パターン 1. ⾃然⾔語での問い合わせ ü チャットボットとの組み合わせ ü ⾳声認識と組み合わせたオペレーター ⽀援 ü

    技術⽂書や業務マニュアルなどの検索 2. 特徴やトレンドの分析 ü お客様の声やSNS上の⼝コミ ü ニュース記事や特許などの外部情報の 分析 コンタクトセンターオペレーター⽀援 お客様の声分析
  14. © 2020 IBM Corporation 24 チャットボットとの組み合わせ Watson Assistant 質問の意図や表現お よびコンテキストにフォー

    カスし、それを条件とし て回答を判断 質問の意図 100s 100,000+ 頻度 Long Tail Turn on my headlights. My exhaust is making a rattling sound, how do I troubleshoot the problem? Short Tail FAQや定型的なタスク 取説・保守マニュアル等からの探索 法規制や税制度についての問い合わせ 関連事例についての照会 © 2018 International Business Machines Corporation 24 Watson Discovery 質問と回答の類似性に 焦点をおき回答候補を ランキングして提⽰
  15. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  16. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  17. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  18. 31 2. Watson Discoveryのセットアップ • IBM Cloud ログイン アカウントをすでにお持ちの⽅は、 IBMidを⼊⼒してこちらからログインしてください

    https://ibm.biz/Bdq5DWにアクセスしてログインします。 • IBM Cloud ライトアカウント作成 アカウントをお持ちでない⽅は、 ご登録をお願いします
  19. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  20. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  21. 46 4.コレクションの作成と⽂書の取り込み 7. 「Select Documents」をクリッ クし、ダウンロードした IBM_Developer_blog_pdf.zipを 解凍したフォルダを開く。 8. 以下の6ファイルを複数選択し

    て、「Open(開く)」をクリック • IBM_Developer_blog01.pdf • IBM_Developer_blog02.pdf • IBM_Developer_blog03.pdf • IBM_Developer_blog05.pdf • IBM_Developer_blog04.pdf (数字の付いているファイル全て) 複数選択は Win: [Ctrl]キーを押しながらクリック Mac: [command]キーを押しながらクリック
  22. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  23. 51 5. 照会の実⾏ 3. 検索のアイコンをクリックします 4. 「 Search for documents」をクリック

    5. Use natural languageの⼊⼒エリアに、「Dojoはいつ実施されますか」と⼊⼒ 6.下にある「Run query」をクリック 検索 3 4 5 6
  24. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  25. 6. Object Storageとの連携 8. Discoveryとの連携、Discoveryの画⾯に戻ってください。 Connect a data sourceをクリック ******************

    *********** IBM Cloud Object Storageを選択 エンドポイント、Access_key_id, Secret_Access_key を入力します
  26. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け(オプション)
  27. 6. SDUエディターでの注釈付け Smart Document Understanding (SDU) を使⽤す ると、⽂書内のカスタム・フィールドを抽出するために、 Discovery をトレーニングすることができます。

    Discovery で⽂書の索引を作成する⽅法をカスタマイズ することで、アプリケーションから返される回答を改善 できます。 SDU では、⽂書内のフィールドに注釈を付けることでカ スタム変換モデルをトレーニングします。 ユーザーが注 釈を付けることで、Watson は学習を⾏い、注釈を予測 します。 ヘッダーやフッダーなど、不要な箇所を検索・分析さ せないようにしたい
  28. 6. SDUエディターでの注釈付け 5. 右側のIdentify fieldsの「title」をクリックします。 6. 左側のPDFイメージの位置関係を⾒ながら、「Women in Data Science

    TOKYO @ IBM を2020年6⽉5⽇(⾦)開催します」にあたる部分を右側の⻩⾊ページでクリック、ま たはエリアをドラッグしてtitleエリアを指定します。 5 6
  29. 6. SDUエディターでの注釈付け 9. 右側のIdentify fieldsの「subtitle」をクリックします。 10. 左側のPDFイメージの位置関係を⾒ながら「 Women in Data

    Science TOKYO @ IBM を 2020年6⽉5⽇(⾦)にオンライン開催します」にあたる部分を右側の⻩⾊ページ でクリック、またはエリアをドラッグしてsubtitleエリアを指定します。 9 10
  30. 6. SDUエディターでの注釈付け 12. 右側のIdentify fieldsの「subtitle」をクリックします。 13. 左側のPDFイメージの位置関係を⾒ながら「 Women in Data

    Science(WiDS) 」と「 Women in Data Science (WiDS) Tokyo @ IBMを2020年6⽉5⽇(⾦)に開催し ます」にあたる部分を右側の⻩⾊ページでクリック、またはエリアをドラッグして subtitleエリアを指定します。 12 13 13
  31. 84 6. SDUエディターでの注釈付け 26. 「Select Documents」をク リックし、ダウンロードした IBM_Developer_blog_pdf.zipを 解凍したフォルダを開く。 27.

    以下の6ファイルを複数選択し て、「Open(開く)」をクリック • IBM_Developer_blog01.pdf • IBM_Developer_blog02.pdf • IBM_Developer_blog03.pdf • IBM_Developer_blog05.pdf • IBM_Developer_blog04.pdf (数字の付いているファイル全て) 複数選択は Win: [Ctrl]キーを押しながらクリック Mac: [command]キーを押しながらクリック
  32. © 2020 IBM Corporation 94 補⾜1 対応⾔語 l ⽇本語 l

    英語 l 中国語(簡体字・繁体字 ) l 韓国語 l アラビア語 l オランダ語 l ブラジル・ポルトガル語 l イタリア語 l ドイツ語 l スペイン語 l フランス語 l ロシア語 l チェコ語 l ポーランド語 l ルーマニア語 l スロバキア語
  33. © 2020 IBM Corporation 99 ⽂書中に頻繁に出現する情報性のない単語を登録することで検索時のノイズを減らすことができます。 stopword https://github.com/watson-developer-cloud/doc-tutorial- downloads/blob/master/discovery-data/custom_stopwords_ja.json l

    Stopwordを定義したjsonをアップロード サンプル { "stopwords": [ ”I", "the", "and", ”have" ] } ※デフォルトサンプルへのリンクがマニュアル上に存在 ※コレクションごとにアップロードが必要 ※更新後はindexを再作成する必要あり 技術者向け補⾜
  34. © 2020 IBM Corporation 100 例えば、 • ユーザーがより効果的なクエリを作成できるように、関連す る⽤語セットまたは「ファセット」を⾃動的に識別します。 •

    従来のファセットのような構造化された値を必要とするので はなく、⾮構造化テキストコンテンツからの教師なし学習を 使⽤します。 ユーザーが実現できること l ビジネス上の問題に関連するコンテンツの コーパスを効率的に探索できます l ガイド付きのエクスペリエンスに従って、 コーパス内の関連する結果にすばやく検索を絞り込みます © 2019 IBM Corporation Dynamic Facet、Dictionary Suggestion(辞書構築⽀援 )、 Curation(beta ) 機能の強化により、より⾼ 度な検索を可能にします。 Watson Discoveryの特⻑ ほしい情報を上位に表⽰ 4 * Watson Discovery for Cloud Pak for dataのみでの提供機能
  35. © 2020 IBM Corporation 102 登録する辞書を選択した後、オントレクション(教師なし機械学習に基づく類似使⽤語検出 )を参照して類 似の⽂脈で使われているその他の単語を⾃動検出して登録候補としてリコメンドし、その場でワンクリック するだけで登録が完了します。 ⾼度な検索⽀援

    辞書登録⽀援ツール(機能名:Dictionary Suggestions) 例 )⾃動⾞の不具合報告書の分析で、「ブレーキ」や「フットブレーキ」をPartsと登録すると 類似の候補として「ブレーキパッ ド」「キャリパー」などをPartsの 候補として提案 例えば、⾷べ物関連の辞書と して「ゼリー」という単語を 登録した際、同じ分析対象デ ータ内の類似の⽂脈で使われ ていた「ゼリー」「アイスク リーム」や「クッキー」を類 推して⾃動検出します * Watson Discovery for Cloud Pak for dataのみでの提供機能
  36. © 2020 IBM Corporation 103 コンポーネントのリスト l Search bar l

    Autocomplete l Spelling Correction l Search results l Passages l Table Retrieval l Search facets l Custom facets l Dynamic facets l Collection filter l Document preview l Document Preview with Content Intelligence ユーザーのアプリケーションに簡単に組み込むことができるUIコンポーネントを提供します。 検索アプリケーションに使⽤する(再利⽤可能な )UIコンポーネントのセットが追加され、検索アプリケー ションの構築を迅速に⾏うことが可能になりました。 検索コンポーネント (Reusable Components ) * Watson Discovery for Cloud Pak for dataのみでの提供機能
  37. © 2020 IBM Corporation 104 分析機能 (Content Miner ) Watson

    Explorer の分析機能を Watson Discovery に統合 ⼤量のテキストからキーワードを抽出し可視化 着⽬すべきキーワードを推薦し、業務ユーザーの知⾒獲得を⽀援 深い分析⼿法を使⽤して、データセットを探索し、隠れ た洞察を明らかにするエンドユーザーインターフェイス 技術者以外のユーザーがより迅速に開始できるようにす るためのセットアップフローの簡素化 ⾼度なカスタマーケア分析のユースケースを可能にしま す。 ・Voice of the Customer のより深い洞察 ・製品の問題の根本原因の分析 ・販売とマーケティングの有効性を分析 Watson Discovery の検索機能に加え、強⼒な⾃然⽂データの分析機能をご利⽤いただけます。 Watson Discoveryの特⻑ ⼤量ドキュメントから気づきを得る 5 * Watson Discovery for Cloud Pak for dataのみでの提供機能
  38. © 2020 IBM Corporation 106 出現数を⽰す「カウント」ではなく、絞込み条件と⾔葉との関連の強さを表す「相関」により少数であって も際⽴った特⻑を得られます。 知⾒の抽出 - 相関値により埋もれている特⻑も発⾒できる例

    「カウント」…キーワードを含む⽂書の総数 「相関」…全⽂書⺟集団に対する分析⺟集団でのキーワードの割合 ある条件下における特⻑を発⾒するには、単なる件数でなく「相関値」が重要な指標 カウント(件数 ) … 通常はこの値に のみ頼って分析=同じ件数なら⽂書 の中をすべて⾒てみるしかない たとえば右図でカウントが 19件のワードは4⽂書ある が、相関値なら⾒て明らか な「キューブ×ランプが点 灯」という特⻑的事象が、 件数だけでは⾒つからない 相関… WDは相関と頻度の両⽅で分 析=同じ19件頻出の中でも特⻑が 潜む⽂書が読む前に⾒つかる 相関値が際⽴って⾼い︕ 何か特⻑がありそうだ︕ * Watson Discovery for Cloud Pak for dataのみでの提供機能
  39. 免責事項 109 IBM Developer Dojoは開発者の⽅を対象に、IBM Cloudを主とした技術情報をお伝えする⽬的で開催しています。 講師や運営スタッフにより、開催毎に最適と判断した内容でお届けしています。 現在、ハンズオンを伴う講義はお客様の費⽤負担がない環境と⼿順でご案内しています。講義終了後、不要に なりました制作物はお客様ご⾃⾝で削除をお願いいたします。クレジットカードの登録が伴わない場合、費⽤は ⼀切発⽣致しませんが、ご登録いただいたお客様はご注意ください。

    講師陣はみなさまの利⽤状況を個別に確認することはできません。 ご理解とご協⼒をお願いいたします。 利⽤したサービスの削除⽅法については講義の中でご案内します。 ご不明な点がございましたら、当⽇確認をお願いいたします。 講義終了後、 IBM Developer Dojoに関するお問い合わせは「Slack」にお願いします。それ以外のIBM Cloudの お問い合わせにつきましては、弊社サポートセンターまで、次のいづれかの⽅法でお問い合わせください。 IBM Cloudダッシュボードの「サポート」メニューから「Case」を作成し、英語でご記⼊ください IBM Cloudサポートセンター「相談する」ボタンからチャットまたは電話でご連絡ください https://www.ibm.com/jp-ja/cloud/support ご参加ありがとうございました。