Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Watson Discoveryを使ったAI検索体験

9ea422a61c1a69c888786830eee3dbe6?s=47 osonoi
November 16, 2020

Watson Discoveryを使ったAI検索体験

9ea422a61c1a69c888786830eee3dbe6?s=128

osonoi

November 16, 2020
Tweet

Transcript

  1. IBM Dojo Watson Discoveryを使ったAI検索体験 Yasushi Osonoi Developer Advocate Tokyo City

    Team
  2. 小薗井 康志 日本IBM Developer Advocacy Group, Client Developer Advocate ブログ:

    https://qiita.com/osonoi (Qiita) https://blogs.itmedia.co.jp/osonoi/ (IT Media) Twitter: @osonoi Facebook: @osonoi 珍しい名前なのでたいがい “osonoi”で発見できます。
  3. 質問&ライブ投票参加 はこちら slido.com #dojo1118 質問タブで質問⼊⼒ ⾃分も知りたい質問には 「いいね」をプッシュ! スマホまたはPCでアクセスして ぜひ参加お願いします︕ https://app.sli.do/event/a7ynvwwp

  4. 本⽇のタイムテーブル 14:00-14:05 (5min) オープニング 資料ダウンロード,出席登録など 14:05-15:00 (55min) Discovery⼊⾨ <座学+課題DEMO> 15:00-15:15

    (15min) 課題の説明とQ&A
  5. 出席登録 こちらのURLにアクセスして、IBM Cloudにログイン お願いします。 アカウント未登録の⽅も こちらから登録お願いします。 https://ibm.biz/Bdq5DW

  6. 1. データ準備 DiscoveryにアップロードするPDFファイル6個が⼊ったzipファイルを を以下からダウンロードし、⾃分のPCに保存します︓ http://ibm.biz/dojo20201118 ログイン、サインアップはしなくてもダウンロードはできます。

  7. 学習の⽬的とゴール ⽬的 Discovery概要について理解する ゴール Discoveryに実際にデータを⼊れ、検索を体験する このコースを学ぶ⽅の想定スキル 前回までのDojoの必須課題をこなせる程度のスキルがある Discoveryを初めて使う⽅

  8. 説明順序 1. Watson Discovery概要 2. Watson Discovery課題DEMO 3. まとめ 4.

    課題
  9. 2. Watson Discovery 概要

  10. © 2020 IBM Corporation 10 多種多様・⼤量の ドキュメント Watson AI型検索 Watson

    Discoveryは多種多様な⼤量のドキュメントから適切な情報を引き出し、 パターンや傾向を読み取って適切な意思決定を⽀援するためのテキスト検索・分析エンジンです。 ⽂章の構造や特定の業界、企業特有の表現を教え込み、特有の業務もより賢く⽀援することができます。 Watson Discovery とは サポートデスクとのやりとりで 顧客が⼀番多く⾔及している⾔葉 は何か? 今回実施したキャンペーンは、 この30⽇間に何回ネット上で評価 されたか? ロックのかかったアカウントで、 新しい接続をセットアップするに はどうしたらいいか︖
  11. © 2020 IBM Corporation 11 専⾨家 顧客 テキストデータを活⽤するために有⽤な最新のAIテクノロジーによる機能をご利⽤いただけます。 Watson Discovery

    主な機能 * Watson Discovery for Cloud Pak for dataのみでの提供機能 Watson Assistant Search Skill Watson Assistantから 接続して会話として表⽰ ロングテールの質問対応 ①データ収集・取込 ②エンリッチメント ③検索・分析* Content Repository Connectivity Extract meaning Teach domain concepts Search Enhancement l クリック操作で設定可能な接 続性 l ⽂書から品詞、感情など特⻑ 抽出 l 業界固有の⾔葉のAI学習 l 検索結果の分類 * l AI型辞書登録⽀援 * l カテゴリ分類学習 * l 質問に対する回答の学習 l パッセージの抽出 Smart Document Understanding l カテゴリ分類学習* Content Miner * l ドキュメント構造を学習 l テーブル情報の抽出 l ガイド型のテキスト分析
  12. © 2020 IBM Corporation 12 Watson Discoveryの5つの特⻑ データソースへの簡単な接続 ⽂書構造を理解した取込 標準&カスタムでメタ情報抽出

    ほしい情報を上位に表⽰ ⼤量ドキュメントから気づきを得る* 1 2 3 4 5 • Watson Discovery for Cloud Pak for dataのみでの提供機能、今回は説明しません ご興味あれば資料の最後の補⾜を参考にしてください。
  13. APIからの 取り込み データ・ソース 接続から取込 (次ページ参照) Discoveryツール からの取り込み データ収集・取込 3つの⽂書の取込⽅法 HTML

    PDF WORD JSON • Box • Salesforce • Microsoft SharePoint Online • Microsoft SharePoint 2016 On- Premise • Web Crawl • IBM Cloud オブジェクト・ストレージ データの 変換と加⼯ To JSON Smart Document Understanding 以下のファイル・タイプが取り込み可能です:
  14. © 2020 IBM Corporation 14 多様な情報源に接続するための、クリック操作で設定できるコネクターを提供します。 Watson Discoveryの特⻑ データソースへの簡単な接続 l

    Box* l SharePoint Online* l SharePoint 2013/2016/2019* l Salesforce l Webサイト l Windows File System* l Database (JDBC ) l IBM Cloud Object Storage * ⽂書単位のアクセス権チェックが含まれる + カスタムコネクター https://cloud.ibm.com/docs/discovery-data?topic=discovery-data-connector-dev 1
  15. © 2020 IBM Corporation 15 Watsonが⽂書の構造を理解して検索 (機能名︓Smart Document Understanding )

    効果 l ヘッダーやフッダーなど、不要な箇所を検索させないと いった、検索時のノイズの除去が可能 l ⻑く繋がった⽂書も分割して認識し効率的な検索を実⾏ l タイトル+本⽂、といった検索ができるので、FAQの Q&Aのペアを探し出すようなことも可能 l 特定のコンテンツに絞り込む検索 等 l スキャンされた画像ファイル内のテキストを識別(OCR機能 ) l PDF、Word、Excel、PowerPoint、PNG、JPG、TIFF ファイ ル形式に対応 l ⽂章中のテーブルの⾏や列、ラベルといった構造を理解 l 学習はポイント&クリックの容易な作業 200-300のラベリングされたページに て99%の精度を達成(開発部⾨でのテス ト結果/同種のドキュメントに限る) 学習作業画⾯ Watsonが⽂書の構造を学習し、ユーザーの検索時にほしい情報を効率よく迅速、⾼度に探し出します。 Watson Discoveryの特⻑ ⽂書構造を理解した取込 2
  16. © 2020 IBM Corporation 16 マニュアルのような⼤量ページで定型的な書式の⽂書を検索対象とする場合に有効です。 ! 検索⽂= “ How

    to reinstall watson explorer? “ Smart Document Understanding 動画デモ(⽇本語字幕付き ) https://youtu.be/Jpr3wVH3FVA 3ʼ:05” - SDU使⽤前 9ʼ:05” - SDU 使⽤後 SDU使⽤前の検索結果 SDU使⽤後の検索結果 SDUで⽂書の構造を教える l 検索結果は1ファイル l 注釈のようなものも検 索結果に含まれる l 意図に近い分割されたコ ンテンツが検索結果に表 ⽰される l 従来は⼿組みの前処理ロジックとしてアプリで実装してい た作業を、簡単なUIで指定できる
  17. エンティティ キーワード コンセプト リレーション センチメント エモーション(英語のみ) セマンティックロール カテゴリ カテゴリー付きの単語抽出 2つのEntityの関係(50種類程度)を特定

    重要なキーワードを抽出 5階層のカテゴリーに分類 含まれるコンセプトを抽出 主語/動作/対象を抽出 ポジティブ・ネガティブの判定 感情を判定(喜び/悲しみ/怒り/恐れ/嫌気) 学 習 済 み モ デ ル エンティティ リレーション カテゴリー付きの単語抽出 2つのEntityの関係を特定 カ ス タ ム 学 習 エンリッチメント 8つの情報抽出と意味付け
  18. © 2020 IBM Corporation 18 未分類の⽂書に複数の分類カテゴリー(ラベル )を割り当てます。 付与された分類カテゴリーは検索時に絞り込み条件として利⽤できます。 Watson Discoveryの特⻑

    標準&カスタムでメタ情報抽出 スポーツ 科学 スポーツ 政治 科学 ⽂書 分類カテゴリ トレーニングデータ • 正解ラベル付きの⽂書 • WDは同じラベルを持つ⽂書群から、そのラ ベルを付与するために、重視すべき特⻑を学 習します ⽂書分類 メディア スポーツサイエンスマガジン 出版社 Sport News Inc. ⽇付 2017/MM/DD タイトル 男⼦100m 世界新記録 本⽂ 靴をより速く⾛らせる技術の進 化は、100メートル⾛の記録の 改善に寄与する 経済 機械学習による⽂書分類 3
  19. Knowledge Studioによるカスタム学習 (エンティティ/リレーション) ⼀般道⾛⾏中にエンジンが⽌まった。 その後、再始動を試みたが、セルを⻑く回せばかかるようには なったが、エンジンチェックランプが点きっぱなしになった。 エンジン エンジンチェックランプ セル 点きっぱなし

    ⽌まった 影響する 影響する パーツ パーツ パーツ 不具合 不具合
  20. 検索 分析機能 検索 アグリゲーション 関連性学習(Relevancy Training) ⾃然⾔語での検索(Natural Language Query) パッセージ抽出

    ⽂書類似性照会 意味付けされた情報を活⽤した各種集計 (頻度・ヒストグラム・時系列etc) 質問と回答候補の関連性を学習させて 最適なランキングモデルに育てていく
  21. © 2020 IBM Corporation 21 l 他の回答よりも上位にランキングすべき回答を Watsonが提⽰し、ユーザーはより迅速に正し い回答を獲得 l

    学習のさせ⽅も、質問/適切な回答のペアを教 え込ませるだけでなく、利⽤と共に最も関連性 の⾼い回答を⾃動的に学習することもでき、⼿ 動トレーニングの時間と労⼒を削減 l モデル性能の改善も実際に使われたデータを 使ってトレーニング l 関連性の度合いを推定し、スコアを返すことが 可能 © 2019 IBM Corporation Watsonが質問と回答候補の関連性を学習することで、検索対象に対し最適なランキングモデルが育ちます。 (機能名︓Relevancy Training 関連性学習 ) Watson Discoveryの特⻑ ほしい情報を上位に表⽰ 4
  22. © 2020 IBM Corporation 22 ①質問する ②複数の回答が返る ③ベストな回答をクリックで紐付ける 質問と回答の関連性の学習イメージ

  23. Discovery 適⽤パターン 1. ⾃然⾔語での問い合わせ ü チャットボットとの組み合わせ ü ⾳声認識と組み合わせたオペレーター ⽀援 ü

    技術⽂書や業務マニュアルなどの検索 2. 特徴やトレンドの分析 ü お客様の声やSNS上の⼝コミ ü ニュース記事や特許などの外部情報の 分析 コンタクトセンターオペレーター⽀援 お客様の声分析
  24. © 2020 IBM Corporation 24 チャットボットとの組み合わせ Watson Assistant 質問の意図や表現お よびコンテキストにフォー

    カスし、それを条件とし て回答を判断 質問の意図 100s 100,000+ 頻度 Long Tail Turn on my headlights. My exhaust is making a rattling sound, how do I troubleshoot the problem? Short Tail FAQや定型的なタスク 取説・保守マニュアル等からの探索 法規制や税制度についての問い合わせ 関連事例についての照会 © 2018 International Business Machines Corporation 24 Watson Discovery 質問と回答の類似性に 焦点をおき回答候補を ランキングして提⽰
  25. 2. Watson Discovery 課題 DEMO

  26. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  27. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  28. 1. データ準備 DiscoveryにアップロードするPDFファイル6個が⼊ったzipファイルを を以下からダウンロードし、⾃分のPCに保存します︓ http://ibm.biz/dojo20201118 ログイン、サインアップはしなくてもダウンロードはできます。

  29. 1. データ準備 ダウンロードしたzipファイル IBM_Developer_blog_pdf.zipを解凍して 6個のPDFファイルが⼊っているのを確認します これらのファイルはIBM Developer Blogの記事をPDF化したものです https://developer.ibm.com/jp/blogs/

  30. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  31. 31 2. Watson Discoveryのセットアップ • IBM Cloud ログイン アカウントをすでにお持ちの⽅は、 IBMidを⼊⼒してこちらからログインしてください

    https://ibm.biz/Bdq5DWにアクセスしてログインします。 • IBM Cloud ライトアカウント作成 アカウントをお持ちでない⽅は、 ご登録をお願いします
  32. 32 2. Watson Discoveryのセットアップ 1. 「カタログ」をクリック

  33. 33 2. Watson Discoveryのセットアップ 2.左側のメニューから「サービス」→カテゴリ「AI」 をクリックし、 Watson Discovery をクリック

  34. 34 2. Watson Discoveryのセットアップ 3. リージョンの選択は「東京」を選択(その他のリージョンでも問題は ありません)。プランは「ライト」を確認して、右側の「作成」をク リック。

  35. 35 2. Watson Discoveryのセットアップ 4. リソースリストでの状況が「プロビジョンが進⾏中」から、 「アクティブ」になるまで待ちます(状況を更新するため適時ブラウ ザーをリロードしてみてください)。

  36. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  37. 37 3. Watson Discoveryの起動 1. リソースリストでの状況が「アクティブ」になったら、作成した Discoveryサービスの名前をクリックします。

  38. 38 3. Watson Discoveryの起動 2. 「 Watson Discoveryの起動」をクリックして、起動します。 バッジプログラム申請 キャプチャー画⾯

  39. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  40. 40 4.コレクションの作成と⽂書の取り込み 1. 最初のみ出てくる以下のメッセージは「Next」をクリックして、進 みます。最後に「Get Started」をクリックします。

  41. 41 4.コレクションの作成と⽂書の取り込み 2. 「Upload your own data」をクリックします。

  42. 42 4.コレクションの作成と⽂書の取り込み 3. 以下のような画⾯が表⽰された場合は「Set up with current plan」を クリックします。(ライトプランはトライアル⽤なので、本番に使う場 合はアップグレードしてくださいという警告です)

  43. 43 4.コレクションの作成と⽂書の取り込み 4. 以下の画⾯が表⽰されたら、「Continue」をクリックしてください。 尚、3と4の⿊い画⾯は初回のコレクションの作成時のみ表⽰されま す。

  44. 44 4.コレクションの作成と⽂書の取り込み 5. 以下の値をセットして「Create」をクリックします: Collection name: Developer Blog Select the

    language of your documents: Japanese を選択
  45. 45 4.コレクションの作成と⽂書の取り込み 6. 以下の画⾯が表⽰された場合は「Next」をクリックします。 (初回のみ表⽰)

  46. 46 4.コレクションの作成と⽂書の取り込み 7. 「Select Documents」をクリッ クし、ダウンロードした IBM_Developer_blog_pdf.zipを 解凍したフォルダを開く。 8. 以下の6ファイルを複数選択し

    て、「Open(開く)」をクリック • IBM_Developer_blog01.pdf • IBM_Developer_blog02.pdf • IBM_Developer_blog03.pdf • IBM_Developer_blog05.pdf • IBM_Developer_blog04.pdf (数字の付いているファイル全て) 複数選択は Win: [Ctrl]キーを押しながらクリック Mac: [command]キーを押しながらクリック
  47. 47 4.コレクションの作成と⽂書の取り込み 9. 3分ほど待ちます。取り込みが完了すると右の画⾯に変わります。

  48. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  49. 49 5. 照会の実⾏ 1. コレクションのサマリーが表⽰されています (この画⾯はコレクションの⼀覧からコレクションを選択して表⽰可能です) コレクション⼀覧 データスキーマ(データの中⾝) 検索 データメトリックス

    ロードした⽂書数 エンリッチメントのサマリー サンプル検索
  50. 50 5. 照会の実⾏ 2. データスキーマーのアイコンをクリックして確認します データスキーマ (データの中⾝) クリックするとどのような形 (スキーマ)でデータが⼊って いるかがわかる

    フィールド 単位 ⽂書単位
  51. 51 5. 照会の実⾏ 3. 検索のアイコンをクリックします 4. 「 Search for documents」をクリック

    5. Use natural languageの⼊⼒エリアに、「Dojoはいつ実施されますか」と⼊⼒ 6.下にある「Run query」をクリック 検索 3 4 5 6
  52. 5. 照会の実⾏ 7. 検索の結果が右側に表⽰されます サマリー JSONレスポンス

  53. 5. 照会の実⾏ 8. その他、下の2つではqueryを組み⽴て実⾏できます 参照: 照会⼊⾨ https://cloud.ibm.com/docs/discovery?topic=discovery-getting-started-with-querying

  54. 5. 照会の実⾏ 9. コレクション名「Developer Blog」をクリックしてサマリー画⾯に戻ります

  55. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け
  56. 6. Object Storageとの連携 1.Object Storage Serviceの追加(25GBまで無料) カタログà ストレージ à Object

    Storageと選択してください。 Createをクリック
  57. 6. Object Storageとの連携 2. バケット(複数のデータを⼊れておく⼊れ物、フォルダーの様なもの) カスタムバ ケットを選択

  58. 6. Object Storageとの連携 3. 以下のようにバケットを作成 任意の名前 今回はRegionalでデー タセンターの場所は東 京(jp-tok)にしました。 Standardを選択してください

    下にスクロールして“バケットの 作成”をクリックしてください
  59. 6. Object Storageとの連携 4. バケットにデータを⼊れていきましょう バケット名をクリックしてください アップロード à ファイルで先ほど使った ファイルをアップロード

    してください。
  60. 6. Object Storageとの連携 5. エンドポイント情報 後ほど使⽤します。メモしておいてください。 今回はRegional, jp-tokを選 んどいるのでそこのパブリッ クエンドポイントを使います。

  61. 6. Object Storageとの連携 6. サービス資格情報の作成 サービス資格情報を選んで新規資格情報をクリック 管理者を選んで、オプショ ンをクリックしてHMAC資 格情報を含めるをオンにし て最後に“追加”をクリック

  62. 6. Object Storageとの連携 7. サービス資格情報(access_key_id, secret_access_key) この2つの値をメモしてください ****************** *********************

  63. 6. Object Storageとの連携 8. Discoveryとの連携、Discoveryの画⾯に戻ってください。 Connect a data sourceをクリック ******************

    *********** IBM Cloud Object Storageを選択 エンドポイント、Access_key_id, Secret_Access_key を入力します
  64. 6. Object Storageとの連携 9. 連携するバケットの選択

  65. 6. Object Storageとの連携 オプション︓ツールを使ってobject storageへデータコピーをすることもできます。 ドラッグアンドコピーで データのコピー PC, Mac Object

    Storage MSP 360という無料のツールを使ってます。詳細は https://qiita.com/osonoi/items/afc72bec6c66326dcb29
  66. 2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ

    3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け(オプション)
  67. 6. Smart Document Understanding(SDU) エディターでの注釈付け Entity Extractionを⾒ると? ???

  68. 6. SDUエディターでの注釈付け どのPDFにもついていたFooterの内容でした → 内容と関係ないので分析対象からはずしたい この内容!

  69. 6. SDUエディターでの注釈付け Smart Document Understanding (SDU) を使⽤す ると、⽂書内のカスタム・フィールドを抽出するために、 Discovery をトレーニングすることができます。

    Discovery で⽂書の索引を作成する⽅法をカスタマイズ することで、アプリケーションから返される回答を改善 できます。 SDU では、⽂書内のフィールドに注釈を付けることでカ スタム変換モデルをトレーニングします。 ユーザーが注 釈を付けることで、Watson は学習を⾏い、注釈を予測 します。 ヘッダーやフッダーなど、不要な箇所を検索・分析さ せないようにしたい
  70. 6. SDUエディターでの注釈付け 1.右上の「Configure data」をクリックします。

  71. 6. SDUエディターでの注釈付け 2. 表⽰されているファイル名が「 IBM_Developer_blog01.pdf 」と異なる場合は、 ファイル名の右の下⽮印をクリックして、ファイル名「IBM_Developer_blog01.pdf 」 をクリックし、変更する

  72. 6. SDUエディターでの注釈付け 3. 右側のIdentify fieldsの「 header」をクリックします。 4. 左側のPDFイメージの位置関係を⾒ながら、「Blog Posts」にあたる部分を右側の⻩ ⾊ページでクリック、またはエリアをドラッグしてheaderエリアを指定します。

    3 4
  73. 6. SDUエディターでの注釈付け 5. 右側のIdentify fieldsの「title」をクリックします。 6. 左側のPDFイメージの位置関係を⾒ながら、「Women in Data Science

    TOKYO @ IBM を2020年6⽉5⽇(⾦)開催します」にあたる部分を右側の⻩⾊ページでクリック、ま たはエリアをドラッグしてtitleエリアを指定します。 5 6
  74. 6. SDUエディターでの注釈付け 7. 右側のIdentify fieldsの「author」をクリックします。 8. 左側のPDFイメージの位置関係を⾒ながら、「Kyoko Nishito」にあたる部分を右側の ⻩⾊ページでクリック、またはエリアをドラッグしてauthorエリアを指定します。 7

    8
  75. 6. SDUエディターでの注釈付け 9. 右側のIdentify fieldsの「subtitle」をクリックします。 10. 左側のPDFイメージの位置関係を⾒ながら「 Women in Data

    Science TOKYO @ IBM を 2020年6⽉5⽇(⾦)にオンライン開催します」にあたる部分を右側の⻩⾊ページ でクリック、またはエリアをドラッグしてsubtitleエリアを指定します。 9 10
  76. 6. SDUエディターでの注釈付け 11. 右下の「Submit page」をクリックします。

  77. 6. SDUエディターでの注釈付け 12. 右側のIdentify fieldsの「subtitle」をクリックします。 13. 左側のPDFイメージの位置関係を⾒ながら「 Women in Data

    Science(WiDS) 」と「 Women in Data Science (WiDS) Tokyo @ IBMを2020年6⽉5⽇(⾦)に開催し ます」にあたる部分を右側の⻩⾊ページでクリック、またはエリアをドラッグして subtitleエリアを指定します。 12 13 13
  78. 6. SDUエディターでの注釈付け 14. 右下の「Submit page」をクリックします。

  79. 6. SDUエディターでの注釈付け 15. 右側のIdentify fieldsの「text」をクリックします。 16. 左側のPDFイメージの位置関係を⾒ながら「ハッシュタグ: #WiDS2020, #WiDSTokyoIBM」までを右側の⻩⾊ページでクリック、またはエリアをドラッグして textエリアを指定します。

    15 16
  80. 6. SDUエディターでの注釈付け 17. 右側のIdentify fieldsの「footer」をクリックします。 18. 左側のPDFイメージの位置関係を⾒ながら「関連性の⾼いコンテンツ」以下を右側 の⻩⾊ページでクリック、またはエリアをドラッグしてfooterエリアを指定します。 17 18

  81. 6. SDUエディターでの注釈付け 19. 右下の「Submit page」をクリックします。

  82. 6. SDUエディターでの注釈付け 20. 右側のIdentify fieldsの「footer」をクリックします。 21. 全ての内容を右側の⻩⾊ページでクリック、またはエリアをドラッグしてfooterエ リアを指定します。 23.右下の「Submit page」をクリックします。

    20 21
  83. 6. SDUエディターでの注釈付け 24.(時間があれば)次に表⽰されたファイルも同様にheader, title, subtitle, text, footer に注釈付けします。 25. 注釈付けが終わったら、右上の「Apply

    changes to collection」をクリックします。
  84. 84 6. SDUエディターでの注釈付け 26. 「Select Documents」をク リックし、ダウンロードした IBM_Developer_blog_pdf.zipを 解凍したフォルダを開く。 27.

    以下の6ファイルを複数選択し て、「Open(開く)」をクリック • IBM_Developer_blog01.pdf • IBM_Developer_blog02.pdf • IBM_Developer_blog03.pdf • IBM_Developer_blog05.pdf • IBM_Developer_blog04.pdf (数字の付いているファイル全て) 複数選択は Win: [Ctrl]キーを押しながらクリック Mac: [command]キーを押しながらクリック
  85. 6. SDUエディターでの注釈付け 28. 画⾯が変わるまで3分程度待ちます。

  86. 6. SDUエディターでの注釈付け 29. 下記の画⾯が表⽰されたら「Developer Blog」をクリック

  87. 6. SDUエディターでの注釈付け 30. Entity Extractionがどのように変わったか確認してみましょう。 またDocumentのタグ付けも確認してみましょう。 ??? 以前のもの

  88. 3. まとめ • Watson Discoveryは多種多様な⼤量のドキュメ ントから適切な情報を引き出し、パターンや傾向 を読み取って適切な意思決定を⽀援するためのテ キスト検索・分析エンジン • SDUエディターで注釈付けをしてDiscoveryに学

    習させ、検索・分析の制度を上げることが可能
  89. 参考リンク Watson Discovery⼊⾨ https://developer.ibm.com/jp/articles/introduction-watson- discovery/ IBM Cloud資料: Discovery https://cloud.ibm.com/docs/discovery?topic=discovery- getting-started

  90. IBM Code Patterns https://ibm.biz/ibmcodejp 解説 + デモ動画 + ソースコードが揃ったアプリ開発パターン集

  91. 開発者向けサイト IBM Developer https://ibm.biz/IBMDevJP 最新情報やスキルアップに役⽴つ6,000を超える技術記事を提供

  92. 質問&ライブ投票参加 はこちら slido.com #dojo1118 質問タブで質問⼊⼒ ⾃分も知りたい質問には 「いいね」をプッシュ! スマホまたはPCでアクセスして ぜひ参加お願いします︕ https://app.sli.do/event/a7ynvwwp

  93. 補⾜資料

  94. © 2020 IBM Corporation 94 補⾜1 対応⾔語 l ⽇本語 l

    英語 l 中国語(簡体字・繁体字 ) l 韓国語 l アラビア語 l オランダ語 l ブラジル・ポルトガル語 l イタリア語 l ドイツ語 l スペイン語 l フランス語 l ロシア語 l チェコ語 l ポーランド語 l ルーマニア語 l スロバキア語
  95. © 2020 IBM Corporation 95 Queryの種類 技術者向け補⾜

  96. © 2020 IBM Corporation 96 演算⼦⼀覧 技術者向け補⾜

  97. © 2020 IBM Corporation 97 アグリゲーション(集約 )⼀覧 技術者向け補⾜

  98. © 2020 IBM Corporation 98 検索キーワードを登録された同義語に⾃動で展開します。BidirectionalとUnidirectionalの2種類があり、 synonymを定義したjsonをアップロードします。 synonym Bidirectionalの例 Unidirectionalの例

    技術者向け補⾜
  99. © 2020 IBM Corporation 99 ⽂書中に頻繁に出現する情報性のない単語を登録することで検索時のノイズを減らすことができます。 stopword https://github.com/watson-developer-cloud/doc-tutorial- downloads/blob/master/discovery-data/custom_stopwords_ja.json l

    Stopwordを定義したjsonをアップロード サンプル { "stopwords": [ ”I", "the", "and", ”have" ] } ※デフォルトサンプルへのリンクがマニュアル上に存在 ※コレクションごとにアップロードが必要 ※更新後はindexを再作成する必要あり 技術者向け補⾜
  100. © 2020 IBM Corporation 100 例えば、 • ユーザーがより効果的なクエリを作成できるように、関連す る⽤語セットまたは「ファセット」を⾃動的に識別します。 •

    従来のファセットのような構造化された値を必要とするので はなく、⾮構造化テキストコンテンツからの教師なし学習を 使⽤します。 ユーザーが実現できること l ビジネス上の問題に関連するコンテンツの コーパスを効率的に探索できます l ガイド付きのエクスペリエンスに従って、 コーパス内の関連する結果にすばやく検索を絞り込みます © 2019 IBM Corporation Dynamic Facet、Dictionary Suggestion(辞書構築⽀援 )、 Curation(beta ) 機能の強化により、より⾼ 度な検索を可能にします。 Watson Discoveryの特⻑ ほしい情報を上位に表⽰ 4 * Watson Discovery for Cloud Pak for dataのみでの提供機能
  101. © 2020 IBM Corporation 101 検索語句に関連するトピックから⾃動⽣成されます。 コレクションの中のドキュメントから学習された機械学習モデルを利⽤しています。 ファセットを選択することにより検索結果から、検索結果を絞り込むのに役⽴ちます。 ⾼度な検索⽀援 動的ファセット

    (機能名:Dynamic Facets) * Watson Discovery for Cloud Pak for dataのみでの提供機能
  102. © 2020 IBM Corporation 102 登録する辞書を選択した後、オントレクション(教師なし機械学習に基づく類似使⽤語検出 )を参照して類 似の⽂脈で使われているその他の単語を⾃動検出して登録候補としてリコメンドし、その場でワンクリック するだけで登録が完了します。 ⾼度な検索⽀援

    辞書登録⽀援ツール(機能名:Dictionary Suggestions) 例 )⾃動⾞の不具合報告書の分析で、「ブレーキ」や「フットブレーキ」をPartsと登録すると 類似の候補として「ブレーキパッ ド」「キャリパー」などをPartsの 候補として提案 例えば、⾷べ物関連の辞書と して「ゼリー」という単語を 登録した際、同じ分析対象デ ータ内の類似の⽂脈で使われ ていた「ゼリー」「アイスク リーム」や「クッキー」を類 推して⾃動検出します * Watson Discovery for Cloud Pak for dataのみでの提供機能
  103. © 2020 IBM Corporation 103 コンポーネントのリスト l Search bar l

    Autocomplete l Spelling Correction l Search results l Passages l Table Retrieval l Search facets l Custom facets l Dynamic facets l Collection filter l Document preview l Document Preview with Content Intelligence ユーザーのアプリケーションに簡単に組み込むことができるUIコンポーネントを提供します。 検索アプリケーションに使⽤する(再利⽤可能な )UIコンポーネントのセットが追加され、検索アプリケー ションの構築を迅速に⾏うことが可能になりました。 検索コンポーネント (Reusable Components ) * Watson Discovery for Cloud Pak for dataのみでの提供機能
  104. © 2020 IBM Corporation 104 分析機能 (Content Miner ) Watson

    Explorer の分析機能を Watson Discovery に統合 ⼤量のテキストからキーワードを抽出し可視化 着⽬すべきキーワードを推薦し、業務ユーザーの知⾒獲得を⽀援 深い分析⼿法を使⽤して、データセットを探索し、隠れ た洞察を明らかにするエンドユーザーインターフェイス 技術者以外のユーザーがより迅速に開始できるようにす るためのセットアップフローの簡素化 ⾼度なカスタマーケア分析のユースケースを可能にしま す。 ・Voice of the Customer のより深い洞察 ・製品の問題の根本原因の分析 ・販売とマーケティングの有効性を分析 Watson Discovery の検索機能に加え、強⼒な⾃然⽂データの分析機能をご利⽤いただけます。 Watson Discoveryの特⻑ ⼤量ドキュメントから気づきを得る 5 * Watson Discovery for Cloud Pak for dataのみでの提供機能
  105. © 2020 IBM Corporation 105 数千万もの⽂書を多様な分析アプローチでリアルタイムに分析します。 特⻑性の⾼速計算(特許保有 )により、テキスト情報のビッグデータ分析を実現します。 ビックデータに対応、多様な分析アプローチの提供 トピック分析

    トレンド分析 接続分析 相関分析 評判分析 ペア分析 * Watson Discovery for Cloud Pak for dataのみでの提供機能
  106. © 2020 IBM Corporation 106 出現数を⽰す「カウント」ではなく、絞込み条件と⾔葉との関連の強さを表す「相関」により少数であって も際⽴った特⻑を得られます。 知⾒の抽出 - 相関値により埋もれている特⻑も発⾒できる例

    「カウント」…キーワードを含む⽂書の総数 「相関」…全⽂書⺟集団に対する分析⺟集団でのキーワードの割合 ある条件下における特⻑を発⾒するには、単なる件数でなく「相関値」が重要な指標 カウント(件数 ) … 通常はこの値に のみ頼って分析=同じ件数なら⽂書 の中をすべて⾒てみるしかない たとえば右図でカウントが 19件のワードは4⽂書ある が、相関値なら⾒て明らか な「キューブ×ランプが点 灯」という特⻑的事象が、 件数だけでは⾒つからない 相関… WDは相関と頻度の両⽅で分 析=同じ19件頻出の中でも特⻑が 潜む⽂書が読む前に⾒つかる 相関値が際⽴って⾼い︕ 何か特⻑がありそうだ︕ * Watson Discovery for Cloud Pak for dataのみでの提供機能
  107. © 2020 IBM Corporation 107 時系列における データの出現頻度の推移を把握し異常値を分析します。 指定期間における頻度と予想平均頻度のずれを可視化することができます。 トピック分析 107

    * Watson Discovery for Cloud Pak for dataのみでの提供機能
  108. © 2020 IBM Corporation 108 Content Minerのユーザーインターフェースは、初⼼者ユーザー向けの「ガイド付きモード」と、Watson Explorer v11までのUIに慣れたユーザー向けの「エキスパート・モード」があります。 2種類のユーザーインタフェースモード

    ガイド付きモード エキスパート・モード * Watson Discovery for Cloud Pak for dataのみでの提供機能
  109. 免責事項 109 IBM Developer Dojoは開発者の⽅を対象に、IBM Cloudを主とした技術情報をお伝えする⽬的で開催しています。 講師や運営スタッフにより、開催毎に最適と判断した内容でお届けしています。 現在、ハンズオンを伴う講義はお客様の費⽤負担がない環境と⼿順でご案内しています。講義終了後、不要に なりました制作物はお客様ご⾃⾝で削除をお願いいたします。クレジットカードの登録が伴わない場合、費⽤は ⼀切発⽣致しませんが、ご登録いただいたお客様はご注意ください。

    講師陣はみなさまの利⽤状況を個別に確認することはできません。 ご理解とご協⼒をお願いいたします。 利⽤したサービスの削除⽅法については講義の中でご案内します。 ご不明な点がございましたら、当⽇確認をお願いいたします。 講義終了後、 IBM Developer Dojoに関するお問い合わせは「Slack」にお願いします。それ以外のIBM Cloudの お問い合わせにつきましては、弊社サポートセンターまで、次のいづれかの⽅法でお問い合わせください。 IBM Cloudダッシュボードの「サポート」メニューから「Case」を作成し、英語でご記⼊ください IBM Cloudサポートセンター「相談する」ボタンからチャットまたは電話でご連絡ください https://www.ibm.com/jp-ja/cloud/support ご参加ありがとうございました。
  110. None