Slide 1

Slide 1 text

IBM Dojo Watson Discoveryを使ったAI検索体験 Yasushi Osonoi Developer Advocate Tokyo City Team

Slide 2

Slide 2 text

小薗井 康志 日本IBM Developer Advocacy Group, Client Developer Advocate ブログ: https://qiita.com/osonoi (Qiita) https://blogs.itmedia.co.jp/osonoi/ (IT Media) Twitter: @osonoi Facebook: @osonoi 珍しい名前なのでたいがい “osonoi”で発見できます。

Slide 3

Slide 3 text

質問&ライブ投票参加 はこちら slido.com #dojo1118 質問タブで質問⼊⼒ ⾃分も知りたい質問には 「いいね」をプッシュ! スマホまたはPCでアクセスして ぜひ参加お願いします︕ https://app.sli.do/event/a7ynvwwp

Slide 4

Slide 4 text

本⽇のタイムテーブル 14:00-14:05 (5min) オープニング 資料ダウンロード,出席登録など 14:05-15:00 (55min) Discovery⼊⾨ <座学+課題DEMO> 15:00-15:15 (15min) 課題の説明とQ&A

Slide 5

Slide 5 text

出席登録 こちらのURLにアクセスして、IBM Cloudにログイン お願いします。 アカウント未登録の⽅も こちらから登録お願いします。 https://ibm.biz/Bdq5DW

Slide 6

Slide 6 text

1. データ準備 DiscoveryにアップロードするPDFファイル6個が⼊ったzipファイルを を以下からダウンロードし、⾃分のPCに保存します︓ http://ibm.biz/dojo20201118 ログイン、サインアップはしなくてもダウンロードはできます。

Slide 7

Slide 7 text

学習の⽬的とゴール ⽬的 Discovery概要について理解する ゴール Discoveryに実際にデータを⼊れ、検索を体験する このコースを学ぶ⽅の想定スキル 前回までのDojoの必須課題をこなせる程度のスキルがある Discoveryを初めて使う⽅

Slide 8

Slide 8 text

説明順序 1. Watson Discovery概要 2. Watson Discovery課題DEMO 3. まとめ 4. 課題

Slide 9

Slide 9 text

2. Watson Discovery 概要

Slide 10

Slide 10 text

© 2020 IBM Corporation 10 多種多様・⼤量の ドキュメント Watson AI型検索 Watson Discoveryは多種多様な⼤量のドキュメントから適切な情報を引き出し、 パターンや傾向を読み取って適切な意思決定を⽀援するためのテキスト検索・分析エンジンです。 ⽂章の構造や特定の業界、企業特有の表現を教え込み、特有の業務もより賢く⽀援することができます。 Watson Discovery とは サポートデスクとのやりとりで 顧客が⼀番多く⾔及している⾔葉 は何か? 今回実施したキャンペーンは、 この30⽇間に何回ネット上で評価 されたか? ロックのかかったアカウントで、 新しい接続をセットアップするに はどうしたらいいか︖

Slide 11

Slide 11 text

© 2020 IBM Corporation 11 専⾨家 顧客 テキストデータを活⽤するために有⽤な最新のAIテクノロジーによる機能をご利⽤いただけます。 Watson Discovery 主な機能 * Watson Discovery for Cloud Pak for dataのみでの提供機能 Watson Assistant Search Skill Watson Assistantから 接続して会話として表⽰ ロングテールの質問対応 ①データ収集・取込 ②エンリッチメント ③検索・分析* Content Repository Connectivity Extract meaning Teach domain concepts Search Enhancement l クリック操作で設定可能な接 続性 l ⽂書から品詞、感情など特⻑ 抽出 l 業界固有の⾔葉のAI学習 l 検索結果の分類 * l AI型辞書登録⽀援 * l カテゴリ分類学習 * l 質問に対する回答の学習 l パッセージの抽出 Smart Document Understanding l カテゴリ分類学習* Content Miner * l ドキュメント構造を学習 l テーブル情報の抽出 l ガイド型のテキスト分析

Slide 12

Slide 12 text

© 2020 IBM Corporation 12 Watson Discoveryの5つの特⻑ データソースへの簡単な接続 ⽂書構造を理解した取込 標準&カスタムでメタ情報抽出 ほしい情報を上位に表⽰ ⼤量ドキュメントから気づきを得る* 1 2 3 4 5 • Watson Discovery for Cloud Pak for dataのみでの提供機能、今回は説明しません ご興味あれば資料の最後の補⾜を参考にしてください。

Slide 13

Slide 13 text

APIからの 取り込み データ・ソース 接続から取込 (次ページ参照) Discoveryツール からの取り込み データ収集・取込 3つの⽂書の取込⽅法 HTML PDF WORD JSON • Box • Salesforce • Microsoft SharePoint Online • Microsoft SharePoint 2016 On- Premise • Web Crawl • IBM Cloud オブジェクト・ストレージ データの 変換と加⼯ To JSON Smart Document Understanding 以下のファイル・タイプが取り込み可能です:

Slide 14

Slide 14 text

© 2020 IBM Corporation 14 多様な情報源に接続するための、クリック操作で設定できるコネクターを提供します。 Watson Discoveryの特⻑ データソースへの簡単な接続 l Box* l SharePoint Online* l SharePoint 2013/2016/2019* l Salesforce l Webサイト l Windows File System* l Database (JDBC ) l IBM Cloud Object Storage * ⽂書単位のアクセス権チェックが含まれる + カスタムコネクター https://cloud.ibm.com/docs/discovery-data?topic=discovery-data-connector-dev 1

Slide 15

Slide 15 text

© 2020 IBM Corporation 15 Watsonが⽂書の構造を理解して検索 (機能名︓Smart Document Understanding ) 効果 l ヘッダーやフッダーなど、不要な箇所を検索させないと いった、検索時のノイズの除去が可能 l ⻑く繋がった⽂書も分割して認識し効率的な検索を実⾏ l タイトル+本⽂、といった検索ができるので、FAQの Q&Aのペアを探し出すようなことも可能 l 特定のコンテンツに絞り込む検索 等 l スキャンされた画像ファイル内のテキストを識別(OCR機能 ) l PDF、Word、Excel、PowerPoint、PNG、JPG、TIFF ファイ ル形式に対応 l ⽂章中のテーブルの⾏や列、ラベルといった構造を理解 l 学習はポイント&クリックの容易な作業 200-300のラベリングされたページに て99%の精度を達成(開発部⾨でのテス ト結果/同種のドキュメントに限る) 学習作業画⾯ Watsonが⽂書の構造を学習し、ユーザーの検索時にほしい情報を効率よく迅速、⾼度に探し出します。 Watson Discoveryの特⻑ ⽂書構造を理解した取込 2

Slide 16

Slide 16 text

© 2020 IBM Corporation 16 マニュアルのような⼤量ページで定型的な書式の⽂書を検索対象とする場合に有効です。 ! 検索⽂= “ How to reinstall watson explorer? “ Smart Document Understanding 動画デモ(⽇本語字幕付き ) https://youtu.be/Jpr3wVH3FVA 3ʼ:05” - SDU使⽤前 9ʼ:05” - SDU 使⽤後 SDU使⽤前の検索結果 SDU使⽤後の検索結果 SDUで⽂書の構造を教える l 検索結果は1ファイル l 注釈のようなものも検 索結果に含まれる l 意図に近い分割されたコ ンテンツが検索結果に表 ⽰される l 従来は⼿組みの前処理ロジックとしてアプリで実装してい た作業を、簡単なUIで指定できる

Slide 17

Slide 17 text

エンティティ キーワード コンセプト リレーション センチメント エモーション(英語のみ) セマンティックロール カテゴリ カテゴリー付きの単語抽出 2つのEntityの関係(50種類程度)を特定 重要なキーワードを抽出 5階層のカテゴリーに分類 含まれるコンセプトを抽出 主語/動作/対象を抽出 ポジティブ・ネガティブの判定 感情を判定(喜び/悲しみ/怒り/恐れ/嫌気) 学 習 済 み モ デ ル エンティティ リレーション カテゴリー付きの単語抽出 2つのEntityの関係を特定 カ ス タ ム 学 習 エンリッチメント 8つの情報抽出と意味付け

Slide 18

Slide 18 text

© 2020 IBM Corporation 18 未分類の⽂書に複数の分類カテゴリー(ラベル )を割り当てます。 付与された分類カテゴリーは検索時に絞り込み条件として利⽤できます。 Watson Discoveryの特⻑ 標準&カスタムでメタ情報抽出 スポーツ 科学 スポーツ 政治 科学 ⽂書 分類カテゴリ トレーニングデータ • 正解ラベル付きの⽂書 • WDは同じラベルを持つ⽂書群から、そのラ ベルを付与するために、重視すべき特⻑を学 習します ⽂書分類 メディア スポーツサイエンスマガジン 出版社 Sport News Inc. ⽇付 2017/MM/DD タイトル 男⼦100m 世界新記録 本⽂ 靴をより速く⾛らせる技術の進 化は、100メートル⾛の記録の 改善に寄与する 経済 機械学習による⽂書分類 3

Slide 19

Slide 19 text

Knowledge Studioによるカスタム学習 (エンティティ/リレーション) ⼀般道⾛⾏中にエンジンが⽌まった。 その後、再始動を試みたが、セルを⻑く回せばかかるようには なったが、エンジンチェックランプが点きっぱなしになった。 エンジン エンジンチェックランプ セル 点きっぱなし ⽌まった 影響する 影響する パーツ パーツ パーツ 不具合 不具合

Slide 20

Slide 20 text

検索 分析機能 検索 アグリゲーション 関連性学習(Relevancy Training) ⾃然⾔語での検索(Natural Language Query) パッセージ抽出 ⽂書類似性照会 意味付けされた情報を活⽤した各種集計 (頻度・ヒストグラム・時系列etc) 質問と回答候補の関連性を学習させて 最適なランキングモデルに育てていく

Slide 21

Slide 21 text

© 2020 IBM Corporation 21 l 他の回答よりも上位にランキングすべき回答を Watsonが提⽰し、ユーザーはより迅速に正し い回答を獲得 l 学習のさせ⽅も、質問/適切な回答のペアを教 え込ませるだけでなく、利⽤と共に最も関連性 の⾼い回答を⾃動的に学習することもでき、⼿ 動トレーニングの時間と労⼒を削減 l モデル性能の改善も実際に使われたデータを 使ってトレーニング l 関連性の度合いを推定し、スコアを返すことが 可能 © 2019 IBM Corporation Watsonが質問と回答候補の関連性を学習することで、検索対象に対し最適なランキングモデルが育ちます。 (機能名︓Relevancy Training 関連性学習 ) Watson Discoveryの特⻑ ほしい情報を上位に表⽰ 4

Slide 22

Slide 22 text

© 2020 IBM Corporation 22 ①質問する ②複数の回答が返る ③ベストな回答をクリックで紐付ける 質問と回答の関連性の学習イメージ

Slide 23

Slide 23 text

Discovery 適⽤パターン 1. ⾃然⾔語での問い合わせ ü チャットボットとの組み合わせ ü ⾳声認識と組み合わせたオペレーター ⽀援 ü 技術⽂書や業務マニュアルなどの検索 2. 特徴やトレンドの分析 ü お客様の声やSNS上の⼝コミ ü ニュース記事や特許などの外部情報の 分析 コンタクトセンターオペレーター⽀援 お客様の声分析

Slide 24

Slide 24 text

© 2020 IBM Corporation 24 チャットボットとの組み合わせ Watson Assistant 質問の意図や表現お よびコンテキストにフォー カスし、それを条件とし て回答を判断 質問の意図 100s 100,000+ 頻度 Long Tail Turn on my headlights. My exhaust is making a rattling sound, how do I troubleshoot the problem? Short Tail FAQや定型的なタスク 取説・保守マニュアル等からの探索 法規制や税制度についての問い合わせ 関連事例についての照会 © 2018 International Business Machines Corporation 24 Watson Discovery 質問と回答の類似性に 焦点をおき回答候補を ランキングして提⽰

Slide 25

Slide 25 text

2. Watson Discovery 課題 DEMO

Slide 26

Slide 26 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け

Slide 27

Slide 27 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け

Slide 28

Slide 28 text

1. データ準備 DiscoveryにアップロードするPDFファイル6個が⼊ったzipファイルを を以下からダウンロードし、⾃分のPCに保存します︓ http://ibm.biz/dojo20201118 ログイン、サインアップはしなくてもダウンロードはできます。

Slide 29

Slide 29 text

1. データ準備 ダウンロードしたzipファイル IBM_Developer_blog_pdf.zipを解凍して 6個のPDFファイルが⼊っているのを確認します これらのファイルはIBM Developer Blogの記事をPDF化したものです https://developer.ibm.com/jp/blogs/

Slide 30

Slide 30 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け

Slide 31

Slide 31 text

31 2. Watson Discoveryのセットアップ • IBM Cloud ログイン アカウントをすでにお持ちの⽅は、 IBMidを⼊⼒してこちらからログインしてください https://ibm.biz/Bdq5DWにアクセスしてログインします。 • IBM Cloud ライトアカウント作成 アカウントをお持ちでない⽅は、 ご登録をお願いします

Slide 32

Slide 32 text

32 2. Watson Discoveryのセットアップ 1. 「カタログ」をクリック

Slide 33

Slide 33 text

33 2. Watson Discoveryのセットアップ 2.左側のメニューから「サービス」→カテゴリ「AI」 をクリックし、 Watson Discovery をクリック

Slide 34

Slide 34 text

34 2. Watson Discoveryのセットアップ 3. リージョンの選択は「東京」を選択(その他のリージョンでも問題は ありません)。プランは「ライト」を確認して、右側の「作成」をク リック。

Slide 35

Slide 35 text

35 2. Watson Discoveryのセットアップ 4. リソースリストでの状況が「プロビジョンが進⾏中」から、 「アクティブ」になるまで待ちます(状況を更新するため適時ブラウ ザーをリロードしてみてください)。

Slide 36

Slide 36 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け

Slide 37

Slide 37 text

37 3. Watson Discoveryの起動 1. リソースリストでの状況が「アクティブ」になったら、作成した Discoveryサービスの名前をクリックします。

Slide 38

Slide 38 text

38 3. Watson Discoveryの起動 2. 「 Watson Discoveryの起動」をクリックして、起動します。 バッジプログラム申請 キャプチャー画⾯

Slide 39

Slide 39 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け

Slide 40

Slide 40 text

40 4.コレクションの作成と⽂書の取り込み 1. 最初のみ出てくる以下のメッセージは「Next」をクリックして、進 みます。最後に「Get Started」をクリックします。

Slide 41

Slide 41 text

41 4.コレクションの作成と⽂書の取り込み 2. 「Upload your own data」をクリックします。

Slide 42

Slide 42 text

42 4.コレクションの作成と⽂書の取り込み 3. 以下のような画⾯が表⽰された場合は「Set up with current plan」を クリックします。(ライトプランはトライアル⽤なので、本番に使う場 合はアップグレードしてくださいという警告です)

Slide 43

Slide 43 text

43 4.コレクションの作成と⽂書の取り込み 4. 以下の画⾯が表⽰されたら、「Continue」をクリックしてください。 尚、3と4の⿊い画⾯は初回のコレクションの作成時のみ表⽰されま す。

Slide 44

Slide 44 text

44 4.コレクションの作成と⽂書の取り込み 5. 以下の値をセットして「Create」をクリックします: Collection name: Developer Blog Select the language of your documents: Japanese を選択

Slide 45

Slide 45 text

45 4.コレクションの作成と⽂書の取り込み 6. 以下の画⾯が表⽰された場合は「Next」をクリックします。 (初回のみ表⽰)

Slide 46

Slide 46 text

46 4.コレクションの作成と⽂書の取り込み 7. 「Select Documents」をクリッ クし、ダウンロードした IBM_Developer_blog_pdf.zipを 解凍したフォルダを開く。 8. 以下の6ファイルを複数選択し て、「Open(開く)」をクリック • IBM_Developer_blog01.pdf • IBM_Developer_blog02.pdf • IBM_Developer_blog03.pdf • IBM_Developer_blog05.pdf • IBM_Developer_blog04.pdf (数字の付いているファイル全て) 複数選択は Win: [Ctrl]キーを押しながらクリック Mac: [command]キーを押しながらクリック

Slide 47

Slide 47 text

47 4.コレクションの作成と⽂書の取り込み 9. 3分ほど待ちます。取り込みが完了すると右の画⾯に変わります。

Slide 48

Slide 48 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け

Slide 49

Slide 49 text

49 5. 照会の実⾏ 1. コレクションのサマリーが表⽰されています (この画⾯はコレクションの⼀覧からコレクションを選択して表⽰可能です) コレクション⼀覧 データスキーマ(データの中⾝) 検索 データメトリックス ロードした⽂書数 エンリッチメントのサマリー サンプル検索

Slide 50

Slide 50 text

50 5. 照会の実⾏ 2. データスキーマーのアイコンをクリックして確認します データスキーマ (データの中⾝) クリックするとどのような形 (スキーマ)でデータが⼊って いるかがわかる フィールド 単位 ⽂書単位

Slide 51

Slide 51 text

51 5. 照会の実⾏ 3. 検索のアイコンをクリックします 4. 「 Search for documents」をクリック 5. Use natural languageの⼊⼒エリアに、「Dojoはいつ実施されますか」と⼊⼒ 6.下にある「Run query」をクリック 検索 3 4 5 6

Slide 52

Slide 52 text

5. 照会の実⾏ 7. 検索の結果が右側に表⽰されます サマリー JSONレスポンス

Slide 53

Slide 53 text

5. 照会の実⾏ 8. その他、下の2つではqueryを組み⽴て実⾏できます 参照: 照会⼊⾨ https://cloud.ibm.com/docs/discovery?topic=discovery-getting-started-with-querying

Slide 54

Slide 54 text

5. 照会の実⾏ 9. コレクション名「Developer Blog」をクリックしてサマリー画⾯に戻ります

Slide 55

Slide 55 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け

Slide 56

Slide 56 text

6. Object Storageとの連携 1.Object Storage Serviceの追加(25GBまで無料) カタログà ストレージ à Object Storageと選択してください。 Createをクリック

Slide 57

Slide 57 text

6. Object Storageとの連携 2. バケット(複数のデータを⼊れておく⼊れ物、フォルダーの様なもの) カスタムバ ケットを選択

Slide 58

Slide 58 text

6. Object Storageとの連携 3. 以下のようにバケットを作成 任意の名前 今回はRegionalでデー タセンターの場所は東 京(jp-tok)にしました。 Standardを選択してください 下にスクロールして“バケットの 作成”をクリックしてください

Slide 59

Slide 59 text

6. Object Storageとの連携 4. バケットにデータを⼊れていきましょう バケット名をクリックしてください アップロード à ファイルで先ほど使った ファイルをアップロード してください。

Slide 60

Slide 60 text

6. Object Storageとの連携 5. エンドポイント情報 後ほど使⽤します。メモしておいてください。 今回はRegional, jp-tokを選 んどいるのでそこのパブリッ クエンドポイントを使います。

Slide 61

Slide 61 text

6. Object Storageとの連携 6. サービス資格情報の作成 サービス資格情報を選んで新規資格情報をクリック 管理者を選んで、オプショ ンをクリックしてHMAC資 格情報を含めるをオンにし て最後に“追加”をクリック

Slide 62

Slide 62 text

6. Object Storageとの連携 7. サービス資格情報(access_key_id, secret_access_key) この2つの値をメモしてください ****************** *********************

Slide 63

Slide 63 text

6. Object Storageとの連携 8. Discoveryとの連携、Discoveryの画⾯に戻ってください。 Connect a data sourceをクリック ****************** *********** IBM Cloud Object Storageを選択 エンドポイント、Access_key_id, Secret_Access_key を入力します

Slide 64

Slide 64 text

6. Object Storageとの連携 9. 連携するバケットの選択

Slide 65

Slide 65 text

6. Object Storageとの連携 オプション︓ツールを使ってobject storageへデータコピーをすることもできます。 ドラッグアンドコピーで データのコピー PC, Mac Object Storage MSP 360という無料のツールを使ってます。詳細は https://qiita.com/osonoi/items/afc72bec6c66326dcb29

Slide 66

Slide 66 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Object Storageとの連携 7. Smart Document Understandingエディ ターでの注釈付け(オプション)

Slide 67

Slide 67 text

6. Smart Document Understanding(SDU) エディターでの注釈付け Entity Extractionを⾒ると? ???

Slide 68

Slide 68 text

6. SDUエディターでの注釈付け どのPDFにもついていたFooterの内容でした → 内容と関係ないので分析対象からはずしたい この内容!

Slide 69

Slide 69 text

6. SDUエディターでの注釈付け Smart Document Understanding (SDU) を使⽤す ると、⽂書内のカスタム・フィールドを抽出するために、 Discovery をトレーニングすることができます。 Discovery で⽂書の索引を作成する⽅法をカスタマイズ することで、アプリケーションから返される回答を改善 できます。 SDU では、⽂書内のフィールドに注釈を付けることでカ スタム変換モデルをトレーニングします。 ユーザーが注 釈を付けることで、Watson は学習を⾏い、注釈を予測 します。 ヘッダーやフッダーなど、不要な箇所を検索・分析さ せないようにしたい

Slide 70

Slide 70 text

6. SDUエディターでの注釈付け 1.右上の「Configure data」をクリックします。

Slide 71

Slide 71 text

6. SDUエディターでの注釈付け 2. 表⽰されているファイル名が「 IBM_Developer_blog01.pdf 」と異なる場合は、 ファイル名の右の下⽮印をクリックして、ファイル名「IBM_Developer_blog01.pdf 」 をクリックし、変更する

Slide 72

Slide 72 text

6. SDUエディターでの注釈付け 3. 右側のIdentify fieldsの「 header」をクリックします。 4. 左側のPDFイメージの位置関係を⾒ながら、「Blog Posts」にあたる部分を右側の⻩ ⾊ページでクリック、またはエリアをドラッグしてheaderエリアを指定します。 3 4

Slide 73

Slide 73 text

6. SDUエディターでの注釈付け 5. 右側のIdentify fieldsの「title」をクリックします。 6. 左側のPDFイメージの位置関係を⾒ながら、「Women in Data Science TOKYO @ IBM を2020年6⽉5⽇(⾦)開催します」にあたる部分を右側の⻩⾊ページでクリック、ま たはエリアをドラッグしてtitleエリアを指定します。 5 6

Slide 74

Slide 74 text

6. SDUエディターでの注釈付け 7. 右側のIdentify fieldsの「author」をクリックします。 8. 左側のPDFイメージの位置関係を⾒ながら、「Kyoko Nishito」にあたる部分を右側の ⻩⾊ページでクリック、またはエリアをドラッグしてauthorエリアを指定します。 7 8

Slide 75

Slide 75 text

6. SDUエディターでの注釈付け 9. 右側のIdentify fieldsの「subtitle」をクリックします。 10. 左側のPDFイメージの位置関係を⾒ながら「 Women in Data Science TOKYO @ IBM を 2020年6⽉5⽇(⾦)にオンライン開催します」にあたる部分を右側の⻩⾊ページ でクリック、またはエリアをドラッグしてsubtitleエリアを指定します。 9 10

Slide 76

Slide 76 text

6. SDUエディターでの注釈付け 11. 右下の「Submit page」をクリックします。

Slide 77

Slide 77 text

6. SDUエディターでの注釈付け 12. 右側のIdentify fieldsの「subtitle」をクリックします。 13. 左側のPDFイメージの位置関係を⾒ながら「 Women in Data Science(WiDS) 」と「 Women in Data Science (WiDS) Tokyo @ IBMを2020年6⽉5⽇(⾦)に開催し ます」にあたる部分を右側の⻩⾊ページでクリック、またはエリアをドラッグして subtitleエリアを指定します。 12 13 13

Slide 78

Slide 78 text

6. SDUエディターでの注釈付け 14. 右下の「Submit page」をクリックします。

Slide 79

Slide 79 text

6. SDUエディターでの注釈付け 15. 右側のIdentify fieldsの「text」をクリックします。 16. 左側のPDFイメージの位置関係を⾒ながら「ハッシュタグ: #WiDS2020, #WiDSTokyoIBM」までを右側の⻩⾊ページでクリック、またはエリアをドラッグして textエリアを指定します。 15 16

Slide 80

Slide 80 text

6. SDUエディターでの注釈付け 17. 右側のIdentify fieldsの「footer」をクリックします。 18. 左側のPDFイメージの位置関係を⾒ながら「関連性の⾼いコンテンツ」以下を右側 の⻩⾊ページでクリック、またはエリアをドラッグしてfooterエリアを指定します。 17 18

Slide 81

Slide 81 text

6. SDUエディターでの注釈付け 19. 右下の「Submit page」をクリックします。

Slide 82

Slide 82 text

6. SDUエディターでの注釈付け 20. 右側のIdentify fieldsの「footer」をクリックします。 21. 全ての内容を右側の⻩⾊ページでクリック、またはエリアをドラッグしてfooterエ リアを指定します。 23.右下の「Submit page」をクリックします。 20 21

Slide 83

Slide 83 text

6. SDUエディターでの注釈付け 24.(時間があれば)次に表⽰されたファイルも同様にheader, title, subtitle, text, footer に注釈付けします。 25. 注釈付けが終わったら、右上の「Apply changes to collection」をクリックします。

Slide 84

Slide 84 text

84 6. SDUエディターでの注釈付け 26. 「Select Documents」をク リックし、ダウンロードした IBM_Developer_blog_pdf.zipを 解凍したフォルダを開く。 27. 以下の6ファイルを複数選択し て、「Open(開く)」をクリック • IBM_Developer_blog01.pdf • IBM_Developer_blog02.pdf • IBM_Developer_blog03.pdf • IBM_Developer_blog05.pdf • IBM_Developer_blog04.pdf (数字の付いているファイル全て) 複数選択は Win: [Ctrl]キーを押しながらクリック Mac: [command]キーを押しながらクリック

Slide 85

Slide 85 text

6. SDUエディターでの注釈付け 28. 画⾯が変わるまで3分程度待ちます。

Slide 86

Slide 86 text

6. SDUエディターでの注釈付け 29. 下記の画⾯が表⽰されたら「Developer Blog」をクリック

Slide 87

Slide 87 text

6. SDUエディターでの注釈付け 30. Entity Extractionがどのように変わったか確認してみましょう。 またDocumentのタグ付けも確認してみましょう。 ??? 以前のもの

Slide 88

Slide 88 text

3. まとめ • Watson Discoveryは多種多様な⼤量のドキュメ ントから適切な情報を引き出し、パターンや傾向 を読み取って適切な意思決定を⽀援するためのテ キスト検索・分析エンジン • SDUエディターで注釈付けをしてDiscoveryに学 習させ、検索・分析の制度を上げることが可能

Slide 89

Slide 89 text

参考リンク Watson Discovery⼊⾨ https://developer.ibm.com/jp/articles/introduction-watson- discovery/ IBM Cloud資料: Discovery https://cloud.ibm.com/docs/discovery?topic=discovery- getting-started

Slide 90

Slide 90 text

IBM Code Patterns https://ibm.biz/ibmcodejp 解説 + デモ動画 + ソースコードが揃ったアプリ開発パターン集

Slide 91

Slide 91 text

開発者向けサイト IBM Developer https://ibm.biz/IBMDevJP 最新情報やスキルアップに役⽴つ6,000を超える技術記事を提供

Slide 92

Slide 92 text

質問&ライブ投票参加 はこちら slido.com #dojo1118 質問タブで質問⼊⼒ ⾃分も知りたい質問には 「いいね」をプッシュ! スマホまたはPCでアクセスして ぜひ参加お願いします︕ https://app.sli.do/event/a7ynvwwp

Slide 93

Slide 93 text

補⾜資料

Slide 94

Slide 94 text

© 2020 IBM Corporation 94 補⾜1 対応⾔語 l ⽇本語 l 英語 l 中国語(簡体字・繁体字 ) l 韓国語 l アラビア語 l オランダ語 l ブラジル・ポルトガル語 l イタリア語 l ドイツ語 l スペイン語 l フランス語 l ロシア語 l チェコ語 l ポーランド語 l ルーマニア語 l スロバキア語

Slide 95

Slide 95 text

© 2020 IBM Corporation 95 Queryの種類 技術者向け補⾜

Slide 96

Slide 96 text

© 2020 IBM Corporation 96 演算⼦⼀覧 技術者向け補⾜

Slide 97

Slide 97 text

© 2020 IBM Corporation 97 アグリゲーション(集約 )⼀覧 技術者向け補⾜

Slide 98

Slide 98 text

© 2020 IBM Corporation 98 検索キーワードを登録された同義語に⾃動で展開します。BidirectionalとUnidirectionalの2種類があり、 synonymを定義したjsonをアップロードします。 synonym Bidirectionalの例 Unidirectionalの例 技術者向け補⾜

Slide 99

Slide 99 text

© 2020 IBM Corporation 99 ⽂書中に頻繁に出現する情報性のない単語を登録することで検索時のノイズを減らすことができます。 stopword https://github.com/watson-developer-cloud/doc-tutorial- downloads/blob/master/discovery-data/custom_stopwords_ja.json l Stopwordを定義したjsonをアップロード サンプル { "stopwords": [ ”I", "the", "and", ”have" ] } ※デフォルトサンプルへのリンクがマニュアル上に存在 ※コレクションごとにアップロードが必要 ※更新後はindexを再作成する必要あり 技術者向け補⾜

Slide 100

Slide 100 text

© 2020 IBM Corporation 100 例えば、 • ユーザーがより効果的なクエリを作成できるように、関連す る⽤語セットまたは「ファセット」を⾃動的に識別します。 • 従来のファセットのような構造化された値を必要とするので はなく、⾮構造化テキストコンテンツからの教師なし学習を 使⽤します。 ユーザーが実現できること l ビジネス上の問題に関連するコンテンツの コーパスを効率的に探索できます l ガイド付きのエクスペリエンスに従って、 コーパス内の関連する結果にすばやく検索を絞り込みます © 2019 IBM Corporation Dynamic Facet、Dictionary Suggestion(辞書構築⽀援 )、 Curation(beta ) 機能の強化により、より⾼ 度な検索を可能にします。 Watson Discoveryの特⻑ ほしい情報を上位に表⽰ 4 * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 101

Slide 101 text

© 2020 IBM Corporation 101 検索語句に関連するトピックから⾃動⽣成されます。 コレクションの中のドキュメントから学習された機械学習モデルを利⽤しています。 ファセットを選択することにより検索結果から、検索結果を絞り込むのに役⽴ちます。 ⾼度な検索⽀援 動的ファセット (機能名:Dynamic Facets) * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 102

Slide 102 text

© 2020 IBM Corporation 102 登録する辞書を選択した後、オントレクション(教師なし機械学習に基づく類似使⽤語検出 )を参照して類 似の⽂脈で使われているその他の単語を⾃動検出して登録候補としてリコメンドし、その場でワンクリック するだけで登録が完了します。 ⾼度な検索⽀援 辞書登録⽀援ツール(機能名:Dictionary Suggestions) 例 )⾃動⾞の不具合報告書の分析で、「ブレーキ」や「フットブレーキ」をPartsと登録すると 類似の候補として「ブレーキパッ ド」「キャリパー」などをPartsの 候補として提案 例えば、⾷べ物関連の辞書と して「ゼリー」という単語を 登録した際、同じ分析対象デ ータ内の類似の⽂脈で使われ ていた「ゼリー」「アイスク リーム」や「クッキー」を類 推して⾃動検出します * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 103

Slide 103 text

© 2020 IBM Corporation 103 コンポーネントのリスト l Search bar l Autocomplete l Spelling Correction l Search results l Passages l Table Retrieval l Search facets l Custom facets l Dynamic facets l Collection filter l Document preview l Document Preview with Content Intelligence ユーザーのアプリケーションに簡単に組み込むことができるUIコンポーネントを提供します。 検索アプリケーションに使⽤する(再利⽤可能な )UIコンポーネントのセットが追加され、検索アプリケー ションの構築を迅速に⾏うことが可能になりました。 検索コンポーネント (Reusable Components ) * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 104

Slide 104 text

© 2020 IBM Corporation 104 分析機能 (Content Miner ) Watson Explorer の分析機能を Watson Discovery に統合 ⼤量のテキストからキーワードを抽出し可視化 着⽬すべきキーワードを推薦し、業務ユーザーの知⾒獲得を⽀援 深い分析⼿法を使⽤して、データセットを探索し、隠れ た洞察を明らかにするエンドユーザーインターフェイス 技術者以外のユーザーがより迅速に開始できるようにす るためのセットアップフローの簡素化 ⾼度なカスタマーケア分析のユースケースを可能にしま す。 ・Voice of the Customer のより深い洞察 ・製品の問題の根本原因の分析 ・販売とマーケティングの有効性を分析 Watson Discovery の検索機能に加え、強⼒な⾃然⽂データの分析機能をご利⽤いただけます。 Watson Discoveryの特⻑ ⼤量ドキュメントから気づきを得る 5 * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 105

Slide 105 text

© 2020 IBM Corporation 105 数千万もの⽂書を多様な分析アプローチでリアルタイムに分析します。 特⻑性の⾼速計算(特許保有 )により、テキスト情報のビッグデータ分析を実現します。 ビックデータに対応、多様な分析アプローチの提供 トピック分析 トレンド分析 接続分析 相関分析 評判分析 ペア分析 * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 106

Slide 106 text

© 2020 IBM Corporation 106 出現数を⽰す「カウント」ではなく、絞込み条件と⾔葉との関連の強さを表す「相関」により少数であって も際⽴った特⻑を得られます。 知⾒の抽出 - 相関値により埋もれている特⻑も発⾒できる例 「カウント」…キーワードを含む⽂書の総数 「相関」…全⽂書⺟集団に対する分析⺟集団でのキーワードの割合 ある条件下における特⻑を発⾒するには、単なる件数でなく「相関値」が重要な指標 カウント(件数 ) … 通常はこの値に のみ頼って分析=同じ件数なら⽂書 の中をすべて⾒てみるしかない たとえば右図でカウントが 19件のワードは4⽂書ある が、相関値なら⾒て明らか な「キューブ×ランプが点 灯」という特⻑的事象が、 件数だけでは⾒つからない 相関… WDは相関と頻度の両⽅で分 析=同じ19件頻出の中でも特⻑が 潜む⽂書が読む前に⾒つかる 相関値が際⽴って⾼い︕ 何か特⻑がありそうだ︕ * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 107

Slide 107 text

© 2020 IBM Corporation 107 時系列における データの出現頻度の推移を把握し異常値を分析します。 指定期間における頻度と予想平均頻度のずれを可視化することができます。 トピック分析 107 * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 108

Slide 108 text

© 2020 IBM Corporation 108 Content Minerのユーザーインターフェースは、初⼼者ユーザー向けの「ガイド付きモード」と、Watson Explorer v11までのUIに慣れたユーザー向けの「エキスパート・モード」があります。 2種類のユーザーインタフェースモード ガイド付きモード エキスパート・モード * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 109

Slide 109 text

免責事項 109 IBM Developer Dojoは開発者の⽅を対象に、IBM Cloudを主とした技術情報をお伝えする⽬的で開催しています。 講師や運営スタッフにより、開催毎に最適と判断した内容でお届けしています。 現在、ハンズオンを伴う講義はお客様の費⽤負担がない環境と⼿順でご案内しています。講義終了後、不要に なりました制作物はお客様ご⾃⾝で削除をお願いいたします。クレジットカードの登録が伴わない場合、費⽤は ⼀切発⽣致しませんが、ご登録いただいたお客様はご注意ください。 講師陣はみなさまの利⽤状況を個別に確認することはできません。 ご理解とご協⼒をお願いいたします。 利⽤したサービスの削除⽅法については講義の中でご案内します。 ご不明な点がございましたら、当⽇確認をお願いいたします。 講義終了後、 IBM Developer Dojoに関するお問い合わせは「Slack」にお願いします。それ以外のIBM Cloudの お問い合わせにつきましては、弊社サポートセンターまで、次のいづれかの⽅法でお問い合わせください。 IBM Cloudダッシュボードの「サポート」メニューから「Case」を作成し、英語でご記⼊ください IBM Cloudサポートセンター「相談する」ボタンからチャットまたは電話でご連絡ください https://www.ibm.com/jp-ja/cloud/support ご参加ありがとうございました。

Slide 110

Slide 110 text

No content