Slide 1

Slide 1 text

Extra Dojo #10 Watson Discoveryを使ったAI検索体験 Kyoko Nishito Developer Advocate Tokyo City Team

Slide 2

Slide 2 text

Kyoko Nishito ⻄⼾ 京⼦ IBM Developer Advocate 2 KyokoNishito

Slide 3

Slide 3 text

質問&ライブ投票参加 はこちら slido.com #dojo0803 質問タブで質問⼊⼒ ⾃分も知りたい質問には 「いいね」をプッシュ! スマホまたはPCでアクセスして ぜひ参加お願いします︕ 8/3 Watson Discoveryを使ったAI検索体験 https://app.sli.do/event/xpbmkdtp

Slide 4

Slide 4 text

本⽇のタイムテーブル 14:00-14:05 (5min) オープニング 資料ダウンロード,出席登録など 14:05-15:00 (55min) Discovery⼊⾨ <座学+課題DEMO> 15:00-15:15 (15min) 課題の説明とQ&A

Slide 5

Slide 5 text

本⽇の資料 本⽇の資料はこちらからPCにダウンロードお願いし ます。URLをクリックしたり、コマンドをコピペしたりでき ますので、サイトでみるのではなく、ダウンロードをお勧めし ます。(connpassの資料にもリンクあり) http://ibm.biz/dojo20200803doc

Slide 6

Slide 6 text

出席登録 こちらのURLにアクセスして、IBM Cloudにログイン お願いします。 http://ibm.biz/dojo0803 アカウント未登録の⽅も こちらから登録お願いします。

Slide 7

Slide 7 text

7 「 IBM Cloud and AI Developer Essentials」のbadge申込みについて - 2020年6⽉1⽇より開始のIBM Developer Dojo 12回シリーズと同様の内容のIBM Developer Dojoのクラスが対象 https://www.ibm.com/jp-ja/partnerworld/events/developer-dojo ※録画も利⽤可能です。 - スキルアップのため全クラスの受講をお奨めします。 - 12回のクラスのうちPAYGアカウントまたはサブスクリプションを必要としない8つのクラスの課題を実施 - 次⾴で紹介している8クラスのうち5クラスの課題について指定された結果で⾃分のアカウントが⾒えるようにスクリーンショットを撮影 - 5クラス分の課題のスクリーンショットをPDFまたはJPEG、PNGなどイメージファイルにして以下の情報と⼀緒に事務局に送付 ※1:名前(⽇本語、ローマ字)、email address、会社名(企業所属の場合)、 課題のスクリーンショットのセッション名と画像ファイル名 ※2:メールのタイトルは『IBM Cloud and AI Developer Essentials」のbadge申請』 ※3:申請先︓Online Developer Dojo バッジ事務局 (ビジネス・パートナープログラム ヘルプデスク [email protected] ) - 提出した課題が承認されるとAcclaimからバッジが発⾏されます。 ※バッジ発⾏のためにこれ以外の処理が発⽣する場合、別途ご連絡させていただきます - Acclaimのバッジの紹介 https://www.youracclaim.com/org/ibm/badge/ibm-cloud-and-ai-developer-essentials Badge スクリーンショットの例 “バッジ取得プログラム”のご案内 IBM Cloud and AI Developer Essentials

Slide 8

Slide 8 text

IBM Cloud and AI Developer Essentials 8 「IBM Cloud and AI Developer Essentials」 badgeの対象セッションについて - 対象の課題は、ライトアカウントで課題が実施できる〇が付いているセッションです。 バッジ申請とお問い合わせは、Online Developer Dojo バッジ事務局 (ビジネス・パートナープログラム ヘルプデスク [email protected] ) Badge バッジ対象 回 初夏のDojo Xtra dojo 研修内容 〇 1 5/13(⽔) 6/1 (⽉) はじめてのクラウド 〜20分でWebサイトを作成しよう〜 - 2 - 6/8 (⽉) スケーラブルなWebアプリケーションをKubernetesで構築する - 3 5/27(⽔) 6/15 (⽉) OpenShift ⼊⾨ 〜Watson を使ったWebアプリを試そう〜 〇 4 6/3(⽔) 6/22 (⽉) IBM Cloudでビジュアルプログラミング IoT/Node-RED⼊⾨ 〇 5 6/10(⽔) 6/29 (⽉) AI (Watson API) アプリ開発 on OpenShift 〇 6 6/17(⽔) 7/6 (⽉) Auto AI を使ったらくらく機械学習 - 7 6/24(⽔) 7/13 (⽉) QuarkusでJava モダナイゼーション - 8 7/1(⽔) 7/20 (⽉) Hyperledger Fabricでかんたんにブロックチェーンを始めよう 〇 9 7/8(⽔) 7/27 (⽉) Kabaneroを使ったクラウド・ネイティブなアプリ開発を体験 〇 10 7/15(⽔) 8/03(⽉) Watson Discovery を使ったAI検索体験 〇 11 7/22(⽔) 8/17 (⽉) IBM Cloud Functionsでサーバレスを始めよう 〇 12 - 8/24 (⽉) AI Advance: 公平で説明可能なAI

Slide 9

Slide 9 text

学習の⽬的とゴール ⽬的 Discovery概要について理解する ゴール Discoveryに実際にデータを⼊れ、検索を体験する このコースを学ぶ⽅の想定スキル 前回までのDojoの必須課題をこなせる程度のスキルがある Discoveryを初めて使う⽅

Slide 10

Slide 10 text

説明順序 1. Watson Discovery概要 2. Watson Discovery課題DEMO 3. まとめ 4. 課題

Slide 11

Slide 11 text

2. Watson Discovery 概要

Slide 12

Slide 12 text

© 2020 IBM Corporation 12 多種多様・⼤量の ドキュメント Watson AI型検索 Watson Discoveryは多種多様な⼤量のドキュメントから適切な情報を引き出し、 パターンや傾向を読み取って適切な意思決定を⽀援するためのテキスト検索・分析エンジンです。 ⽂章の構造や特定の業界、企業特有の表現を教え込み、特有の業務もより賢く⽀援することができます。 Watson Discovery とは サポートデスクとのやりとりで 顧客が⼀番多く⾔及している⾔葉 は何か? 今回実施したキャンペーンは、 この30⽇間に何回ネット上で評価 されたか? ロックのかかったアカウントで、 新しい接続をセットアップするに はどうしたらいいか︖

Slide 13

Slide 13 text

© 2020 IBM Corporation 13 専⾨家 顧客 テキストデータを活⽤するために有⽤な最新のAIテクノロジーによる機能をご利⽤いただけます。 Watson Discovery 主な機能 * Watson Discovery for Cloud Pak for dataのみでの提供機能 Watson Assistant Search Skill Watson Assistantから 接続して会話として表⽰ ロングテールの質問対応 ①データ収集・取込 ②エンリッチメント ③検索・分析* Content Repository Connectivity Extract meaning Teach domain concepts Search Enhancement l クリック操作で設定可能な接 続性 l ⽂書から品詞、感情など特⻑ 抽出 l 業界固有の⾔葉のAI学習 l 検索結果の分類 * l AI型辞書登録⽀援 * l カテゴリ分類学習 * l 質問に対する回答の学習 l パッセージの抽出 Smart Document Understanding l カテゴリ分類学習* Content Miner * l ドキュメント構造を学習 l テーブル情報の抽出 l ガイド型のテキスト分析

Slide 14

Slide 14 text

© 2020 IBM Corporation 14 Watson Discoveryの5つの特⻑ データソースへの簡単な接続 ⽂書構造を理解した取込 標準&カスタムでメタ情報抽出 ほしい情報を上位に表⽰ ⼤量ドキュメントから気づきを得る* 1 2 3 4 5 • Watson Discovery for Cloud Pak for dataのみでの提供機能、今回は説明しません ご興味あれば資料の最後の補⾜を参考にしてください。

Slide 15

Slide 15 text

データをインサイト(洞察)に変える 3つのステップ データ収集・取込 エンリッチメント 検索

Slide 16

Slide 16 text

APIからの 取り込み データ・ソース 接続から取込 (次ページ参照) Discoveryツール からの取り込み データ収集・取込 3つの⽂書の取込⽅法 HTML PDF WORD JSON • Box • Salesforce • Microsoft SharePoint Online • Microsoft SharePoint 2016 On- Premise • Web Crawl • IBM Cloud オブジェクト・ストレージ データの 変換と加⼯ To JSON Smart Document Understanding 以下のファイル・タイプが取り込み可能です:

Slide 17

Slide 17 text

© 2020 IBM Corporation 17 多様な情報源に接続するための、クリック操作で設定できるコネクターを提供します。 Watson Discoveryの特⻑ データソースへの簡単な接続 l Box* l SharePoint Online* l SharePoint 2013/2016/2019* l Salesforce l Webサイト l Windows File System* l Database (JDBC ) * ⽂書単位のアクセス権チェックが含まれる + カスタムコネクター https://cloud.ibm.com/docs/discovery-data?topic=discovery-data-connector-dev 1

Slide 18

Slide 18 text

© 2020 IBM Corporation 18 Watsonが⽂書の構造を理解して検索 (機能名︓Smart Document Understanding ) 効果 l ヘッダーやフッダーなど、不要な箇所を検索させないと いった、検索時のノイズの除去が可能 l ⻑く繋がった⽂書も分割して認識し効率的な検索を実⾏ l タイトル+本⽂、といった検索ができるので、FAQの Q&Aのペアを探し出すようなことも可能 l 特定のコンテンツに絞り込む検索 等 l スキャンされた画像ファイル内のテキストを識別(OCR機能 ) l PDF、Word、Excel、PowerPoint、PNG、JPG、TIFF ファイ ル形式に対応 l ⽂章中のテーブルの⾏や列、ラベルといった構造を理解 l 学習はポイント&クリックの容易な作業 200-300のラベリングされたページに て99%の精度を達成(開発部⾨でのテス ト結果/同種のドキュメントに限る) 学習作業画⾯ Watsonが⽂書の構造を学習し、ユーザーの検索時にほしい情報を効率よく迅速、⾼度に探し出します。 Watson Discoveryの特⻑ ⽂書構造を理解した取込 2

Slide 19

Slide 19 text

© 2020 IBM Corporation 19 マニュアルのような⼤量ページで定型的な書式の⽂書を検索対象とする場合に有効です。 ● 検索⽂= “ How to reinstall watson explorer? “ Smart Document Understanding 動画デモ(⽇本語字幕付き ) https://youtu.be/Jpr3wVH3FVA 3ʼ:05” - SDU使⽤前 9ʼ:05” - SDU 使⽤後 SDU使⽤前の検索結果 SDU使⽤後の検索結果 SDUで⽂書の構造を教える l 検索結果は1ファイル l 注釈のようなものも検 索結果に含まれる l 意図に近い分割されたコ ンテンツが検索結果に表 ⽰される l 従来は⼿組みの前処理ロジックとしてアプリで実装してい た作業を、簡単なUIで指定できる

Slide 20

Slide 20 text

エンティティ キーワード コンセプト リレーション センチメント エモーション(英語のみ) セマンティックロール カテゴリ カテゴリー付きの単語抽出 2つのEntityの関係(50種類程度)を特定 重要なキーワードを抽出 5階層のカテゴリーに分類 含まれるコンセプトを抽出 主語/動作/対象を抽出 ポジティブ・ネガティブの判定 感情を判定(喜び/悲しみ/怒り/恐れ/嫌気) 学 習 済 み モ デ ル エンティティ リレーション カテゴリー付きの単語抽出 2つのEntityの関係を特定 カ ス タ ム 学 習 エンリッチメント 8つの情報抽出と意味付け

Slide 21

Slide 21 text

© 2020 IBM Corporation 21 未分類の⽂書に複数の分類カテゴリー(ラベル )を割り当てます。 付与された分類カテゴリーは検索時に絞り込み条件として利⽤できます。 Watson Discoveryの特⻑ 標準&カスタムでメタ情報抽出 スポーツ 科学 スポーツ 政治 科学 ⽂書 分類カテゴリ トレーニングデータ • 正解ラベル付きの⽂書 • WDは同じラベルを持つ⽂書群から、そのラ ベルを付与するために、重視すべき特⻑を学 習します ⽂書分類 メディア スポーツサイエンスマガジン 出版社 Sport News Inc. ⽇付 2017/MM/DD タイトル 男⼦100m 世界新記録 本⽂ 靴をより速く⾛らせる技術の進 化は、100メートル⾛の記録の 改善に寄与する 経済 機械学習による⽂書分類 3

Slide 22

Slide 22 text

© 2020 IBM Corporation 22 n Natural Language Understanding 機能によ り⾃動抽出されるメタ情報 • ⼈名/地名/会社名など • ネガティブ/ポジティブ/ニュートラル • ⽂の構造 等 メタ情報が付加された結果 型番 A-500 カテゴリ ドラム式 装置名 タンク 障害事象 振動⾳ 障害事象 ⽣乾き Negative 排⽔しない Negative 困る Watsonの エンリッチメント 原⽂ 対応履歴 型番(定型データ )︓ A-500 対応履歴(⾮定型データ )︓ 貴社のドラム式洗濯機が、最近ひどい振動⾳ がするのです。乾燥も⽣乾きになることがあ るし、タンクの⽔が時々排⽔しなくなること があったりして困ります。 n 付属の学習ツール Watson Knowledge Studio を使ったカスタムなメタ情報の抽出 • 商品名、装置名など • 業務特有の情報(例︓障害事象 ) • ⽂の構造 等 付与されたメタ情報を組み合わせることにより業務固有のカテゴリ階層を作成し、精度の⾼い検索や分析で 利⽤できるようになります。さらにルールの記述でなく、機械学習モデルによるメタ情報を付与する Watson Knowledge Studio と連携も可能です。 Watson Discoveryの特⻑ 標準&カスタムでメタ情報抽出 3

Slide 23

Slide 23 text

Knowledge Studioによるカスタム学習 (エンティティ/リレーション) ⼀般道⾛⾏中にエンジンが⽌まった。 その後、再始動を試みたが、セルを⻑く回せばかかるようには なったが、エンジンチェックランプが点きっぱなしになった。 エンジン エンジンチェックランプ セル 点きっぱなし ⽌まった 影響する 影響する パーツ パーツ パーツ 不具合 不具合

Slide 24

Slide 24 text

検索 分析機能 検索 アグリゲーション 関連性学習(Relevancy Training) ⾃然⾔語での検索(Natural Language Query) パッセージ抽出 ⽂書類似性照会 意味付けされた情報を活⽤した各種集計 (頻度・ヒストグラム・時系列etc) 質問と回答候補の関連性を学習させて 最適なランキングモデルに育てていく

Slide 25

Slide 25 text

© 2020 IBM Corporation 25 l 他の回答よりも上位にランキングすべき回答を Watsonが提⽰し、ユーザーはより迅速に正し い回答を獲得 l 学習のさせ⽅も、質問/適切な回答のペアを教 え込ませるだけでなく、利⽤と共に最も関連性 の⾼い回答を⾃動的に学習することもでき、⼿ 動トレーニングの時間と労⼒を削減 l モデル性能の改善も実際に使われたデータを 使ってトレーニング l 関連性の度合いを推定し、スコアを返すことが 可能 © 2019 IBM Corporation Watsonが質問と回答候補の関連性を学習することで、検索対象に対し最適なランキングモデルが育ちます。 (機能名︓Relevancy Training 関連性学習 ) Watson Discoveryの特⻑ ほしい情報を上位に表⽰ 4

Slide 26

Slide 26 text

© 2020 IBM Corporation 26 ①質問する ②複数の回答が返る ③ベストな回答をクリックで紐付ける 質問と回答の関連性の学習イメージ

Slide 27

Slide 27 text

Discovery 適⽤パターン 1. ⾃然⾔語での問い合わせ ü チャットボットとの組み合わせ ü ⾳声認識と組み合わせたオペレーター ⽀援 ü 技術⽂書や業務マニュアルなどの検索 2. 特徴やトレンドの分析 ü お客様の声やSNS上の⼝コミ ü ニュース記事や特許などの外部情報の 分析 コンタクトセンターオペレーター⽀援 お客様の声分析

Slide 28

Slide 28 text

© 2020 IBM Corporation 28 チャットボットとの組み合わせ Watson Assistant 質問の意図や表現お よびコンテキストにフォー カスし、それを条件とし て回答を判断 質問の意図 100s 100,000+ 頻度 Long Tail Turn on my headlights. My exhaust is making a rattling sound, how do I troubleshoot the problem? Short Tail FAQや定型的なタスク 取説・保守マニュアル等からの探索 法規制や税制度についての問い合わせ 関連事例についての照会 © 2018 International Business Machines Corporation 28 Watson Discovery 質問と回答の類似性に 焦点をおき回答候補を ランキングして提⽰

Slide 29

Slide 29 text

2. Watson Discovery 課題 DEMO

Slide 30

Slide 30 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Smart Document Understandingエディ ターでの注釈付け

Slide 31

Slide 31 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Smart Document Understandingエディ ターでの注釈付け

Slide 32

Slide 32 text

1. データ準備 DiscoveryにアップロードするPDFファイル6個が⼊ったzipファイルを を以下からダウンロードし、⾃分のPCに保存します︓ https://ibm.box.com/v/dojo2020-discovery-pdf-data

Slide 33

Slide 33 text

1. データ準備 ダウンロードしたzipファイル IBM_Developer_blog_pdf.zipを解凍して 6個のPDFファイルが⼊っているのを確認します これらのファイルはIBM Developer Blogの記事をPDF化したものです https://developer.ibm.com/jp/blogs/

Slide 34

Slide 34 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Smart Document Understandingエディ ターでの注釈付け

Slide 35

Slide 35 text

35 2. Watson Discoveryのセットアップ • IBM Cloud ログイン アカウントをすでにお持ちの⽅は、 IBMidを⼊⼒してこちらからログインしてください https://cloud.ibm.com/loginにアクセスしてログインします。 • IBM Cloud ライトアカウント作成 アカウントをお持ちでない⽅は、 ご登録をお願いします

Slide 36

Slide 36 text

36 2. Watson Discoveryのセットアップ 1. 「カタログ」をクリック

Slide 37

Slide 37 text

37 2. Watson Discoveryのセットアップ 2.左側のメニューから「サービス」→カテゴリ「AI/ Machine Learning 」 をクリックし、Discovery をクリック

Slide 38

Slide 38 text

38 2. Watson Discoveryのセットアップ 3. リージョンの選択は「東京」を選択(その他のリージョンでも問題は ありません)。プランは「ライト」を確認して、右側の「作成」をク リック。

Slide 39

Slide 39 text

39 2. Watson Discoveryのセットアップ 4. リソースリストでの状況が「プロビジョンが進⾏中」から、 「アクティブ」になるまで待ちます(状況を更新するため適時ブラウ ザーをリロード(再読み込み)してみてください)。

Slide 40

Slide 40 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Smart Document Understandingエディ ターでの注釈付け

Slide 41

Slide 41 text

41 3. Watson Discoveryの起動 1. リソースリストでの状況が「アクティブ」になったら、作成した Discoveryサービスの名前をクリックします。

Slide 42

Slide 42 text

42 3. Watson Discoveryの起動 2. 「 Watson Discoveryの起動」をクリックして、起動します。 バッジプログラム申請 キャプチャー画⾯

Slide 43

Slide 43 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Smart Document Understandingエディ ターでの注釈付け

Slide 44

Slide 44 text

44 4.コレクションの作成と⽂書の取り込み 1. 最初のみ出てくる以下のメッセージは「Next」をクリックして、進 みます。最後に「Get Started」をクリックします。

Slide 45

Slide 45 text

45 4.コレクションの作成と⽂書の取り込み 2. 「Upload your own data」をクリックします。

Slide 46

Slide 46 text

46 4.コレクションの作成と⽂書の取り込み 3. 以下のような画⾯が表⽰された場合は「Set up with current plan」を クリックします。(ライトプランはトライアル⽤なので、本番に使う場 合はアップグレードしてくださいという警告です)

Slide 47

Slide 47 text

47 4.コレクションの作成と⽂書の取り込み 4. 以下の画⾯が表⽰されたら、「Continue」をクリックしてください。 尚、3と4の⿊い画⾯は初回のコレクションの作成時のみ表⽰されま す。

Slide 48

Slide 48 text

48 4.コレクションの作成と⽂書の取り込み 5. 以下の値をセットして「Create」をクリックします: Collection name: Developer Blog Select the language of your documents: Japanese を選択

Slide 49

Slide 49 text

49 4.コレクションの作成と⽂書の取り込み 6. 以下の画⾯が表⽰された場合は「Next」をクリックします。 (初回のみ表⽰)

Slide 50

Slide 50 text

50 4.コレクションの作成と⽂書の取り込み 7. 「Select Documents」をクリッ クし、ダウンロードした IBM_Developer_blog_pdf.zipを 解凍したフォルダを開く。 8. 以下の5ファイルを複数選択し て、「Open(開く)」をクリック • IBM_Developer_blog01.pdf • IBM_Developer_blog02.pdf • IBM_Developer_blog03.pdf • IBM_Developer_blog05.pdf • IBM_Developer_blog04.pdf (数字の付いているファイル全て) 複数選択は Win: [Ctrl]キーを押しながらクリック Mac: [command]キーを押しながらクリック

Slide 51

Slide 51 text

51 4.コレクションの作成と⽂書の取り込み 9. 3分ほど待ちます。取り込みが完了すると右の画⾯に変わります。

Slide 52

Slide 52 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Smart Document Understandingエディ ターでの注釈付け

Slide 53

Slide 53 text

53 5. 照会の実⾏ 1. コレクションのサマリーが表⽰されています (この画⾯はコレクションの⼀覧からコレクションを選択して表⽰可能です) コレクション⼀覧 データスキーマ(データの中⾝) 検索 データメトリックス ロードした⽂書数 エンリッチメントのサマリー サンプル検索

Slide 54

Slide 54 text

54 5. 照会の実⾏ 2. データスキーマーのアイコンをクリックして確認します データスキーマ (データの中⾝) クリックするとどのような形 (スキーマ)でデータが⼊って いるかがわかる フィールド 単位 ⽂書単位

Slide 55

Slide 55 text

55 5. 照会の実⾏ 3. 検索のアイコンをクリックします 4. 「 Search for documents」をクリック 5. Use natural languageの⼊⼒エリアに、「Dojoはいつ実施されますか」と⼊⼒ 6.下にある「Run query」をクリック 検索 3 4 5 6

Slide 56

Slide 56 text

5. 照会の実⾏ 7. 検索の結果が右側に表⽰されます サマリー JSONレスポンス

Slide 57

Slide 57 text

5. 照会の実⾏ 8. その他、下の2つではqueryを組み⽴て実⾏できます 参照: 照会⼊⾨ https://cloud.ibm.com/docs/discovery?topic=discovery-getting-started-with-querying

Slide 58

Slide 58 text

5. 照会の実⾏ 9. コレクション名「Developer Blog」をクリックしてサマリー画⾯に戻ります

Slide 59

Slide 59 text

2. Watson Discovery 課題 DEMO 1. データ準備 2. Watson Discoveryのセットアップ 3. Watson Discoveryの起動 4. コレクションの作成と⽂書の取り込み 5. 照会の実⾏ 6. Smart Document Understandingエディ ターでの注釈付け

Slide 60

Slide 60 text

6. Smart Document Understanding(SDU) エディターでの注釈付け Entity Extractionを⾒ると? ???

Slide 61

Slide 61 text

6. SDUエディターでの注釈付け どのPDFにもついていたFooterの内容でした → 内容と関係ないので分析対象からはずしたい この内容!

Slide 62

Slide 62 text

6. SDUエディターでの注釈付け Smart Document Understanding (SDU) を使⽤す ると、⽂書内のカスタム・フィールドを抽出するために、 Discovery をトレーニングすることができます。 Discovery で⽂書の索引を作成する⽅法をカスタマイズ することで、アプリケーションから返される回答を改善 できます。 SDU では、⽂書内のフィールドに注釈を付けることでカ スタム変換モデルをトレーニングします。 ユーザーが注 釈を付けることで、Watson は学習を⾏い、注釈を予測 します。 ヘッダーやフッダーなど、不要な箇所を検索・分析さ せないようにしたい

Slide 63

Slide 63 text

6. SDUエディターでの注釈付け 1.右上の「Configure data」をクリックします。

Slide 64

Slide 64 text

6. SDUエディターでの注釈付け 2. 表⽰されているファイル名が「 IBM_Developer_blog01.pdf 」と異なる場合は、 ファイル名の右の下⽮印をクリックして、ファイル名「IBM_Developer_blog01.pdf 」 をクリックし、変更する

Slide 65

Slide 65 text

6. SDUエディターでの注釈付け 3. 右側のIdentify fieldsの「 header」をクリックします。 4. 左側のPDFイメージの位置関係を⾒ながら、「Blog Posts」にあたる部分を右側の⻩ ⾊ページでクリック、またはエリアをドラッグしてheaderエリアを指定します。 3 4

Slide 66

Slide 66 text

6. SDUエディターでの注釈付け 5. 右側のIdentify fieldsの「title」をクリックします。 6. 左側のPDFイメージの位置関係を⾒ながら、「Women in Data Science TOKYO @ IBM を2020年6⽉5⽇(⾦)開催します」にあたる部分を右側の⻩⾊ページでクリック、ま たはエリアをドラッグしてtitleエリアを指定します。 5 6

Slide 67

Slide 67 text

6. SDUエディターでの注釈付け 7. 右側のIdentify fieldsの「author」をクリックします。 8. 左側のPDFイメージの位置関係を⾒ながら、「Kyoko Nishito」にあたる部分を右側の ⻩⾊ページでクリック、またはエリアをドラッグしてauthorエリアを指定します。 7 8

Slide 68

Slide 68 text

6. SDUエディターでの注釈付け 9. 右側のIdentify fieldsの「subtitle」をクリックします。 10. 左側のPDFイメージの位置関係を⾒ながら「 Women in Data Science TOKYO @ IBM を 2020年6⽉5⽇(⾦)にオンライン開催します」にあたる部分を右側の⻩⾊ページ でクリック、またはエリアをドラッグしてsubtitleエリアを指定します。 9 10

Slide 69

Slide 69 text

6. SDUエディターでの注釈付け 11. 右下の「Submit page」をクリックします。

Slide 70

Slide 70 text

6. SDUエディターでの注釈付け 12. 右側のIdentify fieldsの「subtitle」をクリックします。 13. 左側のPDFイメージの位置関係を⾒ながら「 Women in Data Science(WiDS) 」と「 Women in Data Science (WiDS) Tokyo @ IBMを2020年6⽉5⽇(⾦)に開催し ます」にあたる部分を右側の⻩⾊ページでクリック、またはエリアをドラッグして subtitleエリアを指定します。 12 13 13

Slide 71

Slide 71 text

6. SDUエディターでの注釈付け 14. 右下の「Submit page」をクリックします。

Slide 72

Slide 72 text

6. SDUエディターでの注釈付け 15. 右側のIdentify fieldsの「text」をクリックします。 16. 左側のPDFイメージの位置関係を⾒ながら「ハッシュタグ: #WiDS2020, #WiDSTokyoIBM」までを右側の⻩⾊ページでクリック、またはエリアをドラッグして textエリアを指定します。 15 16

Slide 73

Slide 73 text

6. SDUエディターでの注釈付け 17. 右側のIdentify fieldsの「footer」をクリックします。 18. 左側のPDFイメージの位置関係を⾒ながら「関連性の⾼いコンテンツ」以下を右側 の⻩⾊ページでクリック、またはエリアをドラッグしてfooterエリアを指定します。 17 18

Slide 74

Slide 74 text

6. SDUエディターでの注釈付け 19. 右下の「Submit page」をクリックします。

Slide 75

Slide 75 text

6. SDUエディターでの注釈付け 20. 右側のIdentify fieldsの「footer」をクリックします。 21. 全ての内容を右側の⻩⾊ページでクリック、またはエリアをドラッグしてfooterエ リアを指定します。 23.右下の「Submit page」をクリックします。 20 21

Slide 76

Slide 76 text

6. SDUエディターでの注釈付け 24.(時間があれば)次に表⽰されたファイルも同様にheader, title, subtitle, text, footer に注釈付けします。 25. 注釈付けが終わったら、右上の「Apply changes to collection」をクリックします。

Slide 77

Slide 77 text

77 6. SDUエディターでの注釈付け 26. 「Select Documents」をク リックし、ダウンロードした IBM_Developer_blog_pdf.zipを 解凍したフォルダを開く。 27. 以下の5ファイルを複数選択し て、「Open(開く)」をクリック • IBM_Developer_blog01.pdf • IBM_Developer_blog02.pdf • IBM_Developer_blog03.pdf • IBM_Developer_blog05.pdf • IBM_Developer_blog04.pdf (数字の付いているファイル全て) 複数選択は Win: [Ctrl]キーを押しながらクリック Mac: [command]キーを押しながらクリック

Slide 78

Slide 78 text

6. SDUエディターでの注釈付け 28. 画⾯が変わるまで3分程度待ちます。

Slide 79

Slide 79 text

6. SDUエディターでの注釈付け 29. 下記の画⾯が表⽰されたら「Developer Blog」をクリック

Slide 80

Slide 80 text

6. SDUエディターでの注釈付け 30. Entity Extractionがどのように変わったか確認してみましょう。 またDocumentのタグ付けも確認してみましょう。 ??? 以前のもの

Slide 81

Slide 81 text

3. まとめ • Watson Discoveryは多種多様な⼤量のドキュメ ントから適切な情報を引き出し、パターンや傾向 を読み取って適切な意思決定を⽀援するためのテ キスト検索・分析エンジン • SDUエディターで注釈付けをしてDiscoveryに学 習させ、検索・分析の制度を上げることが可能

Slide 82

Slide 82 text

3. 課題

Slide 83

Slide 83 text

課題1. http://ibm.biz/dojo20200803doc この資料: 先ほど実施の「 2. Watson Discovery 課題Demo 」 を完了しましょう

Slide 84

Slide 84 text

バッジプログラム申請 課題のご案内 今回の参加課題は課題1の Watson Discoveryの管理画⾯(アカウント名表⽰あり) です。 アカウント名表示が途中で省 略されていてもOKです。

Slide 85

Slide 85 text

課題2(オプション) Discovery Newsを使ってSlack botを作成する http://ibm.biz/dojo-discovery-ws 「Watson Discoveryサービスの新規作成」は課題1を実施済 みの場合は不要です。 事前準備はこちら: https://ibm.box.com/v/dojo2020summer-discovery

Slide 86

Slide 86 text

参考リンク Watson Discovery⼊⾨ https://developer.ibm.com/jp/articles/introduction-watson- discovery/ IBM Cloud資料: Discovery https://cloud.ibm.com/docs/discovery?topic=discovery- getting-started

Slide 87

Slide 87 text

IBM Code Patterns https://ibm.biz/ibmcodejp 解説 + デモ動画 + ソースコードが揃ったアプリ開発パターン集

Slide 88

Slide 88 text

開発者向けサイト IBM Developer https://ibm.biz/IBMDevJP 最新情報やスキルアップに役⽴つ6,000を超える技術記事を提供

Slide 89

Slide 89 text

質問&ライブ投票参加 はこちら slido.com #dojo0803 質問タブで質問⼊⼒ ⾃分も知りたい質問には 「いいね」をプッシュ! スマホまたはPCでアクセスして ぜひ参加お願いします︕ 最後にDojoアンケートの回答を お願いします。 8/3 Watson Discoveryを使ったAI検索体験 https://app.sli.do/event/xpbmkdtp

Slide 90

Slide 90 text

補⾜資料

Slide 91

Slide 91 text

© 2020 IBM Corporation 91 補⾜1 対応⾔語 l ⽇本語 l 英語 l 中国語(簡体字・繁体字 ) l 韓国語 l アラビア語 l オランダ語 l ブラジル・ポルトガル語 l イタリア語 l ドイツ語 l スペイン語 l フランス語 l ロシア語 l チェコ語 l ポーランド語 l ルーマニア語 l スロバキア語

Slide 92

Slide 92 text

© 2020 IBM Corporation 92 Queryの種類 技術者向け補⾜

Slide 93

Slide 93 text

© 2020 IBM Corporation 93 演算⼦⼀覧 技術者向け補⾜

Slide 94

Slide 94 text

© 2020 IBM Corporation 94 アグリゲーション(集約 )⼀覧 技術者向け補⾜

Slide 95

Slide 95 text

© 2020 IBM Corporation 95 検索キーワードを登録された同義語に⾃動で展開します。BidirectionalとUnidirectionalの2種類があり、 synonymを定義したjsonをアップロードします。 synonym Bidirectionalの例 Unidirectionalの例 技術者向け補⾜

Slide 96

Slide 96 text

© 2020 IBM Corporation 96 ⽂書中に頻繁に出現する情報性のない単語を登録することで検索時のノイズを減らすことができます。 stopword https://github.com/watson-developer-cloud/doc-tutorial- downloads/blob/master/discovery-data/custom_stopwords_ja.json l Stopwordを定義したjsonをアップロード サンプル { "stopwords": [ ”I", "the", "and", ”have" ] } ※デフォルトサンプルへのリンクがマニュアル上に存在 ※コレクションごとにアップロードが必要 ※更新後はindexを再作成する必要あり 技術者向け補⾜

Slide 97

Slide 97 text

© 2020 IBM Corporation 97 例えば、 • ユーザーがより効果的なクエリを作成できるように、関連す る⽤語セットまたは「ファセット」を⾃動的に識別します。 • 従来のファセットのような構造化された値を必要とするので はなく、⾮構造化テキストコンテンツからの教師なし学習を 使⽤します。 ユーザーが実現できること l ビジネス上の問題に関連するコンテンツの コーパスを効率的に探索できます l ガイド付きのエクスペリエンスに従って、 コーパス内の関連する結果にすばやく検索を絞り込みます © 2019 IBM Corporation Dynamic Facet、Dictionary Suggestion(辞書構築⽀援 )、 Curation(beta ) 機能の強化により、より⾼ 度な検索を可能にします。 Watson Discoveryの特⻑ ほしい情報を上位に表⽰ 4 * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 98

Slide 98 text

© 2020 IBM Corporation 98 検索語句に関連するトピックから⾃動⽣成されます。 コレクションの中のドキュメントから学習された機械学習モデルを利⽤しています。 ファセットを選択することにより検索結果から、検索結果を絞り込むのに役⽴ちます。 ⾼度な検索⽀援 動的ファセット (機能名:Dynamic Facets) * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 99

Slide 99 text

© 2020 IBM Corporation 99 登録する辞書を選択した後、オントレクション(教師なし機械学習に基づく類似使⽤語検出 )を参照して類 似の⽂脈で使われているその他の単語を⾃動検出して登録候補としてリコメンドし、その場でワンクリック するだけで登録が完了します。 ⾼度な検索⽀援 辞書登録⽀援ツール(機能名:Dictionary Suggestions) 例 )⾃動⾞の不具合報告書の分析で、「ブレーキ」や「フットブレーキ」をPartsと登録すると 類似の候補として「ブレーキパッ ド」「キャリパー」などをPartsの 候補として提案 例えば、⾷べ物関連の辞書と して「ゼリー」という単語を 登録した際、同じ分析対象デ ータ内の類似の⽂脈で使われ ていた「ゼリー」「アイスク リーム」や「クッキー」を類 推して⾃動検出します * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 100

Slide 100 text

© 2020 IBM Corporation 100 コンポーネントのリスト l Search bar l Autocomplete l Spelling Correction l Search results l Passages l Table Retrieval l Search facets l Custom facets l Dynamic facets l Collection filter l Document preview l Document Preview with Content Intelligence ユーザーのアプリケーションに簡単に組み込むことができるUIコンポーネントを提供します。 検索アプリケーションに使⽤する(再利⽤可能な )UIコンポーネントのセットが追加され、検索アプリケー ションの構築を迅速に⾏うことが可能になりました。 検索コンポーネント (Reusable Components ) * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 101

Slide 101 text

© 2020 IBM Corporation 101 分析機能 (Content Miner ) Watson Explorer の分析機能を Watson Discovery に統合 ⼤量のテキストからキーワードを抽出し可視化 着⽬すべきキーワードを推薦し、業務ユーザーの知⾒獲得を⽀援 深い分析⼿法を使⽤して、データセットを探索し、隠れ た洞察を明らかにするエンドユーザーインターフェイス 技術者以外のユーザーがより迅速に開始できるようにす るためのセットアップフローの簡素化 ⾼度なカスタマーケア分析のユースケースを可能にしま す。 ・Voice of the Customer のより深い洞察 ・製品の問題の根本原因の分析 ・販売とマーケティングの有効性を分析 Watson Discovery の検索機能に加え、強⼒な⾃然⽂データの分析機能をご利⽤いただけます。 Watson Discoveryの特⻑ ⼤量ドキュメントから気づきを得る 5 * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 102

Slide 102 text

© 2020 IBM Corporation 102 数千万もの⽂書を多様な分析アプローチでリアルタイムに分析します。 特⻑性の⾼速計算(特許保有 )により、テキスト情報のビッグデータ分析を実現します。 ビックデータに対応、多様な分析アプローチの提供 トピック分析 トレンド分析 接続分析 相関分析 評判分析 ペア分析 * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 103

Slide 103 text

© 2020 IBM Corporation 103 出現数を⽰す「カウント」ではなく、絞込み条件と⾔葉との関連の強さを表す「相関」により少数であって も際⽴った特⻑を得られます。 知⾒の抽出 - 相関値により埋もれている特⻑も発⾒できる例 「カウント」…キーワードを含む⽂書の総数 「相関」…全⽂書⺟集団に対する分析⺟集団でのキーワードの割合 ある条件下における特⻑を発⾒するには、単なる件数でなく「相関値」が重要な指標 カウント(件数 ) … 通常はこの値に のみ頼って分析=同じ件数なら⽂書 の中をすべて⾒てみるしかない たとえば右図でカウントが 19件のワードは4⽂書ある が、相関値なら⾒て明らか な「キューブ×ランプが点 灯」という特⻑的事象が、 件数だけでは⾒つからない 相関… WDは相関と頻度の両⽅で分 析=同じ19件頻出の中でも特⻑が 潜む⽂書が読む前に⾒つかる 相関値が際⽴って⾼い︕ 何か特⻑がありそうだ︕ * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 104

Slide 104 text

© 2020 IBM Corporation 104 時系列における データの出現頻度の推移を把握し異常値を分析します。 指定期間における頻度と予想平均頻度のずれを可視化することができます。 トピック分析 104 * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 105

Slide 105 text

© 2020 IBM Corporation 105 Content Minerのユーザーインターフェースは、初⼼者ユーザー向けの「ガイド付きモード」と、Watson Explorer v11までのUIに慣れたユーザー向けの「エキスパート・モード」があります。 2種類のユーザーインタフェースモード ガイド付きモード エキスパート・モード * Watson Discovery for Cloud Pak for dataのみでの提供機能

Slide 106

Slide 106 text

免責事項 106 IBM Developer Dojoは開発者の⽅を対象に、IBM Cloudを主とした技術情報をお伝えする⽬的で開催しています。 講師や運営スタッフにより、開催毎に最適と判断した内容でお届けしています。 現在、ハンズオンを伴う講義はお客様の費⽤負担がない環境と⼿順でご案内しています。講義終了後、不要に なりました制作物はお客様ご⾃⾝で削除をお願いいたします。クレジットカードの登録が伴わない場合、費⽤は ⼀切発⽣致しませんが、ご登録いただいたお客様はご注意ください。 講師陣はみなさまの利⽤状況を個別に確認することはできません。 ご理解とご協⼒をお願いいたします。 利⽤したサービスの削除⽅法については講義の中でご案内します。 ご不明な点がございましたら、当⽇確認をお願いいたします。 講義終了後、 IBM Developer Dojoに関するお問い合わせは「Slack」にお願いします。それ以外のIBM Cloudの お問い合わせにつきましては、弊社サポートセンターまで、次のいづれかの⽅法でお問い合わせください。 IBM Cloudダッシュボードの「サポート」メニューから「Case」を作成し、英語でご記⼊ください IBM Cloudサポートセンター「相談する」ボタンからチャットまたは電話でご連絡ください https://www.ibm.com/jp-ja/cloud/support ご参加ありがとうございました。

Slide 107

Slide 107 text

No content