Upgrade to Pro — share decks privately, control downloads, hide ads and more …

企業(ワークスアプリケーションズ)での研究開発の楽しさと苦労

WAP
February 03, 2021

 企業(ワークスアプリケーションズ)での研究開発の楽しさと苦労

WAP

February 03, 2021
Tweet

More Decks by WAP

Other Decks in Technology

Transcript

  1. confidential © 2020 Works Applications Co., Ltd. 2 自己紹介 


    
 ワークス徳島人工知能NLP研究所  内田 佳孝(うちだ よしたか) 経歴: 阿南高専(徳島) → 九州工業大学(福岡) → ジャストシステム(徳島→東京) → 2016年7月 ワークス(東京)→ 2017年2月 ワークス徳島(徳島) これまで関わったこと: • 対話システムの研究開発(在学中) • 形態素解析、かな漢字変換、情報検索、情報抽出 テキストマイニング、Chatbot、OCR、etc... • 基礎研究から応用研究(実用化)まで
  2. confidential © 2020 Works Applications Co., Ltd. 3 本日の内容 


    
 • ワークスアプリケーションズの紹介 • ワークス徳島人工知能NLP研究所の紹介 • 研究所の取り組む課題、その楽しさと苦労の紹介 
 

  3. 商号 :株式会社ワークスアプリケーションズ 設立 :1996年7月 代表者 :井上 直樹 (代表取締役最高経営責任者 )  秦

    修 (代表取締役最高執行責任者 ) 従業員数 :2,353 名(連結) ※2020年9月末時点 本社所在地 :東京都千代田区麹町 2-5-1 半蔵門 PREX South 2F 事業内容 :大手企業向けERPパッケージソフト「HUE」の        開発・販売・サポート 国内事業所 :東京(本社)、大阪、名古屋、 ワークス徳島人工知能NLP研究所 海外開発拠点:上海、シンガポール、インド・チェンナイ 会社概要 overview
  4. 7

  5. 新事業としてSaaS事業にも進出 HUE Works Suite コラボレーション型 表計算Webサービス 「Enterprise Spreadsheet」 プロジェクト管理Webサービス(予定) HUE

    Works Suite DX Solutions 電子帳簿保存法対応の証憑電子データ管理 ツール「EBM」 国内最大規模の言語資源を搭載した高精度な 自動応答ツール「Chatbot(仮称)」(予定) 画像処理と自然言語処理による文字読取り ・電子テキスト化ツール「AI-OCR(仮称)」(予定)
  6. Chatbot(仮称) AI-OCR(仮称) 様々な業務を想定した Chatbotの研究開発を行ってい ます。特に問い合わせ業務を代行する FAQ botの進化 にむけた研究開発を行っています。 画像やPDFデータの帳票をアップロードするだけで 文書中から必要な項目を抽出し、入力欄に自動補完を

    行う技術の高精度化を目指し研究開発を行っていま す。 企業内データを活用した生産性向上 企業内に蓄積される多様なデータの有効活用を目指 し、研究開発を行っています。例えばスケジューラーの ログ分析からの会議効率化、施設の有効活用のサ ジェストなど、働き方の提案を目指し研究開発を進めて います。
 NLP基盤技術 様々なAI機能を高精度化するために、日本語 NLPの 基盤技術の研究開発を行っています。成果の一部は OSSとして商用利用可能なライセンスで無償公開して います。国内最大規模の日本語言語資源を複数公開 しており多くの企業・研究機関で活用されています。 11
  7. 新事業としてSaaS事業にも進出 HUE Works Suite コラボレーション型 表計算Webサービス 「Enterprise Spreadsheet」 プロジェクト管理Webサービス(予定) HUE

    Works Suite DX Solutions 電子帳簿保存法対応の電子証憑管理サービ ス電子データ管理ツール「EBM」 国内最大規模の言語資源を搭載した高精度な 自動応答ツール「Chatbot(仮称)」(予定) 画像処理と自然言語処理による文字読取り ・電子テキスト化ツール「AI-OCR(仮称)」(予定) 研究のみでなく、開発・運用・サポートも担当
  8. confidential © 2020 Works Applications Co., Ltd. 12 OSS活動に関してはWAP Tech

    Talk #1の資料をご覧ください 
 
 SpeakerDeckにて公開中です! 『Sudachi辞書の作り方』 https://speakerdeck.com/waptech/sudachici-shu-falsetukurifang 『実用的な日本語単語ベクトル実現について』 https://speakerdeck.com/waptech/chive-shi-yong-de-nari-ben-yu-dan-yu-bekutorus hi-xian-nimukete-20201208 
 
 SpeakerDeck ワークスアプリケーションズ 検索
  9. confidential © 2020 Works Applications Co., Ltd. 14 研究所の取り組む課題、その楽しさと苦労 


    
 ※ 本日は技術的な解決方法ではなく、どのような課題解消を目指して   研究開発をおこなっているのかを中心に紹介します。 
 

  10. confidential © 2020 Works Applications Co., Ltd. 15 研究所の取り組む課題、その楽しさと苦労の紹介 


    
 国内最大規模の言語資源を搭載した高精度 な自動応答ツール「Chatbot(仮称)」 画像処理と自然言語処理による文字読み取り ・電子テキスト化ツール「 AI-OCR(仮称)」 企業の生産性向上に直接貢献できる! お客様の課題を直接知ることができる。 お客様の業務フロー・要望を理解し、 パッケージ化していく必要がある。 想定していなかった課題が次々発生。。 楽しさ・やりがい 苦労・悩み
  11. confidential © 2020 Works Applications Co., Ltd. 16 Chatbot(仮称) 


    
 利用者 HUE Chatbotへ 自動 回答 質問 問い合わせメール マニュアル 熟練担当者の ノウハウ、etc... FAQ(Q&A集) 利用者の想定質問を事前にセットした FAQから自動で回答を提供 ・一問一答 ・シナリオ形式 ・複数候補提示 ・画像での回答 ・外部API呼び出し ・あいまいな表現の吸収 ・聞き返しによる意図明確化 最適解を出すための 複数のアプローチ
  12. confidential © 2020 Works Applications Co., Ltd. 17 Chatbot(仮称) 


    
 利用者 HUE Chatbotへ 自動 回答 質問 問い合わせメール マニュアル 熟練担当者の ノウハウ、etc... FAQ(Q&A集) 利用者の質問から事前にセットした FAQから自動で回答を提供 ・一問一答 ・シナリオ形式 ・複数候補提示 ・画像での回答 ・外部API呼び出し ・あいまいな表現の吸収 ・聞き返しによる意図明確化 最適解を出すための 複数のアプローチ 少量(多くて数百)のFAQデータから 効率的にかつ高精度なChatbotを構築する (想定していた)最も重要な研究テーマ 大規模な言語資源(Sudachi、chiVe、その他)+効 率的なドメイン適用技術の研究開発 これらの課題の研究開発も継続して進めているが、実 運用を通して難題が多数でてきた
  13. confidential © 2020 Works Applications Co., Ltd. 19 社内テスト運用での実例(※精度数値はダミーです) 


    
 研究所メンバー Chatbot管理者 Chatbot利用者 過去の問い合わせを事前にもら い約90%の回答精度を確認 問い合わせが約45%減少した! 工数削減が実現できた!!! 何も回答してくれない。。 使い物にならない!
  14. confidential © 2020 Works Applications Co., Ltd. 20 社内テスト運用での実例(※精度数値はダミーです) 


    
 研究所メンバー Chatbot管理者 Chatbot利用者 過去の問い合わせを事前にもら い約90%の回答精度を確認 問い合わせが約45%減少した! 工数削減が実現できた!!! 何も回答してくれない。。 使い物にならない! 90%から45%への精度低下の原因は?
  15. confidential © 2020 Works Applications Co., Ltd. 21 想定精度(90%)から運用精度(45%)の原因は? ※実際は様々な要因があるのですが1例のみ紹介します

    
 
 ホテル代 領収書 タクシー ※問い合わせは例です。実際の運用タスクとは異なります。 ショートクエリ(単語での質問)が 非常に多く何を聞きたいのか不明瞭 しかし無視できない頻度でこの減少 は出現、なんらかの対策は必要 FAQを解析し自動で聞き返しを 行う機能を実現
  16. confidential © 2020 Works Applications Co., Ltd. 23 社内テスト運用での実例(※精度数値はダミーです) 


    
 研究所メンバー Chatbot管理者 Chatbot利用者 過去の問い合わせを事前にもら い約90%の回答精度を確認 問い合わせが約45%減少した! 工数削減が実現できた!!! 何も回答してくれない。。 使い物にならない! Chatbotへの評価の違いはどこにある?
  17. confidential © 2020 Works Applications Co., Ltd. 24 Chatbotへの評価の違いの原因は? ※実際は様々な要因があるのですが1例のみ紹介します

    
 
 ホテル代の上限は? Suicaで精算してい い? タクシーは使っていい の? 領収書の宛名は? ホテルの朝食はつけ ていいの? ※問い合わせは例です。実際の運用タスクとは異なります。 これまでなかった基本的な問い合わせ (FAQにのっていない)が多数。 Chatbotが回答できなくても窓口に問 い合わせるまでもない質問。 ただ、管理者は気づいていない。。 管理者が効率的に問い合わせ を確認、改善できる機能を実現
  18. confidential © 2020 Works Applications Co., Ltd. 26 AI-OCR(仮称) 


    
 AI-OCR 画像で提出されるビジネス文書、特に帳票(領収書、請求書など)から業務システムへの入力に必 要な項目(会社名、金額、日付)などを抽出、システム入力の負荷を軽減する。
  19. confidential © 2020 Works Applications Co., Ltd. 27 OCR(他社製) AI-OCR(仮称)研究開発の遷移

    
 
 (NLP研究所なので)OCRは他社製を利用、 文脈はないが構造をもつ文書からの情報抽出の 研究開発に当初は注力 自社NLP技術 OCR(他社製) 自社技術(NLP+画像処理) 自社技術(NLP+画像処理+OCR) 現状: 独自の画像処理(一部 OCR含む)も研究開発 近い未来(進行中): OCRも含めたモデルの研究開発
  20. confidential © 2020 Works Applications Co., Ltd. 28 現場のリアルなデータは状態が悪い、抽出したい場所が文字 ではないなど様々な要因がありOCRの精度がでない。

      = お客様の期待に届かない。。 
 
 例えば(領収書の例だと):折り目がはいっている、印刷がかすれている、文字が薄い、              会社名がスタンプ、会社名がロゴなど。。
  21. confidential © 2020 Works Applications Co., Ltd. 29 実施した(または実施中)NLP+画像処理の研究開発 


    
 • 画像回転補正、クロッピング、スタンプ除去 • ロゴと会社名の関係を学習 • レイアウト類似判定 • 電話番号からの会社名検索 • 言語モデルを用いたOCRの誤り検出・訂正 • 数字専用OCR(手書き含む) • 画像からのテーブル抽出、構造認識 • レイアウト、位置情報をつかった情報抽出 • ユーザー操作ログの学習 • 自動生成データを用いたDNNによるOCR実現 • etc...
  22. confidential © 2020 Works Applications Co., Ltd. 30 まとめ 


    
 【当研究所のミッション】 日本企業の生産性向上、新しい働き方の実現 【楽しさ・やりがい 】 リアルな現場の課題を直接感じ、自分たちで解決に導ける 【苦労・悩み】 制限・制約のなかでの研究開発、技術選択の見極め、 短期的な解決、本質解決の両面から中長期での研究開発