Upgrade to Pro — share decks privately, control downloads, hide ads and more …

少量データで軽量な機械学習の手法について #devsumi / Developers Summit 2020

ShingoAkiyoshi
February 13, 2020

少量データで軽量な機械学習の手法について #devsumi / Developers Summit 2020

DevelopersSummit 2020(Day1)にて発表させて頂いた資料です。
登壇者 秋吉信吾( https://twitter.com/a_shin1985 )

# 動画部分はこちらを御覧ください。
## 音声話者特定デモ
https://www.youtube.com/watch?v=VLez2I0jUQ4&t=1s

## リアルタイムモーション推定デモ
https://www.youtube.com/watch?v=TYpAHk5n0DA

# 少量データで軽量な機械学習の手法について
https://event.shoeisha.jp/devsumi/20200213/session/2381/

株式会社QuantumCore
https://www.qcore.co.jp/

APIについてぜひお問い合わせ下さい。

ShingoAkiyoshi

February 13, 2020
Tweet

Other Decks in Technology

Transcript

  1. 登壇者紹介 秋吉 信吾 代表取締役 CEO ⼤学院で⾃然⾔語処理の研究 2010年 エキサイト株式会社に⼊社 新規・既存サービスの施策検討・開発 ⾃然⾔語処理を活⽤した新規サービスの開発

    検索エンジン導⼊プロジェクトなどを担当 レコメンドシステムの開発 2012年ごろ独学で深層学習を学ぶ 2013年 Mistletoe株式会社に⼊社 ⾳声認識、画像認識、対話エージェント等のR&D担当 投資先の技術⾯のコンサルティングや事業開発まで多岐 2018年当社設⽴ 経営戦略及び研究部⾨の統括 全PoCプロジェクトに横串で監修 2
  2. サマリー︓企業情報 社名 本社 代表者 設⽴ 資本⾦ 業務内容 3 株式会社QuantumCore 東京都品川区⻄五反⽥2-14-13

    秋吉 信吾 2018年4⽉24⽇ 197,500,000円(資本余剰⾦含む) リザーバコンピューティングを活⽤した 次世代時 系列処理基盤技術の開発・提供と導⼊⽀援
  3. サマリー︓特徴 5 • 少ないデータで簡単に時系列処理が可能 • 従来型LSTMの処理より⾼い精度 • 9名の話者分類においてチューニング無しで99.2%の 精度を実現 簡単かつ⾼精度

    • 新鋭のリザーバコンピューティングでリアルタイム 学習が可能 • 深層学習とは違う独⾃の⽅法でRNNを実現 とにかく速い *話者認識タスクにおけるオープンデータでの⽐較 • ⾼価なGPUなどは不要 • 従量課⾦制APIなどを提供し、マイコンへの 移⾏をサポート 安価 *マイコン実装の場合で算出 業界初リザーバコンピューティングを活⽤した 新たな次世代多変量時系列処理(RNN)ソリューション ⾼い精度と圧倒的な速さをWebAPIで⼿軽に実現そのままエッジコンピューティングまでカバー 80%減
  4. 技術監修 池上⾼志 東京⼤学⼤学院 教授 1961年、⻑野県⽣まれ。 専⾨は、複雑系・⼈⼯⽣命研究。⼈⼯⽣命 (ALIFE)に新たな境地を切り拓き、研究を世界的に 牽引。メディアアーティストとしても知られ、Ars Electronicaやメディア芸術祭で受賞歴がある。 著共書に『⼈間と機械のあいだ

    ⼼はどこにあるのか』 『動きが⽣命をつくる』『⽣命のサンドイッチ理論』など。 ⾹取 勇⼀ はこだて未来⼤学 複雑系知能学科 准教授 東京大学 新領域創成科学研究科 博士卒 JST ERATO合原複雑数理モデルプロジェクト 研究 員, JST FIRST合原最先端数理モデルプロジェクト 研 究員, 理化学研究所 創発物性科学研究センター 研 究員, 東京大学 生産技術研究所 特任助教などを歴 任 IJCNN2019で最優秀論文賞を受賞 6
  5. 市場規模 9 315 100 270 495 3,340 1,030 4,520 5,860

    0 2000 4000 6000 系列1 系列2 製造業 ヘルスケア ⾦融 社会インフラ 2015年 2030年予測 出典︓富⼠キメラ総研 全7業種の合計が2兆円超え 2030年に国内のAI市場は2兆円超え 弊社が取り組む領域は⼤きく成⻑ 億円
  6. AI関連の⾊々 l アルゴリズム l 深層学習 lCNN lLSTM l 機械学習アルゴリズム lRandomForest

    lXGBoost l 要件 l データの種類 l 機械学習を使うべきか 10 想定するべきことがら l フレームワーク l TensorFlow l Chainer l PyTorch l データ l データ戦略 l ビッグデータ
  7. データの質と量 l 量の問題 l データ不⾜ l 未取得 l ユーザからの利⽤許諾 11

    PoCを阻むデータと質と量の問題 l質の問題 lデータクレンジング l ノイズまみれ lデータの偏り l AとBのクラスは⼗分だが、 Cのデータが不⾜ データが整備されていない データはこれから データが⾜りない ビッグデータがあるつもり(でも使えない)
  8. AI関連技術を使った代表的なプロジェクト 14 特 化 型 モ デ ル 画 像

    認 識 ⾳ 声 認 識 ü 重⼯業 ü 製造業 ü 物体認識 ü 顔認証 ü ⾳声⼊⼒ ü 声紋認証 ü 異常検知 ü 品質管理 ü ⾃動運転 ü セキュリティ ü キーボード代替 ü スマートスピーカ 旧来からの特化型除くと、 ほぼビッグデータ案件。 CNNが効く分野 特徴量から案件ごとに設計 ビッグデータで深層学習 その他の領域の実⽤化は︖
  9. ポジショニング 17 ビッグデータ パーソナル/少数データ è é ê 処 理 ë

    ì í î ï ð 学 習 データ分析系 TreasureDataなど 深層学習 GAFAなど 旧来特化型 システム中⼼ 個社ごとに特化 されたモデル ビッグデータや既存のコンピューティングで踏み込めない領域がある 少数データ × リアルタイム学習
  10. 個⼈に特化した⽬覚まし 19 キャリブレーションが必要になる領域 4︓50 4︓55 5︓00 → 優しい⾳楽 → 軽やかな⾳楽

    → 地獄の⾳楽 ダウナー 疲れ気味 軽やか 飲みすぎ マンネリ コンデションごとのパラメータ ユーザのコンデション 個⼈個⼈パラメータ数多く複雑
  11. 状況に合わせてトンネル内で正確な位置特定 22 加速度センサで⾞体位置を推論 トンネル位置の推論に必要なデータ コンデション ü ⾛⾏距離 ü 右左のハンドリング ü

    運転の癖 ü 気温によるタイヤ空気圧など ü ⾞体の状況 ü 道路状況 ⼭⼿トンネル(⼤橋JCT)図 環境変化などパラメータ数多く複雑
  12. 製造現場での異常検知 25 異常検知ができるか︖ 要件 状況 ü 製造ラインでの異常検知がしたい ü ⾳や振動から故障を予⾒したい ü

    データはまだ取ってない ü 異常データは(そんなに起きては困るから)無い ü 環境変化が激しすぎる
  13. ターゲット l 個⼈に合わせる必要がある分野 l ヘルスケア機器 l 会議議事録システム l 環境に合わせる必要がある分野 l

    環境変化やセンサ劣化が発⽣する製造業分野での異常検知 l 判断したいものが変わる分野 l トレンドや環境変化を伴う予測(回帰) 27 キャリブレーションが必要になる領域 ビッグデータで解決不可能 → 深層学習などでは太⼑打ち出来ない
  14. リザーバコンピューティングの特徴 l 複雑系 l およそ秩序とランダムの間の状態 l EchoStateProperty l この原理原則に従うと、複雑系の初期状態に依らず、 同⼀の⼊⼒データが⼊⼒された場合、⾼次元空間に同じ部分に射影される。

    l ある意味情報のテレポーテーション 33 複雑系を利⽤することで様々な効果 リザーバレイヤー リザーバレイヤー 同期信号 ⾼次元データ出⼒ ⾼次元データ出⼒ 数百km 離れていても 同⼀データが出⼒
  15. 技術紹介 35 ⾃然現象や物体伝達など 複雑な問題に対して限定的なセンサーで判別は困難 S1 センサー 振動の発⽣源 表層を経由する波形 空中を経由する波形 物体を経由する波形

    合成された複雑な単⼀波形 物体 振動のセンシング例 我々のターゲットは複雑な時系列問題 周辺環境を知る上で重要なデータ
  16. 技術紹介 36 複雑な 時系列データ S1 S1 リザバーレイヤ (学習不要な特徴抽出器) 前処理 短い周期パターンを捉える

    Qore Signal Processor 500〜1000ポイント程度を短期記憶 そこで弊社独⾃のテクノロジで解決 Readout (分類 / 回帰など) シンプルな波形に分解 リザバーレイヤを⼩さく保つことが可能になり、⾼速な特徴抽出処理が可能 信号処理で分割した上、リザバーからの出⼒までのエントロピーを⾒て信号の重み選択 圧縮(PCAなど) 例えば、 緑と⾚、⻘と⻩の分類 超平⾯
  17. 弊社の実装の特徴 リザバー⾃体の特徴 ü ⾼精度な特徴抽出を実現 ü 学習が不要 ü 学習データが不要 ü 短期記憶のため、

    短めの周期に特異なパターンが 現れる場合に得意 前処理の特徴 ü ⾃然や物理現象など、 複雑な波形を展開可能 ü 物体を伝わる波形を 効率的に捉える 判定器の特徴 ü ⾃由に組み替え可能 ü 学習処理 / データは この学習のために必要 ü 組み換え可能な 判定器は例えば… 分類、回帰、外れ値 前処理・リザバー・判定器の組合せにより、少量データで、リアルタイム学習が可能。 また⾃然現象や物体を経由したようなセンシングが得意なアルゴリズム 特徴 37
  18. 実⽤上の課題 前処理で1⼊⼒を複数信号に分解するため、複数センサー⼊⼒の場合、 リザバーに⼊⼒するデータ数が⼤きくなり、処理速度の制限から実⽤上に課題 課題 S2 S1 S1とS2の特徴を 含んだ波紋を観測 リザバーレイヤ 前処理

    分 解 分 解 S1 S2 情報量削減技術 ü 総当り ü PCA / SVD ü 寄与率 ü エントロピ(相互情報量) ü ⼩型リザバーのアンサンブル エントロピを⾒ることで ⾃動的に速度と精度が向上 → ただし、単純な波形では削減は⾒込めず ⼊⼒が多⼤ リザーバユニット数が超⼤ 38
  19. 活⽤例 40 スマートウォッチ 画像データ 振動データ 各種デバイス データ抽出(他社技術など) 波形データ 振動センサ 加速度データ

    推論 他社技術 泳法判定など モーション判定など 寝姿勢判定など 波形データや画像から変換した波形データで、幅広く活⽤可能 ⾻格の動き波形 ⾻格情報抽出
  20. ヘルスケア ⼤⼿介護ベッドメーカーの製品に組み込むことで、簡易なキャリブレーションで実⽤的な個別ケアが可能に。 ① 寝姿勢のモニタリング ② 個別ケアの⾒える化 センサー情報を元に、寝姿勢をモニタ リングし、介護者の負担を軽減。 弊社技術を使うことで介護者個別の キャリブレーションに活用可能。

    ③ 体調変化の早期発⾒・対応 一人ひとりの状態を把握することで、 日中・日夜のケアプラン改善に 役立てられ、家族へのきめ細かなレ ポートも可能。 個人に合わせたケアが可能になり、ま た万が一のときの体調変化も機敏に捉 え、早期発見〜早めの対応が可能。 42
  21. 機械制御 重機の状態を20もの⼤量センサー情報を元にモニタリング、将来の⾃動操縦研究開発に役⽴てる。 ① ⼤量センサーから重機の状態を推論 ② 業務の効率化 従来ディープラーニングなどでは難し かった大量センサーデータから少量 データを用い重機の状態を推論。 ③

    重機の⾃動運転 作業の見える化による業務改善に加え、 重機の音声操作が可能なUIを開発する ことで、より効率的に業務改善。 業務の最適化とセンシング技術向上に より、最終的には重機の自動運転を目 指す。 43
  22. ⾳声・話者認識 話者特定技術を中⼼に、⾳声フィルタ技術の研究をしながら各領域へ展開 ① 字幕システム ② 議事録システム 出演者の発言をリアルタイ ムで字幕化 会議内容をリアルタイムで 議事録化

    ③ VR会議システム 会議システムへのエントリ を音声で簡略化 ④ 個⼈⽤⾳声認識 子供の声や個人のクセなど 従来難しかった認識をキャ リブレーション Qoreシリーズ 話者認識 ⾳声認識 45
  23. 取り組み 49 医療ヘルスケア AIスピーカー 介護ベッド 作業⼯程の可視化 ロボットアーム制御 ニオイ検知 モーション推定 住宅価格の予測

    異常検知 ⾳声での話者特定 ⼼電データで疾患推定 振動から姿勢特定 センサから状態推定 ⾳で作業状態推定 アームの⾃動制御 ⾻格から動作推定 排泄タイミング推定 最適価格の推定 様々な業界で累計約14社とPoCの取り組み 様々な理由でクラウドに情報をアップロードできない環境の中、少量データから⾼精度なモデルを作成可能
  24. 取り組みの成果 50 93%の精度 99%の精度 98%の精度 73%の精度 ⾼精度に予測可能 80%の精度 91%の精度 ⾼精度に予測可能

    94%の精度 ⾳声での話者特定 ⼼電データで疾患推定 振動から姿勢特定 センサから状態推定 ⾳で作業状態推定 アームの⾃動制御 ⾻格から動作推定 排泄タイミング推定 最適価格の推定 各業界で好成績 ※公開データによる不整脈判定テスト ※9⼈分の公開データによるテスト ※弊社取組による24値分類テスト ※特に注釈が無い限り、全て弊社取組によるテスト 異常値が少ない⼯業分野、プライバシー保護でデータが少ないヘルスケア、⼊⼒ソースが限定される分野など
  25. ⼼電図データの解析 š 解析⼿法 š MIT-BIH Arrhythmia Databaseデータの整形を⾏い、学習⽤データを47,738個、評価⽤データを 45,349個抽出した。 š データには正常拍動(Normal)の⽅が圧倒的に多く、VEBのデータが少なく、学習⽤データに3743個、評価

    ⽤データに3200個となっている。データの不均衡を無くすため、Normalの件数をVEBの件数と同様にするため、 ランダムサンプリングによりNormalの件数を削減した。 その結果、学習⽤データは7,486個、評価⽤データは6,400個 で、それぞれNormalとVEBの件数は同数抽 出した。 š また、精度向上のためにノイズの除去として、25Hzのローパスフィルターによって⾼周波ノイズを取り除き、学習を ⾏なった。 š 以上のように抽出した学習⽤データを弊社独⾃の特徴抽出処理を施し特徴量を抽出する。Qoreにその特徴 量を学習させたのち、評価⽤データを⽤いてQoreから出⼒される推論結果を評価した。 51
  26. ⼼電図データの解析 š 実⾏環境と処理時間 今回の作業は、ローカルPC環境(CPU: Intel Xeon W-2123 3.6GHz、OS: Ubuntu 18.04.1

    LTS ) で実⾏し、QoreのC++モジュールにて処理を⾏なった。学習の処理時間は15秒で、メモリの最⼤使⽤量はデー タのロード時に1.7GBで学習時に870MBであった。推論時の処理時間は1件(⼼電図波形2秒分)あたり約 8m秒(全件で約30秒)で、メモリの最⼤使⽤量は1.4MBであった。 52
  27. 事例︓飲⾷店や⾃動⾞内環境 54 情報ソース 推論 効果 デバイス ü どういう動作をするか︖ ü 性別・年代・体格

    ü 離着席の動作 ü 睡眠時姿勢 ü バイタル(脈拍/⾎圧) ü 居眠り検知 ü 会話が盛り上がるか︖ ü 会話に参加している⼈数 カメラ ⾳声 PoC範囲 安全装置 ü 居眠り検出 ü ⼦供の危険⾏動 商品開発 ü 適切な⾞内スペース ü コンテンツ開発 ユーザへの情報提⽰ ü 適切なBGMや⾳声 ü 観光ガイドのようなもの ü オススメ店舗レコメンド 既存データ基盤 ユーザーデータ 年齢・性別など 弊社技術の特に得意とする分野 座席上部にデバイスを設置し、ユーザの状態推定
  28. 飲⾷店や⾃動⾞内環境︓イメージ 55 カーナビ画⾯・客席毎のカメラ 推論 反映 客さんの状態(満腹、⾎圧など)から、コンテンツのレコメンド&商品開発 6⼈席5⼈着席状態の例 ⾎圧や脈拍は活動など独⾃スコアに読みかえ 近くには⽔族館があります 地元のメロンはいかがですか︖

    (⼼地よいBGM) (ヒーリングBGM) 右に⾒えますのが 富⼠⼭です 活動 82% 活動 32% 活動 45% 空腹 82% 空腹 16% 空腹 22% 活動 81% 空席 活動 42% 空腹 42% 空腹 32% 活発 空腹 居眠り ぼーっと 外を⾒てる 推 薦 Qoreエンジン サービス提供 ü コンテンツ配信 ü 周辺施設の案内 ü 空腹・バイタル・ネ ガポジ など利⽤者 の状態 商品開発 ü 利⽤者が好む機能 の搭載 ü 注⽬されるPR作り PoC範囲
  29. 事例︓⾒守り 56 情報ソース 推論 効果 外に居る時 ü 知らない⼈に声をかけら れた (モデルに存在しない⼈物)

    ü 悲鳴など異常検知 ※VDQoreは話者を特定する技術だが、 逆にモデルが判定できない⼈物= ⼀度も話したことない⼈物を特定するの に利⽤ PoC範囲 アラーム通知 ü 保護者のスマホへ通知 ü 周辺施設の警備体制向上 データベースに存在しないユーザ検知による⾒守り 話者特定技術「VDQore」を⽤いて「過去に話しかけられた事がない⼈」を検知・通知 ⾒守りデバイスからSIM通信 VDQore 既存の⾳声履歴 マイコン実装 VD: Voice Detection
  30. 事例︓保育園 57 情報ソース 動画解析 効果 定点カメラから動画撮影 PoC範囲 定点カメラで撮影した動画をモーションで検索 モーション特定技術「RMDQore」を⽤いて動作推定し記録し、成⻑を記録 画像認識

    x RMDQore RMD: Real-time Motion Detection ⼈物と動作判定 ダンス ピース ⼈物と動作でシーン検索 タグ付け すみれ ダンス 検索 2019年4⽉3⽇ 2019年8⽉3⽇ 2020年1⽉1⽇ ü 危険検出 ü 指導補助 ü 記録作成 ü 動画検索 職員向け 保護者向け 保護者はお好みのシーンを 探し出すことができ、成⻑や 「はじめて」の記録を逃さない 職員は危険⾏動に対して迅速 な対応が望め、また可視化に よる指導補助も可能
  31. 事例︓ダイナミックプライシング 58 情報ソース 動画解析 効果 価格情報 PoC範囲 簡単にダイナミックプライシングや価格予測が可能 Qoreシリーズのもつ時系列解析の機能をダイナミックプライシング⽤に⾼レイヤーでまとめたDPQoreを適応 DP:

    Dynamic Pricing ü マンション・住宅の 売却価格を予測 不動産 プライスデータ Price Time u リアルデータ u 推論データ 3 3 2 2 2 u UP u DOWN 12 N G 2 500円 5万円 50円 u 成⽴ u 不成⽴ QoreDP.Regression 任意の先のプライスを予測 QoreDP.Classification 任意のウインドウ幅での上がり 幅を予測可能 QoreDP.Deal 商談成⽴のタイミングと可否 を予測 ü 飲⾷店・⼩売店舗 で利益最⼤化とな る価格を予想 ⼩売 ü 投資や株など⾦融 商品の価格予想 ⾦融
  32. その他事例 リチウムバッテリの劣化予測(参考) 66 メリーランド大学のCALCE(Center for Advanced Life Cycle Engineering) https://calce.umd.edu/data#CS2

    4つのリチウムイオン電池の充放電データのうちから、 3種類(#35, 37, 38)を教師データに、 1種類(#36)をテストデータとして時系列解析を実施。
  33. 新たなセンシングターゲット 73 周波数 周波数帯 利⽤シーン 1Ghz 30Ghz 100Ghz マイクロ波 ミリ波

    携帯電話 3G/4G [700Mhz 〜2Ghz] 地デジ [500〜700Mhz] 無線LAN [2.4Ghz,5Ghz] GPS [カーナビ] [1.5Ghz] 4K/8K衛星放送 [12Ghz] 後⽅レーダー [24Ghz] 前⽅レーダー [76Ghz, 79Ghz] レーダーの活⽤で 画像の弱さをカバー
  34. ターゲットデバイス 74 CPU Aシリーズ メモリサイズ 1GB〜 CPU Mシリーズ メモリサイズ 数キロB〜

    CPU Rシリーズ メモリサイズ 数MB〜 CPU GPU メモリサイズ 数⼗GB〜 CPU速度はMシリーズでも⼗分充⾜ メモリサイズが最低数百キロ、 他のアプリケーションは乗らない 弊社製品の課題 ぜひGPU以外にも選択肢を︕