Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Jubatusの紹介
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuya Unno
December 17, 2011
Technology
15
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Jubatusの紹介
Yuya Unno
December 17, 2011
More Decks by Yuya Unno
See All by Yuya Unno
深層学習で切り拓くパーソナルロボットの未来 @東京大学 先端技術セミナー 工学最前線
unnonouno
0
27
深層学習時代の自然言語処理ビジネス @DLLAB 言語・音声ナイト
unnonouno
0
49
ベンチャー企業で言葉を扱うロボットの研究開発をする @東京大学 電子情報学特論I
unnonouno
0
47
PFNにおけるセミナー活動 @NLP2018 言語処理研究者・技術者の育成と未来への連携WS
unnonouno
0
17
進化するChainer @JSAI2017
unnonouno
0
24
予測型戦略を知るための機械学習チュートリアル @BigData Conference 2017 Spring
unnonouno
0
26
深層学習フレームワーク Chainerとその進化
unnonouno
0
24
深層学習による機械とのコミュニケーション @DeNA TechCon 2017
unnonouno
0
42
最先端NLP勉強会 “Learning Language Games through Interaction” @第8回最先端NLP勉強会
unnonouno
0
17
Other Decks in Technology
See All in Technology
Mastering Ruby Box
tagomoris
3
160
ブロックチェーン / Blockchain
ks91
PRO
0
120
ルールやカスタム機能、どう活かす?ハンズオンで体感するIBM Bobの出力コントロール
muehara
1
110
AWSシリコン最前線 〜AI時代のチップ選択を読み解く〜
htokoyo
2
330
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
3
560
DevOps Agentで始めるAWS運用 〜フロンティアエージェントが変える運用の現場〜
nyankotaro
1
360
「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layerx-bakuraku-aie2026
yuya4
19
11k
新しいVibe Codingと”自走”について
watany
5
270
NAB Show 2026 動画技術関連レポート / NAB Show 2026 Report
cyberagentdevelopers
PRO
0
140
小さくはじめるSLI/SLO ~育てながら組織に定着させる実践知~ / Starting Small with SLI/SLOs: Building Adoption Through Continuous Growth
nari_ex
2
1k
中期計画、2回作ってみた ~業務委託と正社員、両方の視点から~
demaecan
1
600
チームで進めるAI駆動アジャイル×ウォーターフォール
kumaiu
0
140
Featured
See All Featured
Google's AI Overviews - The New Search
badams
0
1k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
200
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
140
From π to Pie charts
rasagy
0
200
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
250
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
Abbi's Birthday
coloredviolet
2
8k
Between Models and Reality
mayunak
4
330
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Prompt Engineering for Job Search
mfonobong
0
340
Transcript
Jubatusの紹介 2011/12/17 @さくさくテキストマイニング 株式会社Preferred Infrastructure 海野 裕也 (@unnonouno)
⾃自⼰己紹介 l 海野 裕也 (@unnonouno) l unno/no/uno l プリファードインフラストラクチャー (PFI) l
研究開発部 l 検索索エンジンSedueの会社 l 専⾨門 l ⾃自然⾔言語処理理 l テキストマイニング 2
今⽇日の内容 l Jubatusの宣伝をしに来ました :-) l それ以上のはなしは有りません l 読み⽅方は「ゆばたす」です 3
Big Data ! l データはこれからも増加し続ける l 多いことより増えていくということが重要 l データ量量の変化に対応できるスケーラブルなシステムが求めら れる
l データの種類は多様化 l 定形データのみならず、⾮非定形データも増加 l テキスト、⾏行行動履履歴、⾳音声、映像、信号 l ⽣生成される分野も多様化 l PC、モバイル、センサー、⾞車車、⼯工場、EC、病院 4
データを活⽤用する STEP 1. ⼤大量量のデータを捨てずに蓄積できるようになってきた STEP 2. データを分析することで、現状の把握、理理解ができる STEP 3. 状況を理理解し、現状の改善、予測ができる
l 世の中的には、蓄積から把握、理理解に向かった段階 5 5 蓄積 理理解 予測 より深い解析へ 本の購買情報 を全て記録で きるように なった! この本が実際 に売れている のは意外にも 30代のおっさ ん達だ! この⼈人は30代 男性なので、 この本を買う のではない か?
Jubatus 6 リアルタイム ストリーム 分散並列列 深い解析 l NTT PF研とPreferred Infrastructureによる共同開発
10/27よりOSSで公開 http://jubat.us/
開発の経緯(PFI側から⾒見見た) l もともと機械学習が得意だった l @hillbig (フェロー) l 特にオンライン学習に関しては5年年前くらい(研究 室に⼀一緒にいた時)からずっと調べてた l
もともとHadoopが得意だった l @kzk_mover (元CTO) l ⽇日本Hadoopユーザー会 l Hadoopではできない⼤大規模データ解析をやろ う! 7
Hadoopとは? バッチ処理理の分散フレームワーク l 中⾝身はGoogleのMap/Reduceの実装 l コモディティマシンを並べて並列列化 l Mahout/Hive/ZookeeperなどのHadoopファミ リーを構成 8
Hadoopの特徴 l 速い! l ⼤大量量のデータを⼀一気に処理理 l 分散する! l ⾜足りなかったら継ぎ⾜足そう l
ロバスト! l サーバーは壊れるもの l 遅い l 結果が帰ってくるまでの時間は遅い 9
機械学習とは? l ⼤大量量のデータから規則や傾向を解析、分析や予 測に活⽤用する l データがある分野、どこでも活⽤用 l ⾃自然⾔言語処理理、パターン認識識、画像、⾳音声、etc. l 研究ベースのOSSが多い
l libsvm/liblinear/Mallet/crf++/R l すでに実⽤用化が進んでいる l Gmailの重要ボタン(分類問題)、推薦システム(近傍探索索)、 バグの有無も予想できるらしいよ 10
オンライン学習は学習⼿手法の⽅方式の⼀一つ l バッチ学習 l データを全体を⾒見見て重みを調整する l 参考書を全部解いてから答え合わせ l オンライン学習 l
1つずつデータを⾒見見て重みの更更新を繰り返す l ⼀一問ずつ解いて答え合わせ 11 学習器 学習器
機械学習・オンライン学習の特徴 l 速い! l データを受け取ったらすぐ学習 l 速い! l 5年年前:学習10時間、今:学習10分 l
便便利利! l ルール書くの疲れた l 分散させる技術がない 12
分散かつオンラインの機械学習 l 処理理が速い! l 処理理の完了了を待つ時間が少ない l 5分前のTV番組の影響を反映した広告推薦ができる l 5分前の交通量量から渋滞をさけた経路路を提案できる l
⼤大規模! l 処理理が間に合わなくなったらスケールアウト l ⽇日本全国からデータが集まる状態でも動かしたい l 機械学習の深い分析! l 単純なカウント以上の精度度を 13
こんなことができる?:リアルタイムレコメンド 14 ⾖豆腐が健康にイイ ヨー ユーザーの購買行動 変化の検知 小売 広告配信 影響の予測
テキストマイニングとの関係 l Jubatus⾃自体は基盤よりの技術 l 分散フレームワーク l 機械学習 l Hadoop +
Mahoutくらいのレイヤー l 具体的な解析⾃自体はその上に構築 l ⼤大規模リアルタイムにテキスト分析する⽤用途に 使えるかも 15
技術の視点で⾒見見るとテキストマイニングは複合技術 16 機械学習 統計 検索索 ⽂文字列列処理理 分散 テキスト マイニング 乱択
アルゴリズム ストリーム 処理理 アプリ 理論 ⾃自然⾔言語 処理理 マイニング Jubatus はこの辺
機械学習のような⾼高度度な分析は必要なのか? l 数を数える以上の処理理はいらないんじゃ ない? l すでに使われている l レコメンド(近傍探索索) l スパム分類(分類)
l 応⽤用範囲は広い l ⾔言語、画像、⾳音声、センサー、etc. 17
研究業界に⾒見見る機械学習と⾃自然⾔言語を振り返る 18 00年代 機械学習を使わないほうがマイナー Chasen、MeCabの成功 OSSにも深く浸透 90年代 規則を人手でたくさん書く 正規表現、文法、コスト、重み 2000年前後 自然言語処理に機械学習登場 SVM,
ME, CRF 研究者だけに使わせるのはもったいない
機械学習ライブラリの敷居はまだ⾼高い l libsvmフォーマット l +1 1:1 3:1 8:1 l 何よこれ? ←普通の⼈人の反応
l ハイパーパラメータ l 「Cはいくつにしましたか?」 l Cってなんだよ・・・ ←普通の⼈人の反応 l 研究者向き、エンジニアが広く使えない 19
RDBやHadoopから学ぶべきこと l わからない l リレーショナル理理論論 l クエリオプティマイザ l トランザクション処理理 l
分散計算モデル l わかる l SQL l Map/Reduce l 「あとは裏裏でよろしくやってくれるんでしょ?」 20
Jubatus裏裏の⽬目標 l わからない l オンライン凸最適化 l 事後確率率率最⼤大化 l MCMC、変分ベイズ l
特徴抽出、カーネルトリック l わかる l ⾃自動分類、推薦 l 「あとはよろしくやってくれるんでしょ?」 21 全ての⼈人に機械学習を!
⽣生データを突っ込めば動くようにしたい l Jubatusの⼊入⼒力力はキー・バリュー l 最初は任意のJSONだった l twitter APIの⽣生出⼒力力を⼊入⼒力力できるようにしたかった l あとは勝⼿手に適当に処理理してくれる
l ⾔言語判定して l 各キーが何を表すのか⾃自動で推定して l 勝⼿手に適切切な特徴抽出を選ばせる l (予定、まだできない) 22
雰囲気だけ l 典型的な特徴抽出は⽤用意しておく l MeCabで分割して単語を特徴に l ⽂文字Nグラムを特徴に l 正規表現で部分⽂文字列列の切切り出し l
弄弄るのは設定だけ l お客さん先でコンパイルし直しとか⾟辛い・・・ l パッチを当ててもらうのはリスクが⾼高い 23
使い⽅方のイメージ(分類) key value 年年齢 28 ID unnonouno コメント Jubatus動い たー
プロ フィール PFIで働いて ます 24 男性! 裏裏にある規則 PFI à 男性? Jubatus à 男性?
インストールは⾯面倒くさいよ! l Macなら l port install jubatus l でインストールできるようにしてくれた⽅方がいらっ しゃいました
l Linuxなら l ./waf configure & ./waf l sudo ./waf install l だいたいどこかでコンパイルエラー 25
今後どうなる? l 分類以外の機能追加 l 統計情報 l 回帰 l レコメンド l
複数のプログラミング⾔言語から使える l 今は、C++, Python, Ruby, PHP(外部の⽅方が作って くれた) l さらに、可視化?管理理画⾯面? 26
まとめ l Jubatusとは何か? l 分散基盤 l オンライン学習 l すべての⼈人に機械学習を l
典型的な例例は設定だけで l SQLより簡単に使えるといいね! l 使いやすさはこれからです 27