Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Jubatusの紹介
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Yuya Unno
December 17, 2011
Technology
0
13
Jubatusの紹介
Yuya Unno
December 17, 2011
Tweet
Share
More Decks by Yuya Unno
See All by Yuya Unno
深層学習で切り拓くパーソナルロボットの未来 @東京大学 先端技術セミナー 工学最前線
unnonouno
0
23
深層学習時代の自然言語処理ビジネス @DLLAB 言語・音声ナイト
unnonouno
0
45
ベンチャー企業で言葉を扱うロボットの研究開発をする @東京大学 電子情報学特論I
unnonouno
0
45
PFNにおけるセミナー活動 @NLP2018 言語処理研究者・技術者の育成と未来への連携WS
unnonouno
0
15
進化するChainer @JSAI2017
unnonouno
0
21
予測型戦略を知るための機械学習チュートリアル @BigData Conference 2017 Spring
unnonouno
0
22
深層学習フレームワーク Chainerとその進化
unnonouno
0
21
深層学習による機械とのコミュニケーション @DeNA TechCon 2017
unnonouno
0
30
最先端NLP勉強会 “Learning Language Games through Interaction” @第8回最先端NLP勉強会
unnonouno
0
15
Other Decks in Technology
See All in Technology
It’s “Time” to use Temporal
sajikix
3
200
(Test) ai-meetup slide creation
oikon48
3
430
OCHaCafe S11 #2 コンテナ時代の次の一手:Wasm 最前線
oracle4engineer
PRO
2
140
Claude Code 2026年 最新アップデート
oikon48
13
10k
今のWordPress の制作手法ってなにがあんねん?(改) / What’s the Deal with WordPress Development These Days?
tbshiki
0
500
GCASアップデート(202601-202603)
techniczna
0
200
AWS CDK「読めるけど書けない」を脱却するファーストステップ
smt7174
3
160
Claude Code のコード品質がばらつくので AI に品質保証させる仕組みを作った話 / A story about building a mechanism to have AI ensure quality, because the code quality from Claude Code was inconsistent
nrslib
12
8.5k
AlloyDB 奮闘記
hatappi
0
110
Lambda Web AdapterでLambdaをWEBフレームワーク利用する
sahou909
0
160
内製AIチャットボットで学んだDatadog LLM Observability活用術
mkdev10
0
120
20260311 ビジネスSWG活動報告(デジタルアイデンティティ人材育成推進WG Ph2 活動報告会)
oidfj
0
340
Featured
See All Featured
Paper Plane (Part 1)
katiecoart
PRO
0
5.7k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
290
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
230
We Have a Design System, Now What?
morganepeng
55
8k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
770
Design in an AI World
tapps
0
170
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
350
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
410
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.9k
Transcript
Jubatusの紹介 2011/12/17 @さくさくテキストマイニング 株式会社Preferred Infrastructure 海野 裕也 (@unnonouno)
⾃自⼰己紹介 l 海野 裕也 (@unnonouno) l unno/no/uno l プリファードインフラストラクチャー (PFI) l
研究開発部 l 検索索エンジンSedueの会社 l 専⾨門 l ⾃自然⾔言語処理理 l テキストマイニング 2
今⽇日の内容 l Jubatusの宣伝をしに来ました :-) l それ以上のはなしは有りません l 読み⽅方は「ゆばたす」です 3
Big Data ! l データはこれからも増加し続ける l 多いことより増えていくということが重要 l データ量量の変化に対応できるスケーラブルなシステムが求めら れる
l データの種類は多様化 l 定形データのみならず、⾮非定形データも増加 l テキスト、⾏行行動履履歴、⾳音声、映像、信号 l ⽣生成される分野も多様化 l PC、モバイル、センサー、⾞車車、⼯工場、EC、病院 4
データを活⽤用する STEP 1. ⼤大量量のデータを捨てずに蓄積できるようになってきた STEP 2. データを分析することで、現状の把握、理理解ができる STEP 3. 状況を理理解し、現状の改善、予測ができる
l 世の中的には、蓄積から把握、理理解に向かった段階 5 5 蓄積 理理解 予測 より深い解析へ 本の購買情報 を全て記録で きるように なった! この本が実際 に売れている のは意外にも 30代のおっさ ん達だ! この⼈人は30代 男性なので、 この本を買う のではない か?
Jubatus 6 リアルタイム ストリーム 分散並列列 深い解析 l NTT PF研とPreferred Infrastructureによる共同開発
10/27よりOSSで公開 http://jubat.us/
開発の経緯(PFI側から⾒見見た) l もともと機械学習が得意だった l @hillbig (フェロー) l 特にオンライン学習に関しては5年年前くらい(研究 室に⼀一緒にいた時)からずっと調べてた l
もともとHadoopが得意だった l @kzk_mover (元CTO) l ⽇日本Hadoopユーザー会 l Hadoopではできない⼤大規模データ解析をやろ う! 7
Hadoopとは? バッチ処理理の分散フレームワーク l 中⾝身はGoogleのMap/Reduceの実装 l コモディティマシンを並べて並列列化 l Mahout/Hive/ZookeeperなどのHadoopファミ リーを構成 8
Hadoopの特徴 l 速い! l ⼤大量量のデータを⼀一気に処理理 l 分散する! l ⾜足りなかったら継ぎ⾜足そう l
ロバスト! l サーバーは壊れるもの l 遅い l 結果が帰ってくるまでの時間は遅い 9
機械学習とは? l ⼤大量量のデータから規則や傾向を解析、分析や予 測に活⽤用する l データがある分野、どこでも活⽤用 l ⾃自然⾔言語処理理、パターン認識識、画像、⾳音声、etc. l 研究ベースのOSSが多い
l libsvm/liblinear/Mallet/crf++/R l すでに実⽤用化が進んでいる l Gmailの重要ボタン(分類問題)、推薦システム(近傍探索索)、 バグの有無も予想できるらしいよ 10
オンライン学習は学習⼿手法の⽅方式の⼀一つ l バッチ学習 l データを全体を⾒見見て重みを調整する l 参考書を全部解いてから答え合わせ l オンライン学習 l
1つずつデータを⾒見見て重みの更更新を繰り返す l ⼀一問ずつ解いて答え合わせ 11 学習器 学習器
機械学習・オンライン学習の特徴 l 速い! l データを受け取ったらすぐ学習 l 速い! l 5年年前:学習10時間、今:学習10分 l
便便利利! l ルール書くの疲れた l 分散させる技術がない 12
分散かつオンラインの機械学習 l 処理理が速い! l 処理理の完了了を待つ時間が少ない l 5分前のTV番組の影響を反映した広告推薦ができる l 5分前の交通量量から渋滞をさけた経路路を提案できる l
⼤大規模! l 処理理が間に合わなくなったらスケールアウト l ⽇日本全国からデータが集まる状態でも動かしたい l 機械学習の深い分析! l 単純なカウント以上の精度度を 13
こんなことができる?:リアルタイムレコメンド 14 ⾖豆腐が健康にイイ ヨー ユーザーの購買行動 変化の検知 小売 広告配信 影響の予測
テキストマイニングとの関係 l Jubatus⾃自体は基盤よりの技術 l 分散フレームワーク l 機械学習 l Hadoop +
Mahoutくらいのレイヤー l 具体的な解析⾃自体はその上に構築 l ⼤大規模リアルタイムにテキスト分析する⽤用途に 使えるかも 15
技術の視点で⾒見見るとテキストマイニングは複合技術 16 機械学習 統計 検索索 ⽂文字列列処理理 分散 テキスト マイニング 乱択
アルゴリズム ストリーム 処理理 アプリ 理論 ⾃自然⾔言語 処理理 マイニング Jubatus はこの辺
機械学習のような⾼高度度な分析は必要なのか? l 数を数える以上の処理理はいらないんじゃ ない? l すでに使われている l レコメンド(近傍探索索) l スパム分類(分類)
l 応⽤用範囲は広い l ⾔言語、画像、⾳音声、センサー、etc. 17
研究業界に⾒見見る機械学習と⾃自然⾔言語を振り返る 18 00年代 機械学習を使わないほうがマイナー Chasen、MeCabの成功 OSSにも深く浸透 90年代 規則を人手でたくさん書く 正規表現、文法、コスト、重み 2000年前後 自然言語処理に機械学習登場 SVM,
ME, CRF 研究者だけに使わせるのはもったいない
機械学習ライブラリの敷居はまだ⾼高い l libsvmフォーマット l +1 1:1 3:1 8:1 l 何よこれ? ←普通の⼈人の反応
l ハイパーパラメータ l 「Cはいくつにしましたか?」 l Cってなんだよ・・・ ←普通の⼈人の反応 l 研究者向き、エンジニアが広く使えない 19
RDBやHadoopから学ぶべきこと l わからない l リレーショナル理理論論 l クエリオプティマイザ l トランザクション処理理 l
分散計算モデル l わかる l SQL l Map/Reduce l 「あとは裏裏でよろしくやってくれるんでしょ?」 20
Jubatus裏裏の⽬目標 l わからない l オンライン凸最適化 l 事後確率率率最⼤大化 l MCMC、変分ベイズ l
特徴抽出、カーネルトリック l わかる l ⾃自動分類、推薦 l 「あとはよろしくやってくれるんでしょ?」 21 全ての⼈人に機械学習を!
⽣生データを突っ込めば動くようにしたい l Jubatusの⼊入⼒力力はキー・バリュー l 最初は任意のJSONだった l twitter APIの⽣生出⼒力力を⼊入⼒力力できるようにしたかった l あとは勝⼿手に適当に処理理してくれる
l ⾔言語判定して l 各キーが何を表すのか⾃自動で推定して l 勝⼿手に適切切な特徴抽出を選ばせる l (予定、まだできない) 22
雰囲気だけ l 典型的な特徴抽出は⽤用意しておく l MeCabで分割して単語を特徴に l ⽂文字Nグラムを特徴に l 正規表現で部分⽂文字列列の切切り出し l
弄弄るのは設定だけ l お客さん先でコンパイルし直しとか⾟辛い・・・ l パッチを当ててもらうのはリスクが⾼高い 23
使い⽅方のイメージ(分類) key value 年年齢 28 ID unnonouno コメント Jubatus動い たー
プロ フィール PFIで働いて ます 24 男性! 裏裏にある規則 PFI à 男性? Jubatus à 男性?
インストールは⾯面倒くさいよ! l Macなら l port install jubatus l でインストールできるようにしてくれた⽅方がいらっ しゃいました
l Linuxなら l ./waf configure & ./waf l sudo ./waf install l だいたいどこかでコンパイルエラー 25
今後どうなる? l 分類以外の機能追加 l 統計情報 l 回帰 l レコメンド l
複数のプログラミング⾔言語から使える l 今は、C++, Python, Ruby, PHP(外部の⽅方が作って くれた) l さらに、可視化?管理理画⾯面? 26
まとめ l Jubatusとは何か? l 分散基盤 l オンライン学習 l すべての⼈人に機械学習を l
典型的な例例は設定だけで l SQLより簡単に使えるといいね! l 使いやすさはこれからです 27