Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
first step of ML Kit
Search
Yuki Anzai
August 01, 2018
Technology
0
2.6k
first step of ML Kit
Yuki Anzai
August 01, 2018
Tweet
Share
More Decks by Yuki Anzai
See All by Yuki Anzai
MediaPipe と ML Kit ってどう ちがうの? / What is the difference between MediaPipe and ML Kit?
yanzm
0
980
アプリをリリースできる状態に保ったまま 段階的にリファクタリングするための 戦略と戦術 / Strategies and tactics for incremental refactoring
yanzm
8
4.3k
Kotlinらしいコードを書こう - Convert Java File to Kotlin File のあとにやること / What to do after Convert Java File to Kotlin File
yanzm
1
5.2k
個人アプリ開発 (メンテナンス) 14年の歴史 / My personal app development history
yanzm
1
900
Material 3 やめました / Good-bye M3 design system
yanzm
4
8.1k
Compose Multiplatform で Bluesky のクライアント作ってみた / Bluesky client with Compose Multiplatform
yanzm
0
630
Compose Transition Animation
yanzm
3
750
Material3 with Jetpack Compose
yanzm
3
4k
Jetpack Compose 1.2 新機能 / new features of Jetpack Compose 1.2
yanzm
0
530
Other Decks in Technology
See All in Technology
OCI Success Journey OCIの何が評価されてる?疑問に答える事例セミナー(2025年2月実施)
oracle4engineer
PRO
2
160
設計を積み重ねてシステムを刷新する
sansantech
PRO
0
170
生成AI×財務経理:PoCで挑むSlack AI Bot開発と現場巻き込みのリアル
pohdccoe
1
740
Visualize, Visualize, Visualize and rclone
tomoaki0705
9
83k
Amazon Q Developerの無料利用枠を使い倒してHello worldを表示させよう!
nrinetcom
PRO
2
120
MIMEと文字コードの闇
hirachan
2
1.4k
Ruby on Railsで持続可能な開発を行うために取り組んでいること
am1157154
3
160
Oracle Database Technology Night #87-1 : Exadata Database Service on Exascale Infrastructure(ExaDB-XS)サービス詳細
oracle4engineer
PRO
1
180
Fraxinus00tw assembly manual
fukumay
0
110
Aurora PostgreSQLがCloudWatch Logsに 出力するログの課金を削減してみる #jawsdays2025
non97
1
220
IAMポリシーのAllow/Denyについて、改めて理解する
smt7174
2
210
ExaDB-XSで利用されているExadata Exascaleについて
oracle4engineer
PRO
3
260
Featured
See All Featured
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
570
Large-scale JavaScript Application Architecture
addyosmani
511
110k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
100
18k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Site-Speed That Sticks
csswizardry
4
410
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Code Reviewing Like a Champion
maltzj
521
39k
How to Think Like a Performance Engineer
csswizardry
22
1.4k
Designing Experiences People Love
moore
140
23k
How to train your dragon (web standard)
notwaldorf
91
5.9k
Transcript
ML Kit の概要と Base API Yuki Anzai @yanzm Google Developers
Expert for Android
ML Kit とは • Firebase の機能の⼀つ • 機械学習を利⽤する機能をアプリに簡単に組み込むためのモバイル SDK •
現在は β • iOS と Android で使える • https://firebase.google.com/docs/ml-kit/
on-device or in the cloud On-device Cloud Text recognition :
テキスト認識 O O Face detection : 顔検出 O - Barcode scanning : バーコードスキャン O - Image labeling : 画像のラベル付け O O Landmark recognition : ランドマーク認識 - O Custom model inference : カスタムモデル推論 O -
on-device vs Cloud • on-device API • ローカルで動作、速い • Firebase
が機械学習のモデルをあらかじめダウンロードしてくれる • Cloud API • サーバーで処理、⾼機能 • ネットワーク接続が必要
Pricing https://firebase.google.com/pricing/ your account's first 1000 Cloud Vision API calls/month
are free
• Features • 画像からテキストを認識 • on-device API • 無料 •
全てのラテン⽂字を認識 • Cloud API • 毎⽉最初の 1000 API call は無料(1000+ からは従量課⾦) • 50 をこえる⾔語を認識(⽇本語含む) Text recognition (OCR) : テキスト認識
None
None
• Features • on-device API のみ • 顔の領域、ランドマーク(⽬・頬・⿐・⽿・⼝)の位置認識 • 顔の表情(⽬の開閉度合い、笑顔の度合い)の認識
• 動画のフレーム間で同じ顔をトラック可能 • 100以上の点から構成される2次元の輪郭情報(顔の外郭・⽬・眉・⿐・⼝) Face detection : 顔検出
Face contour https://firebase.google.com/docs/ml-kit/detect-faces
• Features • on-device API のみ • ほとんどの標準フォーマットをサポート • 1次元フォーマット
: Codabar, Code 39, Code 93, Code 128, EAN-8, EAN-13, ITF, UPC-A, UPC-E • 2次元フォーマット : Aztec, Data Matrix, PDF417, QR Code • ⾃動フォーマット検出 • structured data の取り出し • バーコードの向きによらず検出可能 Barcode scanning : バーコードスキャン
format : 256 valueType : 9 rawValue : WIFI:S:SB1Guest;P:12345;T:WEP;; displayValue
: SB1Guest 12345 boundingBox : Rect(300, 457 - 669, 824) encryptionType : 3 ssid : SB1Guest password : 12345
• Features • 画像の内容を解析し、認識したもののラベルをつける : ⼈、物、場所、活動など • on-device API •
無料 • 400+ labels をサポート • Cloud API • 毎⽉最初の 1000 API call は無料(1000+ からは従量課⾦) • 10,000+ labels をサポート Image labeling : 画像のラベル付け
label : Building confidence : 0.77894384 entityId : /m/0cgh4 label
: Palace confidence : 0.75397676 entityId : /m/05zp8 label : landmark confidence : 0.9432406 entityId : /m/05_5t0l label : town confidence : 0.9333225 entityId : /m/0dx1j
label : Food confidence : 0.9649049 entityId : /m/02wbm label
: Cuisine confidence : 0.91778296 entityId : /m/01ykh label : food confidence : 0.9399401 entityId : /m/02wbm label : cuisine confidence : 0.9263104 entityId : /m/01ykh
val options = FirebaseVisionLabelDetectorOptions .Builder() .setConfidenceThreshold(0.9f) .build()
• Features • 画像から有名なランドマークを認識 • ランドマーク名 • 地理座標 • Knowledge
Graph entity ID • 画像内でのランドマークの領域 • 毎⽉最初の 1000 API call は無料(1000+ からは従量課⾦) Landmark detection : ランドマーク認識
landmark : Amsterdam Centraal Railway Station confidence : 0.86155003 entityId
: /m/0bbw52 locations : 52.378068, 4.899774 boundingBox : Rect(33, 504 - 956, 928) landmark : Amsterdam confidence : 0.5167069 entityId : /m/0k3p locations : 52.373811, 4.890951 boundingBox : Rect(187, 644 - 757, 843)
カスタムモデル推論 • Firebase で TensorFlow Lite のモデルをホスティング • Firebase SDK
がモデルのダウンロードをハンドリング • モデルの更新も可能 • apk にバンドルしたモデルを Firebase SDK 経由で利⽤することも可能 • on-device API として利⽤