Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
目と耳を持った自然言語処理 - スタートアップにおける価値創出のために
Search
yag_ays
May 10, 2022
Technology
1
3.4k
目と耳を持った自然言語処理 - スタートアップにおける価値創出のために
https://forkwell.connpass.com/event/245507/
yag_ays
May 10, 2022
Tweet
Share
More Decks by yag_ays
See All by yag_ays
対話型AIの構築における工夫とデータセットの重要性 - 素早くデータを構築し検証するためには
yag_ays
3
6.2k
時間情報表現抽出とルールベース解析器のこれから / Temporal Expression Analysis in Japanese and Future of Rule-based Approach
yag_ays
1
2.1k
Pythonで始める ドキュメント・インテリジェンス入門 / Introduction to Document Intelligence with Python
yag_ays
9
8.9k
"医者の言葉、患者の言葉、エンジニアの言葉" / MNTSQ Ubie Vertical ai
yag_ays
3
13k
LT at nlp_career
yag_ays
0
320
Review: "Recommending Investors for Crowdfunding Projects"
yag_ays
1
1.1k
Other Decks in Technology
See All in Technology
AIエージェントで90秒の広告動画を制作!台本・音声・映像・編集をつなぐAWS最新アーキテクチャの実践
nasuvitz
3
350
「全員プロダクトマネージャー」を実現する、Cursorによる仕様検討の自動運転
applism118
22
12k
「どこから読む?」コードとカルチャーに最速で馴染むための実践ガイド
zozotech
PRO
0
570
KotlinConf 2025_イベントレポート
sony
1
140
[ JAWS-UG 東京 CommunityBuilders Night #2 ]SlackとAmazon Q Developerで 運用効率化を模索する
sh_fk2
3
460
Unlocking the Power of AI Agents with LINE Bot MCP Server
linedevth
0
120
OCI Oracle Database Services新機能アップデート(2025/06-2025/08)
oracle4engineer
PRO
0
180
Firestore → Spanner 移行 を成功させた段階的移行プロセス
athug
1
500
Webアプリケーションにオブザーバビリティを実装するRust入門ガイド
nwiizo
7
890
現場で効くClaude Code ─ 最新動向と企業導入
takaakikakei
1
260
dbt開発 with Claude Codeのためのガードレール設計
10xinc
2
1.3k
職種の壁を溶かして開発サイクルを高速に回す~情報透明性と職種越境から考えるAIフレンドリーな職種間連携~
daitasu
0
180
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
525
40k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Making the Leap to Tech Lead
cromwellryan
135
9.5k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Music & Morning Musume
bryan
46
6.8k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
61k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.6k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Speed Design
sergeychernyshev
32
1.1k
Transcript
ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ 2022/05/10 Ubieגࣜձࣾ Ԟా ༟थ
2 Ԟా ༟थ @yag_ays Recruit → Sansan → Ubie ࣗݾհ
https://yag-ays.github.io/
3 ࠓ͓͢Δ͜ͱ • ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ • ը૾ೝࣝԻใॲཧͱͷΈ߹ΘͤͱɺෳࡶͳγεςϜߏஙʹΑΓੜ͡Δ՝ • Ubieʹ͓͚Δࣗવݴޠॲཧ׆༻ͷ۩ମࣄྫ • OCR݁Ռ͔ΒͷࣗવݴޠॲཧʹΑΔใநग़ͷࣄྫ
• ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ • ελʔτΞοϓʹ͓͚ΔػցֶशΤϯδχΞ/σʔλαΠΤϯςΟετͲ͏ৼΔ͏ͱྑ͍͔
4 ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ
5 ෳࡶԽ͢ΔػցֶशΛ༻͍ͨαʔϏε։ൃͱԠ༻ൣғͷ͕Γ • ୯ҰͷػցֶशϞσϧΛͯΊΔ͚ͩͰՌΛग़ͤͳ͘ͳ͖͍ͬͯͯΔ • ػցֶशͷίϞσΟςΟԽʢਓೳ, AIͱݺΕೝ͕͕ͬͨʣ • ਓؒʹػցʹෳࡶͳ͜ͱΛཁٻ͞ΕΔΑ͏ʹͳ͖ͬͯͨ •
ΑΓՁͷ͋ΔҰ࿈ͷಈ࡞Λεέʔϧ͢ΔܗͰସ͢Δೳྗͷඞཁੑ • Α͏͘ݱ࣮ͷΛղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳ͖ͬͯͨ • ࣗવݴޠॲཧΛऔΓר͘ঢ়گ • “Web” ͱ͍͏ॻ͖ݴ༿͔ͭେنσʔλͳੈք͕த৺ • ݹ͘εύϜϝʔϧఆɻۙͩͱػց༁ػցཁɺࡶஊԠ • ͦΕҎ֎ͷपลྖҬɺଞͷυϝΠϯͱͷؔੑੜ͖ͯͨ͡ • ཧతͳॻྨจࣈใɺਓؒͷͷձԻͳͲ ͱ͔ࣖΒೖͬͯ͘ΔใΛࣗવݴޠॲཧͰѻ͏
6 • 👀 : ը૾ใ • 2࣍ݩฏ໘্ʹจࣈจॻ͕ஔ͞ΕͨςΩετΛɺOCRʹΑͬͯจࣈى͜͢͠Δ • จࣈͷஔϑΥϯτɺ৭ɺਤදͱ͍ͬͨϨΠΞτ͕ҙຯΛ࣋ͭ •
e.g. ܖॻٻॻɺϨγʔτɺจɺͳͲ • 👂 : Իใ • ୯Ұ·ͨෳͷਓ͕ؒൃ͢ΔԻΛɺԻೝࣝʹΑͬͯจࣈྻʹม͢Δ • ͠ݴ༿ͱ͍͏ɺจ๏తഁݴ͍ؒҧ͑ͳͲ͕༰қʹى͜Γ͏Δ • e.g. ৗձɺࡶஊɺεϚʔτεϐʔΧʔͷ͍߹ΘͤɺͳͲ ࣖΛܦͯಘΒΕͨใɺݴ༿ͱͯ͠ͷ࣭͕Web༝དྷͱҟͳΔ
7 ՝1: ࣖΛࣗ࡞͢Δͷࠔ • OCRԻೝࣝΤϯδϯͯ͢ΛࣗࣾͰ͢Δͷ͍͠ • ͦΕ͕ग़དྷΔͷσʔλ & ਓࡐΛ༗͢ΔҰ෦ͷେاۀͷΈ •
ܧଓతͳϝϯςφϯεਫ਼্ʹଟେͳίετ͕͔͔Δ • ݱ࣮తʹɺ֎෦اۀͷαʔϏεΛར༻͢Δ͜ͱʹͳΔ • ͓࣌ؒۚແ͍ελʔτΞοϓಛʹ • ֎෦ͷࣖͷਫ਼Λɺར༻ऀଆ͕ྑ͍ͯ͘͘͜͠ͱ͍͠ • ֎෦αʔϏεΛར༻͢ΔҎ্ɺͦΕࣗମͷੑೳΛ্ͤ͞Δ͜ͱࠔ • ࣮ߦ࣌ͷύϥϝʔλ֎෦ใΛར༻Ͱ͖ΔαʔϏεଘࡏ͢Δ͕ɺద༻ൣғݶఆత • Ұఆͷਫ਼Ͱڐ༰͢Δ΄͔ແ͍
8 • ػցֶशϞσϧ͕ྻʹܨ͕Γɺਫ਼ֻ͕͚ࢉͰԼ͍ͯ͘͠ • ͋ΔػցֶशϞσϧͷग़ྗ͕ɺ࣍ͷػցֶशϞσϧͷೖྗʹͳΔ • e.g. OCR݁ՌͷςΩετநग़݁ՌΛɺ࣍ͷࣗવݴޠॲཧϞσϧ͕ར༻͠λεΫΛղ͘ • (ײ֮తʹ)
ਫ਼͕ ML_A 90% Ͱ ML_B 80% Ͱ͋Εɺ࿈݁͢ΕશମͰ 72% ʹͳΔ • ML_AͱML_BΛ౷߹ͯ͠End2EndͳϞσϧΛ࡞Δ͜ͱ͕ຊདྷ·͍͕͠ɺσʔλ४උ ࣮؍Ͱݱ࣮ʹ͍͜͠ͱ͕ଟ͍ ՝2: ෳͷػցֶशϞσϧ͕ґଘ͢Δ͜ͱʹىҼ͢Δਫ਼Լ ػցֶशϞσϧA ػցֶशϞσϧB
9 • ෳࡶԽ͢ΔػցֶशγεςϜ • ࣮՝Λղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳͬͨҰํͰɺෳࡶ͔ͭൣғͳྖҬΛΧόʔ͢Δඞཁ • ࣗવݴޠॲཧʹ͓͚Δͱࣖ • ը૾ೝࣝʹΑΓಘͨυΩϡϝϯτ্ͷจࣈใ •
ԻೝࣝʹΑΓಘΒΕͨൃͷจࣈܥྻใ • 2छྨͷ՝ • ൚༻తͳΤϯδϯΛ࡞Δ͜ͱ͕͘͠ɺ֎෦αʔϏεʹґଘͤ͟ΔΛಘͳ͍ • ෳͷػցֶशϞσϧʹґଘ͢Δ͜ͱʹΑΔਫ਼Լ ͜͜·Ͱͷ·ͱΊ
10 Ubieʹ͓͚Δࣗવݴޠॲཧͷ׆༻ࣄྫ
11 • ͓ༀεΩϟϯɺհঢ়εΩϟϯͱ͍͏αʔϏεΛఏڙ • ױऀ͞Μ͕࣋ࢀͨ͠ࢴഔମͷใΛεΩϟϯ͠ɺɹ OCRʹΑΔจࣈى͜͠ͱใநग़Λߦ͏ • ໊લͳͲͷݸਓใͷϚεΩϯάॲཧ • ͓ༀखாͷจݴͷத͔Βɺॲํ͞Ε͍ͯΔༀࡎΛநग़͢Δ
• ຊͰॲํ͞Ε͍ͯΔༀࡎ໊ط (DBͱͯ͠ଘࡏ) ͓ༀखாհঢ়͔Βͷใநग़ ϛϠBMࡉཻ Χϩφʔϧৣ 仏௧࣌ ேன༦ 3แ 2ৣ ※ ࢲ͕ण࢘Λ৯ͨ൩ʹ ңԌʹͳͬͨͱ͖ͷॲํ
12 ͓ༀεΩϟϯͷॲཧͷྲྀΕ 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾
3. OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ҩྍػؔʹઃஔ͢ΔεΩϟφͱPCͷߏ
13 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3.
OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ͓ༀεΩϟϯͷॲཧͷྲྀΕ εΩϟϯը૾͔ΒඞཁͳྖҬ
14 x0 y0 x1 y1 20 12 26 18
ྍ 31 11 37 17 Պ 42 12 48 18 ɿ 56 15 62 21 63 12 69 18 Պ 72 11 78 17 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3. OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ͓ༀεΩϟϯͷॲཧͷྲྀΕ ࠷খ୯Ґͷจࣈͱͦͷ࠲ඪΛऔಘ͢Δ
15 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3.
OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ \ϒ ϓ^ \ϩ ޱ^ \ϯ ι^ \ 0 %^ Χϩφʔϧৣ200 Χϩφʔϧৣ200 Χϩφʔϧৣ300 ίΧʔϧৣ300 Χϩφʔϧࡉཻ20% 100% 90% 80% 60% Query Documents ͓ༀεΩϟϯͷॲཧͷྲྀΕ ༀࡎ໊ͷྨࣅʹΑΓఆ͢Δ Α͋͘ΔಡΈऔΓϛε
16 ϦΞϧσʔλͳΒͰͷ͠͞ͷྫ 1ͭͷༀࡎʹ2໊ͭલ͕هࡌ͞ΕΔ Χϩφʔϧৣ ҰൠɿΞητΞϛϊϑΣϯৣNH • ઌൃༀ/ޙൃༀͷ۠ผ • δΣωϦοΫҩༀͷ໊લͷԣʹɺݩͱ ͳͬͨༀࡎ໊͕ซه͞ΕΔ͜ͱ͕͋Δ
• ॲํ͞Εͨༀࡎ1͕ͭͩɺԿߟ͑ͣʹ நग़͢Δͱ2ͭදࣔ͞ΕΔ • ܩઢͷͳ͍ςʔϒϧߏ • ಥવͷվߦ • OCRͱͯ͠ߏจ຺Λߟྀͨ͠ಡΈ औΓΛߦ͑ͳ͍ͷͰɺநग़จࣈྻ͕ҙਤ ͨ͠ॱ൪ʹฒͣɺஅ͞ΕΔ ҉ͷߏԽ ϩΩιϓϩϑΣϯφճৣ τϦϜৣNHʮ αϫΠʯ
17 • લॲཧ/ޙॲཧ • ࡱ૾ը૾͔ΒͷྖҬநग़ɺ֯ิਖ਼ɺ৭ௐิਖ਼ಠ࣮ࣗ • OCR • GCPͷCloud Vision
APIΛར༻ • ࣙॻ • จࣈೝࣝޡΓʹϩόετʹͳΔΑ͏ʹɺ෦จࣈྻͷྨࣅܭࢉͳͲߟྀͨࣙ͠ॻ࡞Γ • ՄࢹԽਫ਼ධՁ༻ͷWebΞϓϦέʔγϣϯ • ։ൃޮΛ্͛ΔͨΊʹࣗ࡞ • ը૾ͱจࣈใΛߦ͖དྷ͢Δඞཁ͕͋ΔͨΊ։ൃσόοά͕ඇৗʹ͍ͨ͠Ί • OCRͷ݁ՌͰ(x:100, y:200, ͋) ͱݴΘΕ͔ͯΒͳ͍ ࣮ࡍʹͲͷΑ͏ͳػೳΛ࣮͍ͯ͠Δͷ͔
18 ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ
19 • ػցֶशࣗવݴޠॲཧΛऔΓר͘αʔϏε։ൃͷ՝ • ෳͷػցֶशϞσϧʹґଘ͢ΔෳࡶͳγεςϜ֎෦αʔϏεͷґଘ • ػցֶशࣗମͷෳࡶ͞ʹཱ͔ͪΘͳ͚Ε͍͚ͳ͍ • ಉ࣌ʹɺαʔϏεͷશମઃܭϏδωεϞσϧࣗମʹओମతʹؔΘ͍ͬͯ͘͜ͱ͕ඞཁ •
ػೳͷҰ෦͑͞୲͍ͯ͠ΕɺPO୭͔͕ΓΛ্ख͍͜ͱͬͯ͘ΕΔΑ͏ͳ͜ͱك • ͰελʔτΞοϓͷػցֶशΤϯδχΞσʔλαΠΤϯςΟετɺԿΛҙࣝ͠ͳΕ͍ ͚ͳ͍ͷ͔ʁ ͜͜·Ͱͷ·ͱΊ
20 ελʔτΞοϓͰٻΊΒΕΔ͜ͱ3ͭ ֑ʹམͪΔͷΛ͙ ૉૣ͘ݕূ͢Δ ৗʹثΛຏ͍͓ͯ͘
21 • ࣄۀαʔϏε͕֑͔ΒམͪΔͷΛ͙ • ͋ΔαʔϏεʹ͓͚Δػցֶशͷಋೖ͕ɺຊʹେৎͦ͏͔Λஅ͢Δ • ݱ࣮తʹՄೳ > ཧతʹՄೳ >
ݱ࣮తʹෆՄೳ > ཧతʹෆՄೳ • ͦΕͱಉ࣌ʹݟ͋ΔਓؒʹҙݟΛٻΊΒΕΔ / ҙݟΛड͚ೖΕΔจԽͷৢେࣄ • Α͋͘Δ֑ͷύλʔϯ • ໌Β͔ʹ՝͕͗͢͠Δέʔε • ઐٕೳෳࡶͳॲཧ͕ඞཁͰɺਓؒͰਖ਼֬ʹߦ͏͜ͱ͕͍͠ • Ͱ͖ͨͱ͜ΖͰɺͦΕ΄Ͳࣄۀʹͱͬͯخ͘͠ͳ͍έʔε • ͦΕਓ͕ؒͬͨ΄͏͕ૣ͘ͳ͍ʁ • ࠷৽ٕज़ΛͬͯՌΛ্͍͛ͨͱ͍͏έʔε • AIΛͬͯΈ͍ͨ ֑͔ΒམͪΔͷΛ͙
22 ελʔτΞοϓʹ͓͚Δ֑ͷᄻ͑ ʮىۀͱ֑͔Βඈͼ߱Γɺ མͪΔ·ͰʹඈߦػΛΈཱͯΔΑ͏ͳͷʯ ϦʔυɾϗϑϚϯ (LinkedInۀऀ) https://sketchplanations.com/starting-a-company https://logmi.jp/business/articles/36553
23 ελʔτΞοϓʹ͓͚Δ֑ͷδϨϯϚ • ৗʹᷤ౻ͱܾஅͷ࿈ଓ • ʮ͍ͭ͜ɺ͍ͭػցֶशҊ݅ͷ૬ஊʹNoͬͯݴͬͯΔͳʯͱ৺ͷதͷ͕ࣗᅤ͘ • ͳͥͦͷΑ͏ͳஅΛ͔ͨ͠ΛυΩϡϝϯτʹ·ͱΊ͓ͯ͘ͱɺৼΓฦΓڞ༗ʹྑ͍ • ग़དྷΔͱग़དྷͳ͍ͷؒʹແͷάϥσʔγϣϯ͕͋Δ
• ͲͷΑ͏ͳ݅ͷͱ͖ʹՄೳ/ෆՄೳͳͷ͔ ձࣾʹͱͬͯେࣄͳλεΫͳͷ͔Δ ͬͯΈͳ͍ͱ͔Βͳ͍͔…… ͍͠ͱ͖ͬͺΓஅ͔ͬͯͬΓਏ͍ ໌Β͔ʹ͍͠λεΫࢭΊ͍ͨ ӡ༻ͳͲผͷํ๏Ͱղܾ͍ͤͨ͞ ࠓଞͷॏཁͳ՝ʹྗ͍ͨ͠
24 • 100ͷࢥߟΑΓ1ͷ࣮ફ • ෆ࣮֬ੑΛԼ͛ͭͭมԽʹରԠͰ͖ΔΑ͏ͳΞδϟΠϧతΞϓϩʔν • ։࢝ॳظ΄Ͳɺࣦഊʹର͢Δই͕ઙ͘ࡁΉ • UbieͰʮLaunch and
Launchʯͱ͍͏ValueΛେࣄʹ͍ͯ͠Δ • ॳखͰେ͖ͳͷΛ࡞Γ͗͢ͳ͍ • ݕূ͍߲ͨ͠ΛຬͨͤΔΑ͏ʹɺͱʹ͔͘࠷Ͱΰʔϧʹ͔͏ ૉૣ͘ݕূ͢Δ
25 • ػցֶश؍ • ͲΜͳσʔλ͕ೖྗͱͯ͠ೖͬͯ͘Δ͔ʁ • ܧଓతʹՁ͋Δσʔλ͕ੵ͞ΕΔঢ়ଶΛ࡞ΕΔͷ͔ʁ • ͲͷΑ͏ͳػցֶशͷख๏͕ར༻Ͱ͖Δͷ͔ʁ •
ͲΕ͘Β͍ͷσʔλྔ͕͋Εेͳͷ͔ʁ • naiveͳख๏ͷਫ਼ɺཧతͳݶքʢਓؒʣͷਫ਼ͲΕ͘Β͍͔ʁ • ඞཁͱ͞ΕΔԠ࣌ؒɺಈ࡞ڥͳͲͷϩδοΫҎ֎ͷ੍͋Δ͔ʁ • Ϗδωε؍ • ސ٬ػցֶशϞσϧͷਫ਼͕ͲΕ͘Β͍ʹͳΕຬ͢Δ͔ʁ Βͳ͍͜ͱΛݮΒͯ͠ɺෆ࣮֬ੑΛԼ͛Δ
26 • bootstrap • ػցֶशϞσϧΛ࡞Δʹֶश/ධՁ༻ͷσʔλ͕ඞཁɻσʔλΛஷΊΔʹଟ͘ͷϢʔβʹར ༻ͯ͠ΒΘͳ͍ͱ͍͚ͳ͍ɻར༻ͯ͠Β͏ʹ͋Δఔͷਫ਼ͷػցֶशϞσϧ͕ඞཁɻ ػցֶशϞσϧΛ࡞Δʹ…… (࠷ॳʹΔ) • Կແ͍தͰɺͲ͏ݕূ͢Δͷ͔ʁ
• ΰϛਫ਼Ͱ͍͍ͷͰɺಈ͘ϞϊΛ࡞͢ΔʢPoCʣ • ܭࢉػͷΘΓʹਓ͕ؒखಈͰରԠ͢ΔʢΦζͷຐ๏͍ϝιουʣ • [େࣄ!!!] ͻͨ͢ΒࣗͰΞϊςʔγϣϯͯ͠σʔλΛ࡞Δ ݕূʹཱ͔ͪͩΔน - ͳʹͳ͍͔Βͦ͜ग़དྷΔίτ https://www.amazon.co.jp/dp/4763137492
27 • ༩͑ΒΕͨλεΫͷળ͠ѱ͠Λஅ͠ૉૣ͘ݕূ͢ΔʹɺৗʹثΛຏ͍͓ͯ͘ඞཁ͕͋Δ • ٕज़ • ಈ࡞͢ΔϓϩάϥϜ࣮ߦڥɺσʔλܗͷํ๏ͳͲ • ܦݧ •
λεΫઃܭղ๏ɺΞϊςʔγϣϯ࡞ۀܦݧͳͲ • ࣝ • ଞࣾͷࣄྫɺۙͷओཁͳจͳͲ • ৗʹ࠷৽ͷͷͰ͋Δඞཁͳ͍ • Ή͠Ζ͍ݹ͞Εٕͨज़ͷํ͕ɺॳखͰద༻͢Δʹͪΐ͏Ͳྑ͍ʢϕʔεϥΠϯͱͯ͠ʣ ৗʹثΛຏ͍͓ͯ͘
28 • ൚༻తʹ͑ΔֶशࡁΈϞσϧΛ͍ͭͰ͑ΔΑ͏ʹ͓ͯ͘͠ • Կσʔλ͕ແͯ͘ॳखͰ͑ΔثΛ͓࣋ͬͯ͘ͱศར • ۩ମྫ • ܗଶૉղੳɿMeCab, Sudachi
• ݻ༗දݱநग़ɿspaCy+GiNZA • େنݴޠϞσϧɿBERT, RoBERTa, T5, GPT-2,3ͳͲͷຊޠରԠϞσϧ • ݕࡧɿElasticsearch • ࣙॻɿNEologd, ֤υϝΠϯͰඋ͞Ε͍ͯΔ୯ޠாʢe.g. ҩྍυϝΠϯͳΒສපࣙॻʣ • ҙ • Hugging FaceͷTransformers։ൃεϐʔυ͕ૣͯ͘ै͢ΔͷେมͳͷͰɺ΄Ͳ΄Ͳʹ ثͦͷ1ɿֶशࡁΈϞσϧ֤छπʔϧ
29 • ͏༧ఆ͕ͳͯ͘ɺͱʹ͔͘ݴޠࢿݯҙࣝͯ͠ूΊ͓ͯ͘ • ࠒ͔ΒूΊΔบΛ͚͓ͯ͘ͱɺඞཁͳͱ͖ʹ͙͢ར༻Ͱ͖Δ/ूΊΒΕΔ • ۩ମྫ • WikipediaͷCirrusίʔύεɺLivedoor χϡʔείʔύεͳͲͷ͞Ε͍ͯΔίʔύε
• ಛఆυϝΠϯͷΣϒαΠτͷΫϩʔϧʢχϡʔεαΠτɺϒϩάɺTwitterʣ • ख๏ • Scrapyɿpagination͕͋ΔߏԽ͞ΕͨΣϒαΠτ͕ର • Selenium: jsΛར༻ͨ͠ϒϥβͷϨϯμϦϯάΛཁ͢ΔಈతͳαΠτ͕ର • WgetίϚϯυ: αΠτʹྻڍ͞ΕΔಛఆͷ֦ுࢠͷϑΝΠϧϖʔδશମΛҰׅͰऔಘ • Pandas: pd.read_html()ͰHTMLͷςʔϒϧΛDataFrameͱͯ͠ಡΈࠐΊΔ ثͦͷ2ɿݴޠࢿݯʢίʔύε, σʔλ, ࣙॻʣ
30 • ղ͖͘Λ࣮ݱ͢Δ্ͰɺΞϊςʔγϣϯͷ͜ͱΛৗʹҙࣝ͢Δ • Ξϊςʔγϣϯ͕σʔλͷ࣭ΛܾΊΔ • ΞϊςʔγϣϯΨΠυϥΠϯͷࡦఆ = ࣗવݴޠͷࣝͱυϝΠϯࣝͷ༥߹ •
٬؍త͔ͭҰ؏ੑΛ࣋ͬͨΨΠυϥΠϯΛ࡞ͯ͠ɺ͔ͭਓʹڭ͑Δͷຊʹ͍͠ • πʔϧαʔϏεͷ۩ମྫ • ແঈɿDoccano, Label Studio • Prodigy: spaCyΛ࡞͍ͬͯΔExplosion.ai͕։ൃ͍ͯ͠ΔΞϊςʔγϣϯπʔϧ • FastLabel: FastLabel͕ࣾఏڙ͢Δ༗ঈͷΞϊςʔγϣϯπʔϧ & ΞϊςʔγϣϯαʔϏε • UbieͰσʔλ࡞Λґཔ͍͖ͤͯͨͩ͞·ͨ͠ʢ˞ COI͋Γ·ͤΜʣ ثͦͷ3ɿΞϊςʔγϣϯͷܦݧͱମ੍
31 • ݴޠॲཧֶձ࣍େձ • ຊޠͷݚڀՌ͕ू·Δࠃ࠷େͷࣗવݴޠॲཧͷֶձ • ༧ߘू͕ͯ͢ެ։͞Ε͍ͯΔͷͰաڈͷݚڀࣄྫࢀর͍͢͠ • Paper with
Code • λεΫ/σʔληοτԣஅͰจͷख๏ਫ਼ΛൺֱͰ͖ΔαΠτ • จͷެࣜ/ඇެࣜͷ࣮ใ (GitHubͷϦϯΫ) ͕ඥ͚ΒΕ͍ͯΔ • χϡʔεαΠτ/ϒϩά/χϡʔεϨλʔ/Twitter • ݸਓత͓͢͢Ί: εςʔτɾΦϒɾAIɾΨΠυɺΦʔδε૯ݚʮ͡Ίͯͷࣗવݴޠॲཧʯ ثͦͷଞɿ༗༻ͳใݯ
32 • ෳࡶԽ͢Δࣗવݴޠॲཧ • ը૾ೝࣝԻೝࣝͱͷΈ߹Θ͕ͤ૿͖͑ͯͨ • ෳͷػցֶशϞσϧʹΑΔਫ਼Լ֎෦αʔϏεґଘҰఆ໔Εͳ͍ • Ubieͷࣄྫ •
OCRʹΑΓจࣈىͨ͜͠͠υΩϡϝϯτத͔Βͷใநग़ • ελʔτΞοϓͰٻΊΒΕΔ͜ͱ • ϓϩδΣΫτ͕ࣦഊ͠ͳ͍Α͏ʹɺ֑͔ΒམͪΔͷΛ͙ • ͦͷͨΊʹૉૣ͘ݕূͯ͠ෆ࣮֬ੑΛԼ͛Δඞཁ͕͋Δ • ͦͷͨΊʹৗʹثΛຏ͍͓͍͍ͯͯͭͰ͑ΔΑ͏ʹ͓ͯ͘͠ ·ͱΊ