Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
目と耳を持った自然言語処理 - スタートアップにおける価値創出のために
Search
yag_ays
May 10, 2022
Technology
1
3.6k
目と耳を持った自然言語処理 - スタートアップにおける価値創出のために
https://forkwell.connpass.com/event/245507/
yag_ays
May 10, 2022
Tweet
Share
More Decks by yag_ays
See All by yag_ays
対話型AIの構築における工夫とデータセットの重要性 - 素早くデータを構築し検証するためには
yag_ays
3
6.3k
時間情報表現抽出とルールベース解析器のこれから / Temporal Expression Analysis in Japanese and Future of Rule-based Approach
yag_ays
1
2.2k
Pythonで始める ドキュメント・インテリジェンス入門 / Introduction to Document Intelligence with Python
yag_ays
9
8.9k
"医者の言葉、患者の言葉、エンジニアの言葉" / MNTSQ Ubie Vertical ai
yag_ays
3
13k
LT at nlp_career
yag_ays
0
320
Review: "Recommending Investors for Crowdfunding Projects"
yag_ays
1
1.1k
Other Decks in Technology
See All in Technology
オブザーバビリティが育むシステム理解と好奇心
maruloop
3
1.5k
serverless team topology
_kensh
3
240
[re:Inent2025事前勉強会(有志で開催)] re:Inventで見つけた人生をちょっと変えるコツ
sh_fk2
1
890
実践マルチモーダル検索!
shibuiwilliam
1
240
オブザーバビリティと育てた ID管理・認証認可基盤の歩み / The Journey of an ID Management, Authentication, and Authorization Platform Nurtured with Observability
kaminashi
1
1.1k
可観測性は開発環境から、開発環境にもオブザーバビリティ導入のススメ
layerx
PRO
4
1.8k
だいたい分かった気になる 『SREの知識地図』 / introduction-to-sre-knowledge-map-book
katsuhisa91
PRO
3
1.5k
マルチエージェントのチームビルディング_2025-10-25
shinoyamada
0
210
AIプロダクトのプロンプト実践テクニック / Practical Techniques for AI Product Prompts
saka2jp
0
120
20251029_Cursor Meetup Tokyo #02_MK_「あなたのAI、私のシェル」 - プロンプトインジェクションによるエージェントのハイジャック
mk0721
PRO
5
1.9k
「タコピーの原罪」から学ぶ間違った”支援” / the bad support of Takopii
piyonakajima
0
150
頭部ふわふわ浄酔器
uyupun
0
230
Featured
See All Featured
Facilitating Awesome Meetings
lara
57
6.6k
The Illustrated Children's Guide to Kubernetes
chrisshort
49
51k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.5k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
36
6.1k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
230
22k
Into the Great Unknown - MozCon
thekraken
40
2.1k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Keith and Marios Guide to Fast Websites
keithpitt
411
23k
Raft: Consensus for Rubyists
vanstee
140
7.2k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
130k
Transcript
ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ 2022/05/10 Ubieגࣜձࣾ Ԟా ༟थ
2 Ԟా ༟थ @yag_ays Recruit → Sansan → Ubie ࣗݾհ
https://yag-ays.github.io/
3 ࠓ͓͢Δ͜ͱ • ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ • ը૾ೝࣝԻใॲཧͱͷΈ߹ΘͤͱɺෳࡶͳγεςϜߏஙʹΑΓੜ͡Δ՝ • Ubieʹ͓͚Δࣗવݴޠॲཧ׆༻ͷ۩ମࣄྫ • OCR݁Ռ͔ΒͷࣗવݴޠॲཧʹΑΔใநग़ͷࣄྫ
• ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ • ελʔτΞοϓʹ͓͚ΔػցֶशΤϯδχΞ/σʔλαΠΤϯςΟετͲ͏ৼΔ͏ͱྑ͍͔
4 ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ
5 ෳࡶԽ͢ΔػցֶशΛ༻͍ͨαʔϏε։ൃͱԠ༻ൣғͷ͕Γ • ୯ҰͷػցֶशϞσϧΛͯΊΔ͚ͩͰՌΛग़ͤͳ͘ͳ͖͍ͬͯͯΔ • ػցֶशͷίϞσΟςΟԽʢਓೳ, AIͱݺΕೝ͕͕ͬͨʣ • ਓؒʹػցʹෳࡶͳ͜ͱΛཁٻ͞ΕΔΑ͏ʹͳ͖ͬͯͨ •
ΑΓՁͷ͋ΔҰ࿈ͷಈ࡞Λεέʔϧ͢ΔܗͰସ͢Δೳྗͷඞཁੑ • Α͏͘ݱ࣮ͷΛղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳ͖ͬͯͨ • ࣗવݴޠॲཧΛऔΓר͘ঢ়گ • “Web” ͱ͍͏ॻ͖ݴ༿͔ͭେنσʔλͳੈք͕த৺ • ݹ͘εύϜϝʔϧఆɻۙͩͱػց༁ػցཁɺࡶஊԠ • ͦΕҎ֎ͷपลྖҬɺଞͷυϝΠϯͱͷؔੑੜ͖ͯͨ͡ • ཧతͳॻྨจࣈใɺਓؒͷͷձԻͳͲ ͱ͔ࣖΒೖͬͯ͘ΔใΛࣗવݴޠॲཧͰѻ͏
6 • 👀 : ը૾ใ • 2࣍ݩฏ໘্ʹจࣈจॻ͕ஔ͞ΕͨςΩετΛɺOCRʹΑͬͯจࣈى͜͢͠Δ • จࣈͷஔϑΥϯτɺ৭ɺਤදͱ͍ͬͨϨΠΞτ͕ҙຯΛ࣋ͭ •
e.g. ܖॻٻॻɺϨγʔτɺจɺͳͲ • 👂 : Իใ • ୯Ұ·ͨෳͷਓ͕ؒൃ͢ΔԻΛɺԻೝࣝʹΑͬͯจࣈྻʹม͢Δ • ͠ݴ༿ͱ͍͏ɺจ๏తഁݴ͍ؒҧ͑ͳͲ͕༰қʹى͜Γ͏Δ • e.g. ৗձɺࡶஊɺεϚʔτεϐʔΧʔͷ͍߹ΘͤɺͳͲ ࣖΛܦͯಘΒΕͨใɺݴ༿ͱͯ͠ͷ࣭͕Web༝དྷͱҟͳΔ
7 ՝1: ࣖΛࣗ࡞͢Δͷࠔ • OCRԻೝࣝΤϯδϯͯ͢ΛࣗࣾͰ͢Δͷ͍͠ • ͦΕ͕ग़དྷΔͷσʔλ & ਓࡐΛ༗͢ΔҰ෦ͷେاۀͷΈ •
ܧଓతͳϝϯςφϯεਫ਼্ʹଟେͳίετ͕͔͔Δ • ݱ࣮తʹɺ֎෦اۀͷαʔϏεΛར༻͢Δ͜ͱʹͳΔ • ͓࣌ؒۚແ͍ελʔτΞοϓಛʹ • ֎෦ͷࣖͷਫ਼Λɺར༻ऀଆ͕ྑ͍ͯ͘͘͜͠ͱ͍͠ • ֎෦αʔϏεΛར༻͢ΔҎ্ɺͦΕࣗମͷੑೳΛ্ͤ͞Δ͜ͱࠔ • ࣮ߦ࣌ͷύϥϝʔλ֎෦ใΛར༻Ͱ͖ΔαʔϏεଘࡏ͢Δ͕ɺద༻ൣғݶఆత • Ұఆͷਫ਼Ͱڐ༰͢Δ΄͔ແ͍
8 • ػցֶशϞσϧ͕ྻʹܨ͕Γɺਫ਼ֻ͕͚ࢉͰԼ͍ͯ͘͠ • ͋ΔػցֶशϞσϧͷग़ྗ͕ɺ࣍ͷػցֶशϞσϧͷೖྗʹͳΔ • e.g. OCR݁ՌͷςΩετநग़݁ՌΛɺ࣍ͷࣗવݴޠॲཧϞσϧ͕ར༻͠λεΫΛղ͘ • (ײ֮తʹ)
ਫ਼͕ ML_A 90% Ͱ ML_B 80% Ͱ͋Εɺ࿈݁͢ΕશମͰ 72% ʹͳΔ • ML_AͱML_BΛ౷߹ͯ͠End2EndͳϞσϧΛ࡞Δ͜ͱ͕ຊདྷ·͍͕͠ɺσʔλ४උ ࣮؍Ͱݱ࣮ʹ͍͜͠ͱ͕ଟ͍ ՝2: ෳͷػցֶशϞσϧ͕ґଘ͢Δ͜ͱʹىҼ͢Δਫ਼Լ ػցֶशϞσϧA ػցֶशϞσϧB
9 • ෳࡶԽ͢ΔػցֶशγεςϜ • ࣮՝Λղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳͬͨҰํͰɺෳࡶ͔ͭൣғͳྖҬΛΧόʔ͢Δඞཁ • ࣗવݴޠॲཧʹ͓͚Δͱࣖ • ը૾ೝࣝʹΑΓಘͨυΩϡϝϯτ্ͷจࣈใ •
ԻೝࣝʹΑΓಘΒΕͨൃͷจࣈܥྻใ • 2छྨͷ՝ • ൚༻తͳΤϯδϯΛ࡞Δ͜ͱ͕͘͠ɺ֎෦αʔϏεʹґଘͤ͟ΔΛಘͳ͍ • ෳͷػցֶशϞσϧʹґଘ͢Δ͜ͱʹΑΔਫ਼Լ ͜͜·Ͱͷ·ͱΊ
10 Ubieʹ͓͚Δࣗવݴޠॲཧͷ׆༻ࣄྫ
11 • ͓ༀεΩϟϯɺհঢ়εΩϟϯͱ͍͏αʔϏεΛఏڙ • ױऀ͞Μ͕࣋ࢀͨ͠ࢴഔମͷใΛεΩϟϯ͠ɺɹ OCRʹΑΔจࣈى͜͠ͱใநग़Λߦ͏ • ໊લͳͲͷݸਓใͷϚεΩϯάॲཧ • ͓ༀखாͷจݴͷத͔Βɺॲํ͞Ε͍ͯΔༀࡎΛநग़͢Δ
• ຊͰॲํ͞Ε͍ͯΔༀࡎ໊ط (DBͱͯ͠ଘࡏ) ͓ༀखாհঢ়͔Βͷใநग़ ϛϠBMࡉཻ Χϩφʔϧৣ 仏௧࣌ ேன༦ 3แ 2ৣ ※ ࢲ͕ण࢘Λ৯ͨ൩ʹ ңԌʹͳͬͨͱ͖ͷॲํ
12 ͓ༀεΩϟϯͷॲཧͷྲྀΕ 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾
3. OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ҩྍػؔʹઃஔ͢ΔεΩϟφͱPCͷߏ
13 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3.
OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ͓ༀεΩϟϯͷॲཧͷྲྀΕ εΩϟϯը૾͔ΒඞཁͳྖҬ
14 x0 y0 x1 y1  20 12 26 18
ྍ 31 11 37 17 Պ 42 12 48 18 ɿ 56 15 62 21  63 12 69 18 Պ 72 11 78 17 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3. OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ͓ༀεΩϟϯͷॲཧͷྲྀΕ ࠷খ୯Ґͷจࣈͱͦͷ࠲ඪΛऔಘ͢Δ
15 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3.
OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ \ϒ ϓ^ \ϩ ޱ^ \ϯ ι^ \ 0 %^ Χϩφʔϧৣ200 Χϩφʔϧৣ200 Χϩφʔϧৣ300 ίΧʔϧৣ300 Χϩφʔϧࡉཻ20% 100% 90% 80% 60% Query Documents ͓ༀεΩϟϯͷॲཧͷྲྀΕ ༀࡎ໊ͷྨࣅʹΑΓఆ͢Δ Α͋͘ΔಡΈऔΓϛε
16 ϦΞϧσʔλͳΒͰͷ͠͞ͷྫ 1ͭͷༀࡎʹ2໊ͭલ͕هࡌ͞ΕΔ Χϩφʔϧৣ ҰൠɿΞητΞϛϊϑΣϯৣNH • ઌൃༀ/ޙൃༀͷ۠ผ • δΣωϦοΫҩༀͷ໊લͷԣʹɺݩͱ ͳͬͨༀࡎ໊͕ซه͞ΕΔ͜ͱ͕͋Δ
• ॲํ͞Εͨༀࡎ1͕ͭͩɺԿߟ͑ͣʹ நग़͢Δͱ2ͭදࣔ͞ΕΔ • ܩઢͷͳ͍ςʔϒϧߏ • ಥવͷվߦ • OCRͱͯ͠ߏจ຺Λߟྀͨ͠ಡΈ औΓΛߦ͑ͳ͍ͷͰɺநग़จࣈྻ͕ҙਤ ͨ͠ॱ൪ʹฒͣɺஅ͞ΕΔ ҉ͷߏԽ ϩΩιϓϩϑΣϯφճৣ τϦϜৣNHʮ αϫΠʯ
17 • લॲཧ/ޙॲཧ • ࡱ૾ը૾͔ΒͷྖҬநग़ɺ֯ิਖ਼ɺ৭ௐิਖ਼ಠ࣮ࣗ • OCR • GCPͷCloud Vision
APIΛར༻ • ࣙॻ • จࣈೝࣝޡΓʹϩόετʹͳΔΑ͏ʹɺ෦จࣈྻͷྨࣅܭࢉͳͲߟྀͨࣙ͠ॻ࡞Γ • ՄࢹԽਫ਼ධՁ༻ͷWebΞϓϦέʔγϣϯ • ։ൃޮΛ্͛ΔͨΊʹࣗ࡞ • ը૾ͱจࣈใΛߦ͖དྷ͢Δඞཁ͕͋ΔͨΊ։ൃσόοά͕ඇৗʹ͍ͨ͠Ί • OCRͷ݁ՌͰ(x:100, y:200, ͋) ͱݴΘΕ͔ͯΒͳ͍ ࣮ࡍʹͲͷΑ͏ͳػೳΛ࣮͍ͯ͠Δͷ͔
18 ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ
19 • ػցֶशࣗવݴޠॲཧΛऔΓר͘αʔϏε։ൃͷ՝ • ෳͷػցֶशϞσϧʹґଘ͢ΔෳࡶͳγεςϜ֎෦αʔϏεͷґଘ • ػցֶशࣗମͷෳࡶ͞ʹཱ͔ͪΘͳ͚Ε͍͚ͳ͍ • ಉ࣌ʹɺαʔϏεͷશମઃܭϏδωεϞσϧࣗମʹओମతʹؔΘ͍ͬͯ͘͜ͱ͕ඞཁ •
ػೳͷҰ෦͑͞୲͍ͯ͠ΕɺPO୭͔͕ΓΛ্ख͍͜ͱͬͯ͘ΕΔΑ͏ͳ͜ͱك • ͰελʔτΞοϓͷػցֶशΤϯδχΞσʔλαΠΤϯςΟετɺԿΛҙࣝ͠ͳΕ͍ ͚ͳ͍ͷ͔ʁ ͜͜·Ͱͷ·ͱΊ
20 ελʔτΞοϓͰٻΊΒΕΔ͜ͱ3ͭ ֑ʹམͪΔͷΛ͙ ૉૣ͘ݕূ͢Δ ৗʹثΛຏ͍͓ͯ͘
21 • ࣄۀαʔϏε͕֑͔ΒམͪΔͷΛ͙ • ͋ΔαʔϏεʹ͓͚Δػցֶशͷಋೖ͕ɺຊʹେৎͦ͏͔Λஅ͢Δ • ݱ࣮తʹՄೳ > ཧతʹՄೳ >
ݱ࣮తʹෆՄೳ > ཧతʹෆՄೳ • ͦΕͱಉ࣌ʹݟ͋ΔਓؒʹҙݟΛٻΊΒΕΔ / ҙݟΛड͚ೖΕΔจԽͷৢେࣄ • Α͋͘Δ֑ͷύλʔϯ • ໌Β͔ʹ՝͕͗͢͠Δέʔε • ઐٕೳෳࡶͳॲཧ͕ඞཁͰɺਓؒͰਖ਼֬ʹߦ͏͜ͱ͕͍͠ • Ͱ͖ͨͱ͜ΖͰɺͦΕ΄Ͳࣄۀʹͱͬͯخ͘͠ͳ͍έʔε • ͦΕਓ͕ؒͬͨ΄͏͕ૣ͘ͳ͍ʁ • ࠷৽ٕज़ΛͬͯՌΛ্͍͛ͨͱ͍͏έʔε • AIΛͬͯΈ͍ͨ ֑͔ΒམͪΔͷΛ͙
22 ελʔτΞοϓʹ͓͚Δ֑ͷᄻ͑ ʮىۀͱ֑͔Βඈͼ߱Γɺ མͪΔ·ͰʹඈߦػΛΈཱͯΔΑ͏ͳͷʯ ϦʔυɾϗϑϚϯ (LinkedInۀऀ) https://sketchplanations.com/starting-a-company https://logmi.jp/business/articles/36553
23 ελʔτΞοϓʹ͓͚Δ֑ͷδϨϯϚ • ৗʹᷤ౻ͱܾஅͷ࿈ଓ • ʮ͍ͭ͜ɺ͍ͭػցֶशҊ݅ͷ૬ஊʹNoͬͯݴͬͯΔͳʯͱ৺ͷதͷ͕ࣗᅤ͘ • ͳͥͦͷΑ͏ͳஅΛ͔ͨ͠ΛυΩϡϝϯτʹ·ͱΊ͓ͯ͘ͱɺৼΓฦΓڞ༗ʹྑ͍ • ग़དྷΔͱग़དྷͳ͍ͷؒʹແͷάϥσʔγϣϯ͕͋Δ
• ͲͷΑ͏ͳ݅ͷͱ͖ʹՄೳ/ෆՄೳͳͷ͔ ձࣾʹͱͬͯେࣄͳλεΫͳͷ͔Δ ͬͯΈͳ͍ͱ͔Βͳ͍͔…… ͍͠ͱ͖ͬͺΓஅ͔ͬͯͬΓਏ͍ ໌Β͔ʹ͍͠λεΫࢭΊ͍ͨ ӡ༻ͳͲผͷํ๏Ͱղܾ͍ͤͨ͞ ࠓଞͷॏཁͳ՝ʹྗ͍ͨ͠
24 • 100ͷࢥߟΑΓ1ͷ࣮ફ • ෆ࣮֬ੑΛԼ͛ͭͭมԽʹରԠͰ͖ΔΑ͏ͳΞδϟΠϧతΞϓϩʔν • ։࢝ॳظ΄Ͳɺࣦഊʹର͢Δই͕ઙ͘ࡁΉ • UbieͰʮLaunch and
Launchʯͱ͍͏ValueΛେࣄʹ͍ͯ͠Δ • ॳखͰେ͖ͳͷΛ࡞Γ͗͢ͳ͍ • ݕূ͍߲ͨ͠ΛຬͨͤΔΑ͏ʹɺͱʹ͔͘࠷Ͱΰʔϧʹ͔͏ ૉૣ͘ݕূ͢Δ
25 • ػցֶश؍ • ͲΜͳσʔλ͕ೖྗͱͯ͠ೖͬͯ͘Δ͔ʁ • ܧଓతʹՁ͋Δσʔλ͕ੵ͞ΕΔঢ়ଶΛ࡞ΕΔͷ͔ʁ • ͲͷΑ͏ͳػցֶशͷख๏͕ར༻Ͱ͖Δͷ͔ʁ •
ͲΕ͘Β͍ͷσʔλྔ͕͋Εेͳͷ͔ʁ • naiveͳख๏ͷਫ਼ɺཧతͳݶքʢਓؒʣͷਫ਼ͲΕ͘Β͍͔ʁ • ඞཁͱ͞ΕΔԠ࣌ؒɺಈ࡞ڥͳͲͷϩδοΫҎ֎ͷ੍͋Δ͔ʁ • Ϗδωε؍ • ސ٬ػցֶशϞσϧͷਫ਼͕ͲΕ͘Β͍ʹͳΕຬ͢Δ͔ʁ Βͳ͍͜ͱΛݮΒͯ͠ɺෆ࣮֬ੑΛԼ͛Δ
26 • bootstrap • ػցֶशϞσϧΛ࡞Δʹֶश/ධՁ༻ͷσʔλ͕ඞཁɻσʔλΛஷΊΔʹଟ͘ͷϢʔβʹར ༻ͯ͠ΒΘͳ͍ͱ͍͚ͳ͍ɻར༻ͯ͠Β͏ʹ͋Δఔͷਫ਼ͷػցֶशϞσϧ͕ඞཁɻ ػցֶशϞσϧΛ࡞Δʹ…… (࠷ॳʹΔ) • Կແ͍தͰɺͲ͏ݕূ͢Δͷ͔ʁ
• ΰϛਫ਼Ͱ͍͍ͷͰɺಈ͘ϞϊΛ࡞͢ΔʢPoCʣ • ܭࢉػͷΘΓʹਓ͕ؒखಈͰରԠ͢ΔʢΦζͷຐ๏͍ϝιουʣ • [େࣄ!!!] ͻͨ͢ΒࣗͰΞϊςʔγϣϯͯ͠σʔλΛ࡞Δ ݕূʹཱ͔ͪͩΔน - ͳʹͳ͍͔Βͦ͜ग़དྷΔίτ https://www.amazon.co.jp/dp/4763137492
27 • ༩͑ΒΕͨλεΫͷળ͠ѱ͠Λஅ͠ૉૣ͘ݕূ͢ΔʹɺৗʹثΛຏ͍͓ͯ͘ඞཁ͕͋Δ • ٕज़ • ಈ࡞͢ΔϓϩάϥϜ࣮ߦڥɺσʔλܗͷํ๏ͳͲ • ܦݧ •
λεΫઃܭղ๏ɺΞϊςʔγϣϯ࡞ۀܦݧͳͲ • ࣝ • ଞࣾͷࣄྫɺۙͷओཁͳจͳͲ • ৗʹ࠷৽ͷͷͰ͋Δඞཁͳ͍ • Ή͠Ζ͍ݹ͞Εٕͨज़ͷํ͕ɺॳखͰద༻͢Δʹͪΐ͏Ͳྑ͍ʢϕʔεϥΠϯͱͯ͠ʣ ৗʹثΛຏ͍͓ͯ͘
28 • ൚༻తʹ͑ΔֶशࡁΈϞσϧΛ͍ͭͰ͑ΔΑ͏ʹ͓ͯ͘͠ • Կσʔλ͕ແͯ͘ॳखͰ͑ΔثΛ͓࣋ͬͯ͘ͱศར • ۩ମྫ • ܗଶૉղੳɿMeCab, Sudachi
• ݻ༗දݱநग़ɿspaCy+GiNZA • େنݴޠϞσϧɿBERT, RoBERTa, T5, GPT-2,3ͳͲͷຊޠରԠϞσϧ • ݕࡧɿElasticsearch • ࣙॻɿNEologd, ֤υϝΠϯͰඋ͞Ε͍ͯΔ୯ޠாʢe.g. ҩྍυϝΠϯͳΒສපࣙॻʣ • ҙ • Hugging FaceͷTransformers։ൃεϐʔυ͕ૣͯ͘ै͢ΔͷେมͳͷͰɺ΄Ͳ΄Ͳʹ ثͦͷ1ɿֶशࡁΈϞσϧ֤छπʔϧ
29 • ͏༧ఆ͕ͳͯ͘ɺͱʹ͔͘ݴޠࢿݯҙࣝͯ͠ूΊ͓ͯ͘ • ࠒ͔ΒूΊΔบΛ͚͓ͯ͘ͱɺඞཁͳͱ͖ʹ͙͢ར༻Ͱ͖Δ/ूΊΒΕΔ • ۩ମྫ • WikipediaͷCirrusίʔύεɺLivedoor χϡʔείʔύεͳͲͷ͞Ε͍ͯΔίʔύε
• ಛఆυϝΠϯͷΣϒαΠτͷΫϩʔϧʢχϡʔεαΠτɺϒϩάɺTwitterʣ • ख๏ • Scrapyɿpagination͕͋ΔߏԽ͞ΕͨΣϒαΠτ͕ର • Selenium: jsΛར༻ͨ͠ϒϥβͷϨϯμϦϯάΛཁ͢ΔಈతͳαΠτ͕ର • WgetίϚϯυ: αΠτʹྻڍ͞ΕΔಛఆͷ֦ுࢠͷϑΝΠϧϖʔδશମΛҰׅͰऔಘ • Pandas: pd.read_html()ͰHTMLͷςʔϒϧΛDataFrameͱͯ͠ಡΈࠐΊΔ ثͦͷ2ɿݴޠࢿݯʢίʔύε, σʔλ, ࣙॻʣ
30 • ղ͖͘Λ࣮ݱ͢Δ্ͰɺΞϊςʔγϣϯͷ͜ͱΛৗʹҙࣝ͢Δ • Ξϊςʔγϣϯ͕σʔλͷ࣭ΛܾΊΔ • ΞϊςʔγϣϯΨΠυϥΠϯͷࡦఆ = ࣗવݴޠͷࣝͱυϝΠϯࣝͷ༥߹ •
٬؍త͔ͭҰ؏ੑΛ࣋ͬͨΨΠυϥΠϯΛ࡞ͯ͠ɺ͔ͭਓʹڭ͑Δͷຊʹ͍͠ • πʔϧαʔϏεͷ۩ମྫ • ແঈɿDoccano, Label Studio • Prodigy: spaCyΛ࡞͍ͬͯΔExplosion.ai͕։ൃ͍ͯ͠ΔΞϊςʔγϣϯπʔϧ • FastLabel: FastLabel͕ࣾఏڙ͢Δ༗ঈͷΞϊςʔγϣϯπʔϧ & ΞϊςʔγϣϯαʔϏε • UbieͰσʔλ࡞Λґཔ͍͖ͤͯͨͩ͞·ͨ͠ʢ˞ COI͋Γ·ͤΜʣ ثͦͷ3ɿΞϊςʔγϣϯͷܦݧͱମ੍
31 • ݴޠॲཧֶձ࣍େձ • ຊޠͷݚڀՌ͕ू·Δࠃ࠷େͷࣗવݴޠॲཧͷֶձ • ༧ߘू͕ͯ͢ެ։͞Ε͍ͯΔͷͰաڈͷݚڀࣄྫࢀর͍͢͠ • Paper with
Code • λεΫ/σʔληοτԣஅͰจͷख๏ਫ਼ΛൺֱͰ͖ΔαΠτ • จͷެࣜ/ඇެࣜͷ࣮ใ (GitHubͷϦϯΫ) ͕ඥ͚ΒΕ͍ͯΔ • χϡʔεαΠτ/ϒϩά/χϡʔεϨλʔ/Twitter • ݸਓత͓͢͢Ί: εςʔτɾΦϒɾAIɾΨΠυɺΦʔδε૯ݚʮ͡Ίͯͷࣗવݴޠॲཧʯ ثͦͷଞɿ༗༻ͳใݯ
32 • ෳࡶԽ͢Δࣗવݴޠॲཧ • ը૾ೝࣝԻೝࣝͱͷΈ߹Θ͕ͤ૿͖͑ͯͨ • ෳͷػցֶशϞσϧʹΑΔਫ਼Լ֎෦αʔϏεґଘҰఆ໔Εͳ͍ • Ubieͷࣄྫ •
OCRʹΑΓจࣈىͨ͜͠͠υΩϡϝϯτத͔Βͷใநग़ • ελʔτΞοϓͰٻΊΒΕΔ͜ͱ • ϓϩδΣΫτ͕ࣦഊ͠ͳ͍Α͏ʹɺ֑͔ΒམͪΔͷΛ͙ • ͦͷͨΊʹૉૣ͘ݕূͯ͠ෆ࣮֬ੑΛԼ͛Δඞཁ͕͋Δ • ͦͷͨΊʹৗʹثΛຏ͍͓͍͍ͯͯͭͰ͑ΔΑ͏ʹ͓ͯ͘͠ ·ͱΊ