Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
目と耳を持った自然言語処理 - スタートアップにおける価値創出のために
Search
yag_ays
May 10, 2022
Technology
1
3.3k
目と耳を持った自然言語処理 - スタートアップにおける価値創出のために
https://forkwell.connpass.com/event/245507/
yag_ays
May 10, 2022
Tweet
Share
More Decks by yag_ays
See All by yag_ays
対話型AIの構築における工夫とデータセットの重要性 - 素早くデータを構築し検証するためには
yag_ays
3
6.2k
時間情報表現抽出とルールベース解析器のこれから / Temporal Expression Analysis in Japanese and Future of Rule-based Approach
yag_ays
1
2.1k
Pythonで始める ドキュメント・インテリジェンス入門 / Introduction to Document Intelligence with Python
yag_ays
9
8.8k
"医者の言葉、患者の言葉、エンジニアの言葉" / MNTSQ Ubie Vertical ai
yag_ays
3
13k
LT at nlp_career
yag_ays
0
320
Review: "Recommending Investors for Crowdfunding Projects"
yag_ays
1
1.1k
Other Decks in Technology
See All in Technology
2025-07-31: GitHub Copilot Agent mode at Vibe Coding Cafe (15min)
chomado
2
390
Claude Codeが働くAI中心の業務システム構築の挑戦―AIエージェント中心の働き方を目指して
os1ma
9
1.6k
Serverless Meetup #21
yoshidashingo
1
110
Rubyの国のPerlMonger
anatofuz
3
730
LLMで構造化出力の成功率をグンと上げる方法
keisuketakiguchi
0
590
SRE新規立ち上げ! Hubbleインフラのこれまでと展望
katsuya0515
0
170
AWS DDoS攻撃防御の最前線
ryutakondo
1
140
Claude Codeから我々が学ぶべきこと
oikon48
10
2.8k
【CEDEC2025】大規模言語モデルを活用したゲーム内会話パートのスクリプト作成支援への取り組み
cygames
PRO
2
790
ビジネス文書に特化した基盤モデル開発 / SaaSxML_Session_2
sansan_randd
0
270
Amazon Q と『音楽』-ゲーム音楽もAmazonQで作成してみた感想-
senseofunity129
0
120
Jamf Connect ZTNAとMDMで実現! 金融ベンチャーにおける「デバイストラスト」実例と軌跡 / Kyash Device Trust
rela1470
0
170
Featured
See All Featured
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Agile that works and the tools we love
rasmusluckow
329
21k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Building an army of robots
kneath
306
45k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.5k
Designing for humans not robots
tammielis
253
25k
A Tale of Four Properties
chriscoyier
160
23k
Speed Design
sergeychernyshev
32
1.1k
Done Done
chrislema
185
16k
Transcript
ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ 2022/05/10 Ubieגࣜձࣾ Ԟా ༟थ
2 Ԟా ༟थ @yag_ays Recruit → Sansan → Ubie ࣗݾհ
https://yag-ays.github.io/
3 ࠓ͓͢Δ͜ͱ • ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ • ը૾ೝࣝԻใॲཧͱͷΈ߹ΘͤͱɺෳࡶͳγεςϜߏஙʹΑΓੜ͡Δ՝ • Ubieʹ͓͚Δࣗવݴޠॲཧ׆༻ͷ۩ମࣄྫ • OCR݁Ռ͔ΒͷࣗવݴޠॲཧʹΑΔใநग़ͷࣄྫ
• ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ • ελʔτΞοϓʹ͓͚ΔػցֶशΤϯδχΞ/σʔλαΠΤϯςΟετͲ͏ৼΔ͏ͱྑ͍͔
4 ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ
5 ෳࡶԽ͢ΔػցֶशΛ༻͍ͨαʔϏε։ൃͱԠ༻ൣғͷ͕Γ • ୯ҰͷػցֶशϞσϧΛͯΊΔ͚ͩͰՌΛग़ͤͳ͘ͳ͖͍ͬͯͯΔ • ػցֶशͷίϞσΟςΟԽʢਓೳ, AIͱݺΕೝ͕͕ͬͨʣ • ਓؒʹػցʹෳࡶͳ͜ͱΛཁٻ͞ΕΔΑ͏ʹͳ͖ͬͯͨ •
ΑΓՁͷ͋ΔҰ࿈ͷಈ࡞Λεέʔϧ͢ΔܗͰସ͢Δೳྗͷඞཁੑ • Α͏͘ݱ࣮ͷΛղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳ͖ͬͯͨ • ࣗવݴޠॲཧΛऔΓר͘ঢ়گ • “Web” ͱ͍͏ॻ͖ݴ༿͔ͭେنσʔλͳੈք͕த৺ • ݹ͘εύϜϝʔϧఆɻۙͩͱػց༁ػցཁɺࡶஊԠ • ͦΕҎ֎ͷपลྖҬɺଞͷυϝΠϯͱͷؔੑੜ͖ͯͨ͡ • ཧతͳॻྨจࣈใɺਓؒͷͷձԻͳͲ ͱ͔ࣖΒೖͬͯ͘ΔใΛࣗવݴޠॲཧͰѻ͏
6 • 👀 : ը૾ใ • 2࣍ݩฏ໘্ʹจࣈจॻ͕ஔ͞ΕͨςΩετΛɺOCRʹΑͬͯจࣈى͜͢͠Δ • จࣈͷஔϑΥϯτɺ৭ɺਤදͱ͍ͬͨϨΠΞτ͕ҙຯΛ࣋ͭ •
e.g. ܖॻٻॻɺϨγʔτɺจɺͳͲ • 👂 : Իใ • ୯Ұ·ͨෳͷਓ͕ؒൃ͢ΔԻΛɺԻೝࣝʹΑͬͯจࣈྻʹม͢Δ • ͠ݴ༿ͱ͍͏ɺจ๏తഁݴ͍ؒҧ͑ͳͲ͕༰қʹى͜Γ͏Δ • e.g. ৗձɺࡶஊɺεϚʔτεϐʔΧʔͷ͍߹ΘͤɺͳͲ ࣖΛܦͯಘΒΕͨใɺݴ༿ͱͯ͠ͷ࣭͕Web༝དྷͱҟͳΔ
7 ՝1: ࣖΛࣗ࡞͢Δͷࠔ • OCRԻೝࣝΤϯδϯͯ͢ΛࣗࣾͰ͢Δͷ͍͠ • ͦΕ͕ग़དྷΔͷσʔλ & ਓࡐΛ༗͢ΔҰ෦ͷେاۀͷΈ •
ܧଓతͳϝϯςφϯεਫ਼্ʹଟେͳίετ͕͔͔Δ • ݱ࣮తʹɺ֎෦اۀͷαʔϏεΛར༻͢Δ͜ͱʹͳΔ • ͓࣌ؒۚແ͍ελʔτΞοϓಛʹ • ֎෦ͷࣖͷਫ਼Λɺར༻ऀଆ͕ྑ͍ͯ͘͘͜͠ͱ͍͠ • ֎෦αʔϏεΛར༻͢ΔҎ্ɺͦΕࣗମͷੑೳΛ্ͤ͞Δ͜ͱࠔ • ࣮ߦ࣌ͷύϥϝʔλ֎෦ใΛར༻Ͱ͖ΔαʔϏεଘࡏ͢Δ͕ɺద༻ൣғݶఆత • Ұఆͷਫ਼Ͱڐ༰͢Δ΄͔ແ͍
8 • ػցֶशϞσϧ͕ྻʹܨ͕Γɺਫ਼ֻ͕͚ࢉͰԼ͍ͯ͘͠ • ͋ΔػցֶशϞσϧͷग़ྗ͕ɺ࣍ͷػցֶशϞσϧͷೖྗʹͳΔ • e.g. OCR݁ՌͷςΩετநग़݁ՌΛɺ࣍ͷࣗવݴޠॲཧϞσϧ͕ར༻͠λεΫΛղ͘ • (ײ֮తʹ)
ਫ਼͕ ML_A 90% Ͱ ML_B 80% Ͱ͋Εɺ࿈݁͢ΕશମͰ 72% ʹͳΔ • ML_AͱML_BΛ౷߹ͯ͠End2EndͳϞσϧΛ࡞Δ͜ͱ͕ຊདྷ·͍͕͠ɺσʔλ४උ ࣮؍Ͱݱ࣮ʹ͍͜͠ͱ͕ଟ͍ ՝2: ෳͷػցֶशϞσϧ͕ґଘ͢Δ͜ͱʹىҼ͢Δਫ਼Լ ػցֶशϞσϧA ػցֶशϞσϧB
9 • ෳࡶԽ͢ΔػցֶशγεςϜ • ࣮՝Λղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳͬͨҰํͰɺෳࡶ͔ͭൣғͳྖҬΛΧόʔ͢Δඞཁ • ࣗવݴޠॲཧʹ͓͚Δͱࣖ • ը૾ೝࣝʹΑΓಘͨυΩϡϝϯτ্ͷจࣈใ •
ԻೝࣝʹΑΓಘΒΕͨൃͷจࣈܥྻใ • 2छྨͷ՝ • ൚༻తͳΤϯδϯΛ࡞Δ͜ͱ͕͘͠ɺ֎෦αʔϏεʹґଘͤ͟ΔΛಘͳ͍ • ෳͷػցֶशϞσϧʹґଘ͢Δ͜ͱʹΑΔਫ਼Լ ͜͜·Ͱͷ·ͱΊ
10 Ubieʹ͓͚Δࣗવݴޠॲཧͷ׆༻ࣄྫ
11 • ͓ༀεΩϟϯɺհঢ়εΩϟϯͱ͍͏αʔϏεΛఏڙ • ױऀ͞Μ͕࣋ࢀͨ͠ࢴഔମͷใΛεΩϟϯ͠ɺɹ OCRʹΑΔจࣈى͜͠ͱใநग़Λߦ͏ • ໊લͳͲͷݸਓใͷϚεΩϯάॲཧ • ͓ༀखாͷจݴͷத͔Βɺॲํ͞Ε͍ͯΔༀࡎΛநग़͢Δ
• ຊͰॲํ͞Ε͍ͯΔༀࡎ໊ط (DBͱͯ͠ଘࡏ) ͓ༀखாհঢ়͔Βͷใநग़ ϛϠBMࡉཻ Χϩφʔϧৣ 仏௧࣌ ேன༦ 3แ 2ৣ ※ ࢲ͕ण࢘Λ৯ͨ൩ʹ ңԌʹͳͬͨͱ͖ͷॲํ
12 ͓ༀεΩϟϯͷॲཧͷྲྀΕ 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾
3. OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ҩྍػؔʹઃஔ͢ΔεΩϟφͱPCͷߏ
13 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3.
OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ͓ༀεΩϟϯͷॲཧͷྲྀΕ εΩϟϯը૾͔ΒඞཁͳྖҬ
14 x0 y0 x1 y1 20 12 26 18
ྍ 31 11 37 17 Պ 42 12 48 18 ɿ 56 15 62 21 63 12 69 18 Պ 72 11 78 17 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3. OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ͓ༀεΩϟϯͷॲཧͷྲྀΕ ࠷খ୯Ґͷจࣈͱͦͷ࠲ඪΛऔಘ͢Δ
15 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3.
OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ \ϒ ϓ^ \ϩ ޱ^ \ϯ ι^ \ 0 %^ Χϩφʔϧৣ200 Χϩφʔϧৣ200 Χϩφʔϧৣ300 ίΧʔϧৣ300 Χϩφʔϧࡉཻ20% 100% 90% 80% 60% Query Documents ͓ༀεΩϟϯͷॲཧͷྲྀΕ ༀࡎ໊ͷྨࣅʹΑΓఆ͢Δ Α͋͘ΔಡΈऔΓϛε
16 ϦΞϧσʔλͳΒͰͷ͠͞ͷྫ 1ͭͷༀࡎʹ2໊ͭલ͕هࡌ͞ΕΔ Χϩφʔϧৣ ҰൠɿΞητΞϛϊϑΣϯৣNH • ઌൃༀ/ޙൃༀͷ۠ผ • δΣωϦοΫҩༀͷ໊લͷԣʹɺݩͱ ͳͬͨༀࡎ໊͕ซه͞ΕΔ͜ͱ͕͋Δ
• ॲํ͞Εͨༀࡎ1͕ͭͩɺԿߟ͑ͣʹ நग़͢Δͱ2ͭදࣔ͞ΕΔ • ܩઢͷͳ͍ςʔϒϧߏ • ಥવͷվߦ • OCRͱͯ͠ߏจ຺Λߟྀͨ͠ಡΈ औΓΛߦ͑ͳ͍ͷͰɺநग़จࣈྻ͕ҙਤ ͨ͠ॱ൪ʹฒͣɺஅ͞ΕΔ ҉ͷߏԽ ϩΩιϓϩϑΣϯφճৣ τϦϜৣNHʮ αϫΠʯ
17 • લॲཧ/ޙॲཧ • ࡱ૾ը૾͔ΒͷྖҬநग़ɺ֯ิਖ਼ɺ৭ௐิਖ਼ಠ࣮ࣗ • OCR • GCPͷCloud Vision
APIΛར༻ • ࣙॻ • จࣈೝࣝޡΓʹϩόετʹͳΔΑ͏ʹɺ෦จࣈྻͷྨࣅܭࢉͳͲߟྀͨࣙ͠ॻ࡞Γ • ՄࢹԽਫ਼ධՁ༻ͷWebΞϓϦέʔγϣϯ • ։ൃޮΛ্͛ΔͨΊʹࣗ࡞ • ը૾ͱจࣈใΛߦ͖དྷ͢Δඞཁ͕͋ΔͨΊ։ൃσόοά͕ඇৗʹ͍ͨ͠Ί • OCRͷ݁ՌͰ(x:100, y:200, ͋) ͱݴΘΕ͔ͯΒͳ͍ ࣮ࡍʹͲͷΑ͏ͳػೳΛ࣮͍ͯ͠Δͷ͔
18 ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ
19 • ػցֶशࣗવݴޠॲཧΛऔΓר͘αʔϏε։ൃͷ՝ • ෳͷػցֶशϞσϧʹґଘ͢ΔෳࡶͳγεςϜ֎෦αʔϏεͷґଘ • ػցֶशࣗମͷෳࡶ͞ʹཱ͔ͪΘͳ͚Ε͍͚ͳ͍ • ಉ࣌ʹɺαʔϏεͷશମઃܭϏδωεϞσϧࣗମʹओମతʹؔΘ͍ͬͯ͘͜ͱ͕ඞཁ •
ػೳͷҰ෦͑͞୲͍ͯ͠ΕɺPO୭͔͕ΓΛ্ख͍͜ͱͬͯ͘ΕΔΑ͏ͳ͜ͱك • ͰελʔτΞοϓͷػցֶशΤϯδχΞσʔλαΠΤϯςΟετɺԿΛҙࣝ͠ͳΕ͍ ͚ͳ͍ͷ͔ʁ ͜͜·Ͱͷ·ͱΊ
20 ελʔτΞοϓͰٻΊΒΕΔ͜ͱ3ͭ ֑ʹམͪΔͷΛ͙ ૉૣ͘ݕূ͢Δ ৗʹثΛຏ͍͓ͯ͘
21 • ࣄۀαʔϏε͕֑͔ΒམͪΔͷΛ͙ • ͋ΔαʔϏεʹ͓͚Δػցֶशͷಋೖ͕ɺຊʹେৎͦ͏͔Λஅ͢Δ • ݱ࣮తʹՄೳ > ཧతʹՄೳ >
ݱ࣮తʹෆՄೳ > ཧతʹෆՄೳ • ͦΕͱಉ࣌ʹݟ͋ΔਓؒʹҙݟΛٻΊΒΕΔ / ҙݟΛड͚ೖΕΔจԽͷৢେࣄ • Α͋͘Δ֑ͷύλʔϯ • ໌Β͔ʹ՝͕͗͢͠Δέʔε • ઐٕೳෳࡶͳॲཧ͕ඞཁͰɺਓؒͰਖ਼֬ʹߦ͏͜ͱ͕͍͠ • Ͱ͖ͨͱ͜ΖͰɺͦΕ΄Ͳࣄۀʹͱͬͯخ͘͠ͳ͍έʔε • ͦΕਓ͕ؒͬͨ΄͏͕ૣ͘ͳ͍ʁ • ࠷৽ٕज़ΛͬͯՌΛ্͍͛ͨͱ͍͏έʔε • AIΛͬͯΈ͍ͨ ֑͔ΒམͪΔͷΛ͙
22 ελʔτΞοϓʹ͓͚Δ֑ͷᄻ͑ ʮىۀͱ֑͔Βඈͼ߱Γɺ མͪΔ·ͰʹඈߦػΛΈཱͯΔΑ͏ͳͷʯ ϦʔυɾϗϑϚϯ (LinkedInۀऀ) https://sketchplanations.com/starting-a-company https://logmi.jp/business/articles/36553
23 ελʔτΞοϓʹ͓͚Δ֑ͷδϨϯϚ • ৗʹᷤ౻ͱܾஅͷ࿈ଓ • ʮ͍ͭ͜ɺ͍ͭػցֶशҊ݅ͷ૬ஊʹNoͬͯݴͬͯΔͳʯͱ৺ͷதͷ͕ࣗᅤ͘ • ͳͥͦͷΑ͏ͳஅΛ͔ͨ͠ΛυΩϡϝϯτʹ·ͱΊ͓ͯ͘ͱɺৼΓฦΓڞ༗ʹྑ͍ • ग़དྷΔͱग़དྷͳ͍ͷؒʹແͷάϥσʔγϣϯ͕͋Δ
• ͲͷΑ͏ͳ݅ͷͱ͖ʹՄೳ/ෆՄೳͳͷ͔ ձࣾʹͱͬͯେࣄͳλεΫͳͷ͔Δ ͬͯΈͳ͍ͱ͔Βͳ͍͔…… ͍͠ͱ͖ͬͺΓஅ͔ͬͯͬΓਏ͍ ໌Β͔ʹ͍͠λεΫࢭΊ͍ͨ ӡ༻ͳͲผͷํ๏Ͱղܾ͍ͤͨ͞ ࠓଞͷॏཁͳ՝ʹྗ͍ͨ͠
24 • 100ͷࢥߟΑΓ1ͷ࣮ફ • ෆ࣮֬ੑΛԼ͛ͭͭมԽʹରԠͰ͖ΔΑ͏ͳΞδϟΠϧతΞϓϩʔν • ։࢝ॳظ΄Ͳɺࣦഊʹର͢Δই͕ઙ͘ࡁΉ • UbieͰʮLaunch and
Launchʯͱ͍͏ValueΛେࣄʹ͍ͯ͠Δ • ॳखͰେ͖ͳͷΛ࡞Γ͗͢ͳ͍ • ݕূ͍߲ͨ͠ΛຬͨͤΔΑ͏ʹɺͱʹ͔͘࠷Ͱΰʔϧʹ͔͏ ૉૣ͘ݕূ͢Δ
25 • ػցֶश؍ • ͲΜͳσʔλ͕ೖྗͱͯ͠ೖͬͯ͘Δ͔ʁ • ܧଓతʹՁ͋Δσʔλ͕ੵ͞ΕΔঢ়ଶΛ࡞ΕΔͷ͔ʁ • ͲͷΑ͏ͳػցֶशͷख๏͕ར༻Ͱ͖Δͷ͔ʁ •
ͲΕ͘Β͍ͷσʔλྔ͕͋Εेͳͷ͔ʁ • naiveͳख๏ͷਫ਼ɺཧతͳݶքʢਓؒʣͷਫ਼ͲΕ͘Β͍͔ʁ • ඞཁͱ͞ΕΔԠ࣌ؒɺಈ࡞ڥͳͲͷϩδοΫҎ֎ͷ੍͋Δ͔ʁ • Ϗδωε؍ • ސ٬ػցֶशϞσϧͷਫ਼͕ͲΕ͘Β͍ʹͳΕຬ͢Δ͔ʁ Βͳ͍͜ͱΛݮΒͯ͠ɺෆ࣮֬ੑΛԼ͛Δ
26 • bootstrap • ػցֶशϞσϧΛ࡞Δʹֶश/ධՁ༻ͷσʔλ͕ඞཁɻσʔλΛஷΊΔʹଟ͘ͷϢʔβʹར ༻ͯ͠ΒΘͳ͍ͱ͍͚ͳ͍ɻར༻ͯ͠Β͏ʹ͋Δఔͷਫ਼ͷػցֶशϞσϧ͕ඞཁɻ ػցֶशϞσϧΛ࡞Δʹ…… (࠷ॳʹΔ) • Կແ͍தͰɺͲ͏ݕূ͢Δͷ͔ʁ
• ΰϛਫ਼Ͱ͍͍ͷͰɺಈ͘ϞϊΛ࡞͢ΔʢPoCʣ • ܭࢉػͷΘΓʹਓ͕ؒखಈͰରԠ͢ΔʢΦζͷຐ๏͍ϝιουʣ • [େࣄ!!!] ͻͨ͢ΒࣗͰΞϊςʔγϣϯͯ͠σʔλΛ࡞Δ ݕূʹཱ͔ͪͩΔน - ͳʹͳ͍͔Βͦ͜ग़དྷΔίτ https://www.amazon.co.jp/dp/4763137492
27 • ༩͑ΒΕͨλεΫͷળ͠ѱ͠Λஅ͠ૉૣ͘ݕূ͢ΔʹɺৗʹثΛຏ͍͓ͯ͘ඞཁ͕͋Δ • ٕज़ • ಈ࡞͢ΔϓϩάϥϜ࣮ߦڥɺσʔλܗͷํ๏ͳͲ • ܦݧ •
λεΫઃܭղ๏ɺΞϊςʔγϣϯ࡞ۀܦݧͳͲ • ࣝ • ଞࣾͷࣄྫɺۙͷओཁͳจͳͲ • ৗʹ࠷৽ͷͷͰ͋Δඞཁͳ͍ • Ή͠Ζ͍ݹ͞Εٕͨज़ͷํ͕ɺॳखͰద༻͢Δʹͪΐ͏Ͳྑ͍ʢϕʔεϥΠϯͱͯ͠ʣ ৗʹثΛຏ͍͓ͯ͘
28 • ൚༻తʹ͑ΔֶशࡁΈϞσϧΛ͍ͭͰ͑ΔΑ͏ʹ͓ͯ͘͠ • Կσʔλ͕ແͯ͘ॳखͰ͑ΔثΛ͓࣋ͬͯ͘ͱศར • ۩ମྫ • ܗଶૉղੳɿMeCab, Sudachi
• ݻ༗දݱநग़ɿspaCy+GiNZA • େنݴޠϞσϧɿBERT, RoBERTa, T5, GPT-2,3ͳͲͷຊޠରԠϞσϧ • ݕࡧɿElasticsearch • ࣙॻɿNEologd, ֤υϝΠϯͰඋ͞Ε͍ͯΔ୯ޠாʢe.g. ҩྍυϝΠϯͳΒສපࣙॻʣ • ҙ • Hugging FaceͷTransformers։ൃεϐʔυ͕ૣͯ͘ै͢ΔͷେมͳͷͰɺ΄Ͳ΄Ͳʹ ثͦͷ1ɿֶशࡁΈϞσϧ֤छπʔϧ
29 • ͏༧ఆ͕ͳͯ͘ɺͱʹ͔͘ݴޠࢿݯҙࣝͯ͠ूΊ͓ͯ͘ • ࠒ͔ΒूΊΔบΛ͚͓ͯ͘ͱɺඞཁͳͱ͖ʹ͙͢ར༻Ͱ͖Δ/ूΊΒΕΔ • ۩ମྫ • WikipediaͷCirrusίʔύεɺLivedoor χϡʔείʔύεͳͲͷ͞Ε͍ͯΔίʔύε
• ಛఆυϝΠϯͷΣϒαΠτͷΫϩʔϧʢχϡʔεαΠτɺϒϩάɺTwitterʣ • ख๏ • Scrapyɿpagination͕͋ΔߏԽ͞ΕͨΣϒαΠτ͕ର • Selenium: jsΛར༻ͨ͠ϒϥβͷϨϯμϦϯάΛཁ͢ΔಈతͳαΠτ͕ର • WgetίϚϯυ: αΠτʹྻڍ͞ΕΔಛఆͷ֦ுࢠͷϑΝΠϧϖʔδશମΛҰׅͰऔಘ • Pandas: pd.read_html()ͰHTMLͷςʔϒϧΛDataFrameͱͯ͠ಡΈࠐΊΔ ثͦͷ2ɿݴޠࢿݯʢίʔύε, σʔλ, ࣙॻʣ
30 • ղ͖͘Λ࣮ݱ͢Δ্ͰɺΞϊςʔγϣϯͷ͜ͱΛৗʹҙࣝ͢Δ • Ξϊςʔγϣϯ͕σʔλͷ࣭ΛܾΊΔ • ΞϊςʔγϣϯΨΠυϥΠϯͷࡦఆ = ࣗવݴޠͷࣝͱυϝΠϯࣝͷ༥߹ •
٬؍త͔ͭҰ؏ੑΛ࣋ͬͨΨΠυϥΠϯΛ࡞ͯ͠ɺ͔ͭਓʹڭ͑Δͷຊʹ͍͠ • πʔϧαʔϏεͷ۩ମྫ • ແঈɿDoccano, Label Studio • Prodigy: spaCyΛ࡞͍ͬͯΔExplosion.ai͕։ൃ͍ͯ͠ΔΞϊςʔγϣϯπʔϧ • FastLabel: FastLabel͕ࣾఏڙ͢Δ༗ঈͷΞϊςʔγϣϯπʔϧ & ΞϊςʔγϣϯαʔϏε • UbieͰσʔλ࡞Λґཔ͍͖ͤͯͨͩ͞·ͨ͠ʢ˞ COI͋Γ·ͤΜʣ ثͦͷ3ɿΞϊςʔγϣϯͷܦݧͱମ੍
31 • ݴޠॲཧֶձ࣍େձ • ຊޠͷݚڀՌ͕ू·Δࠃ࠷େͷࣗવݴޠॲཧͷֶձ • ༧ߘू͕ͯ͢ެ։͞Ε͍ͯΔͷͰաڈͷݚڀࣄྫࢀর͍͢͠ • Paper with
Code • λεΫ/σʔληοτԣஅͰจͷख๏ਫ਼ΛൺֱͰ͖ΔαΠτ • จͷެࣜ/ඇެࣜͷ࣮ใ (GitHubͷϦϯΫ) ͕ඥ͚ΒΕ͍ͯΔ • χϡʔεαΠτ/ϒϩά/χϡʔεϨλʔ/Twitter • ݸਓత͓͢͢Ί: εςʔτɾΦϒɾAIɾΨΠυɺΦʔδε૯ݚʮ͡Ίͯͷࣗવݴޠॲཧʯ ثͦͷଞɿ༗༻ͳใݯ
32 • ෳࡶԽ͢Δࣗવݴޠॲཧ • ը૾ೝࣝԻೝࣝͱͷΈ߹Θ͕ͤ૿͖͑ͯͨ • ෳͷػցֶशϞσϧʹΑΔਫ਼Լ֎෦αʔϏεґଘҰఆ໔Εͳ͍ • Ubieͷࣄྫ •
OCRʹΑΓจࣈىͨ͜͠͠υΩϡϝϯτத͔Βͷใநग़ • ελʔτΞοϓͰٻΊΒΕΔ͜ͱ • ϓϩδΣΫτ͕ࣦഊ͠ͳ͍Α͏ʹɺ֑͔ΒམͪΔͷΛ͙ • ͦͷͨΊʹૉૣ͘ݕূͯ͠ෆ࣮֬ੑΛԼ͛Δඞཁ͕͋Δ • ͦͷͨΊʹৗʹثΛຏ͍͓͍͍ͯͯͭͰ͑ΔΑ͏ʹ͓ͯ͘͠ ·ͱΊ