Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
専門用語抽出手法の研究と 抽出アプリケーションの開発
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Koga Kobayashi
September 27, 2018
Programming
1.3k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
専門用語抽出手法の研究と 抽出アプリケーションの開発
Koga Kobayashi
September 27, 2018
More Decks by Koga Kobayashi
See All by Koga Kobayashi
第13回 Data-Centric AI勉強会, LLMのファインチューニングデータ
kajyuuen
4
1.8k
基礎数学の公式
kajyuuen
1
180
初等確率論の基礎
kajyuuen
1
190
Deep Markov Model を数式で追う (+ Pyroでの追試)
kajyuuen
0
950
Fundamentals of Music Processing (Chapter 5)
kajyuuen
0
110
完全なアノテーションが得られない状況下での固有表現抽出
kajyuuen
3
3.7k
SecHack365 北海道会 LT
kajyuuen
0
540
Other Decks in Programming
See All in Programming
tsserverとは何だったのか、これからどうなるのか
nowaki28
1
460
OSもどきOS
arkw
0
470
気づいたらRubyで100作品 ー クリエイティブコーディングが生活の一部になるまで / 100 Ruby Sketches Later: How Creative Coding Became Part of My Life
chobishiba
3
550
The ROI of Quarkus for Spring Boot Applications
hollycummins
0
100
Copilot CLI の継戦能力を高める コンテキスト管理
nozomutu
1
1.2k
Modding RubyKaigi for Myself
yui_knk
0
910
ECSアプリログをFireLensでコスト削減しようとしたけど諦めた話 in Fargate×Node.js
akihisaikeda
2
3.8k
LLM Plugin for Node-REDの利用方法と開発について
404background
0
160
柔軟なPDFレイアウトエディタを支える型システム設計 — Discriminated UnionとConditional Typeの実践
minako__ph
4
1.6k
「AIで開発し、AIを届ける」をEvalでつなぐ 〜AIネイティブに始めるプロダクト開発の実践〜 / Connecting "Develop with AI, deliver AI" with Eval
rkaga
4
4.8k
RTSPクライアントを自作してみた話
simotin13
0
520
Dataformのリポジトリを立ち上げるときにまずやること / dataform-day0-2026
snhryt
0
130
Featured
See All Featured
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
280
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
820
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
330
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Paper Plane (Part 1)
katiecoart
PRO
0
8.7k
Faster Mobile Websites
deanohume
310
31k
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Unsuck your backbone
ammeep
672
58k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.3k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
360
Transcript
ઐ༻ޠநग़ख๏ͷݚڀͱ நग़ΞϓϦέʔγϣϯͷ։ൃ
ࣗݾհ • খྛᕣՏ: @kajyuuen • ஜେֶ ใֶ܈ 4 • ݚڀࣗવݴޠॲཧɺػցֶश
• ։ൃͰRuby on RailsΛΑ͍͘·͢ • झຯ • ΠϯλʔωοτɺԻָؑɺόΠΫ(͓ٳΈத) 2
త 3 ڭࢣσʔλ͕গͳ͍ઐυϝΠϯͷจষ͔Β ઐ༻ޠΛநग़͕ग़དྷΔγεςϜɾख๏ͷ։ൃ
ઐ༻ޠͱ ઐ༻ޠʢͤΜΜΑ͏͝ʣͱɺ͋Δಛఆͷ৬ۀʹैࣄ͢Δऀɺ ͋ΔಛఆͷֶͷɺۀքͷؒͰͷΈ༻͞Εɺ௨༻͢Δݴ༿ɾ༻ޠ܈Ͱ͋Δɻ ςΫχΧϧλʔϜʢӳޠ technical termʣͱݴΘΕΔɻ Wikipedia͔ΒͷҾ༻ 4 ྫ: ίʔϧηϯλʔ
• ΦϖϨʔλʔɺFAQɺVoCɺฏۉ௨࣌ؒ ྫ: ྉཧ • ͍ͪΐ͏Γɺܡണ͖ɺࡾຕ͓Ζ͠
എܠ ͔͠͠… • ҰൠͷυϝΠϯͰֶशͨ͠ϞσϧΛ ઐυϝΠϯʹదԠ্ͤͯ͞ख͘நग़ग़དྷͳ͍ • ઐ༻ޠͷநग़ʹઐՈͷଟ͘ͷ࣌ؒͱਓख͕ඞཁ ͱ͍͏͕͋Γɺઐ༻ޠͷநग़͔ͬͨ͠ 5 ઐ༻ޠͷࣙॻܗଶૉղੳݕࡧͷਫ਼Λ্ͤ͞Δ
എܠ ͦͷͨΊগͳ͍ίετͰઐ༻ޠநग़͕ՄೳʹͳΔ͜ͱ ϨτϦόͷੑೳ্ʹܨ͕Δ 6
ఏҊख๏ • ग़ݱසͱ࿈සʹΑΔઐ༻ޠͷީิநग़ • ೳಈֶशΛ༻͍ͨڭࢣ͋ΓֶशʹΑΔઐ༻ޠީิͷྨ 7 ͜ΕΒ2ͭͷख๏ΛΈ߹ΘͤΔ͜ͱͰ ίετͰͷઐ༻ޠநग़ΛՄೳʹ͢Δ
ઐ༻ޠநग़·Ͱͷϑϩʔ 8 ग़ݱසͱ࿈සʹΑΔઐ༻ޠީิநग़ ೳಈֶशΛ༻͍ͨڭࢣ͋Γֶश ઐ༻ޠͷநग़
ग़ݱසͱ࿈සʹΑΔઐ༻ޠީิநग़[த+ 2003] • ઐ༻ޠ໊ࢺͦͷͷ͔ෳͷ໊ࢺͷෳ߹ޠ͔ΒΔͱԾఆ • ෳ߹ޠΛߏ͢Δ࠷খ୯ҐΛ୯໊ࢺͱఆٛ • ͋Δ୯໊ࢺ͕ଞͷ୯໊ࢺͱ࿈݁ͯ͠ ෳ߹ޠΛ࡞Δճ͕ଟ͍΄Ͳॏཁ㱺ઐ༻ޠ 9
ࣗવݴޠॲཧ ࣗવ ݴޠ ॲཧ = + +
ग़ݱසͱ࿈සʹΑΔઐ༻ޠީิநग़[த+ 2003] ྫ: ࣗવݴޠॲཧ 10 ୯໊ࢺ લͷޠʹ࿈݁ͨ͠ճ ޙͷޠʹ࿈݁ͨ͠ճ ࣗવ
ݴޠ ॲཧ ॏཁ = ෳ߹ޠΛ࡞Δ୯໊ࢺͷ࿈݁ճͷ૬ฏۉ = 6 1 ⋅ 2 ⋅ 2 ⋅ 3 ⋅ 1 ⋅ 1 = 1.51
ઐ༻ޠநग़·Ͱͷϑϩʔ 11 ग़ݱසͱ࿈සʹΑΔઐ༻ޠީิநग़ ೳಈֶशΛ༻͍ͨڭࢣ͋Γֶश ઐ༻ޠͷநग़
ೳಈֶशͱ ࢁͷϥϕϧͳ͠σʔλͷத͔Β ϥϕϧ͕͘ͱϞσϧͷੑೳ্͕ͦ͠͏ͳσʔλΛϢʔβʹਪન͠ Ξϊςʔγϣϯ͍ͯ͘͜͠ͱͰϞσϧΛֶश͍ͯ͘͠ํ๏ 12 গͳ͍ڭࢣσʔλͰϞσϧͷੑೳ্͕͢Δ
ೳಈֶशͱ 13 ઐ༻ޠ ඇઐ༻ޠ ϥϕϧͳ͠ 1 2 ϥϕϧ͕Γ͍ͨσʔλ?
ೳಈֶशͱ 14 ઐ༻ޠ ඇઐ༻ޠ ϥϕϧͳ͠ 1 2 ϥϕϧ͕Γ͍ͨσʔλ? ޮՌతͳֶश͕ߦ͑ͳ͍
ೳಈֶशͱ 15 ઐ༻ޠ ඇઐ༻ޠ ϥϕϧͳ͠ 1 2 ϥϕϧ͕Γ͍ͨσʔλ? ֶश͕ޮՌతʹਐΉ
ಛྔϕΫτϧͷ࡞ • લޙೋ୯ޠͷදܥͱࢺͱจࣈछ • ڭࢣͳֶ͠शʹΑΔॏཁ ͔ΒಛྔϕΫτϧΛ࡞͢Δ 16 ݚڀ ࣗવݴޠॲཧ
ͱ ػց ֶश Ͱ͢ ໊ ॿ ઐ༻ޠީิ ॿ ໊ ໊ ॿಈ ݚڀ ࣗવݴޠॲཧ ͱ ػց ֶश Ͱ͢ 1.51 ݚڀ ࣗવݴޠॲཧ ͱ ػց ֶश Ͱ͢
Ϟσϧͷֶश Logistic regression • ͦͷ୯ޠ͕ઐ༻ޠ͔ඇઐ༻ޠ͔Λྨ͢ΔϞσϧ • ೳಈֶशͰֶशͱ༧ଌΛ܁Γฦ͢ҝ୯७ͳϞσϧΛ࠾༻ • ࠓճ༻͍Δೳಈֶशͷख๏Ͱ༧ଌ͕֬ඞཁ 17
σʔλબͱϞσϧͷߋ৽ Uncertainly Sampling (least confident) ݱ࣌ͷϞσϧͰ࠷ෆ͔֬ͳσʔλΛਪન 18 x* LC =
arg max x∈U 1 − Pθ ( ̂ y|x) ̂ y: ࠷औΓ͏Δ͕֬ߴ͍ϥϕϧ U : ϥϕϧͳ͠σʔλͷू߹ x* LC : ϥϕϧ͚Λਪન͢Δσʔλ
࣮ݧᶃ: Wikipediaʹରͯ͠ઐ༻ޠநग़ • σʔλ • Wikipediaͷจষ61ͭʹରͯ͠ઐ༻ޠͷநग़Λߦ͏ • ݅ઃఆ • ڭࢣͳֶ͠शͰநग़ͨ͠༻ޠͷࡾͷҰʹΞϊςʔγϣϯ
• 5ͭͷσʔλʹϥϕϦϯά͕ऴΘͬͨΒϞσϧΛ࠶ֶश • ೳಈֶशͱϥϯμϜαϯϓϦϯάɺࣙॻʹΑΔൺֱΛߦ͏ 19 ೳಈֶश͕ϥϯμϜαϯϓϦϯάΑΓ༏Ε͍ͯΔ͜ͱΛࣔ͢
࣮ݧᶃ: ݁Ռ IPAdic NEologd 20 Ϟσϧ 1SFDJTJPO 3FDBMM 'WBMVF ڭࢣͳֶ͠श
ϥϯμϜαϯϓϦϯά ೳಈֶश Ϟσϧ 1SFDJTJPO 3FDBMM 'WBMVF ڭࢣͳֶ͠श ϥϯμϜαϯϓϦϯά ೳಈֶश • ྆ࣙॻʹ͓͍ͯϥϯμϜαϯϓϦϯάΑΓೳಈֶश͕༏Ε͍ͯͨ • NEologdΛ༻ͨ͠΄͏͕ੑೳ͕ߴ͔ͬͨ
࣮ݧᶄ: FAQυϝΠϯʹରͯ͠ͷઐ༻ޠநग़ • ֶशσʔλ • εΧύʔʂͷϔϧϓίϯςϯπ͔Βऔಘͨ͠FAQ 5,113จࣈ • ݅ઃఆ •
ϥϯμϜʹΞϊςʔγϣϯ͢ΔϞσϧͱൺֱ • 5ͭͷσʔλʹϥϕϦϯά͕ऴΘͬͨΒϞσϧΛ࠶ֶश • Ξϊςʔγϣϯ͕0ͷͱ͖શͯͷநग़୯ޠΛઐ༻ޠͱΈͳ͢ 21 ͲͷఔΞϊςʔγϣϯ͢Ε࣮༻తͳϞσϧʹͳΔ͔֬ೝ IUUQTIFMQDFOUFSTLZQFSGFDUWDPKQ
࣮ݧᶄ: ਫ਼ͱ࠶ݱ 22 • ਫ਼ೳಈֶश͕ϥϯμϜαϯϓϦϯάΑΓઌʹανΔ • ࠶ݱͰೳಈֶशϥϯμϜαϯϓϦϯάΛେ্͖͘ճΔ Ξϊςʔγϣϯͳͩ͠ͱ ਫ਼͍ ڭࢣͳֶ͠श
ઐ༻ޠͷ72.7%ΛΧόʔ ڭࢣͳֶ͠श
࣮ݧᶄ: F 23 ׂ࢛ఔΞϊςʔγϣϯΛߦ͏͚ͩͰF7ׂΛ͑ͨ ࠷େͰ20ϙΠϯτͷࠩ
நग़ʹޭͨ͠ઐ༻ޠ • εΧύʔʂɺϓϨϛΞϜαʔϏεޫϚϯγϣϯ͚αʔϏε நग़ग़དྷͳ͔ͬͨઐ༻ޠ • TZ-WR4KPɺSP-HR200HɺΞϯςφαϙʔτϓϥϯ ؒҧͬͯநग़ͯ͠͠·ͬͨ୯ޠ • ൪ɺνϟϯωϧɺMyνϟϯωϧ1 ࣮ݧᶄ:
ڭࢣͳֶ͠शͰͷநग़୯ޠྫ 24
ΠϯλʔϑΣʔε ΞϊςʔγϣϯͷޮΛ্͛ΔͨΊʹ WebΞϓϦέʔγϣϯͱͯ͠ΠϯλʔϑΣʔεΛ։ൃͨ͠ 25 ػೳҰཡ • ઐ༻ޠͷϋΠϥΠτ / நग़ػೳ •
ೳಈֶशʹΑΔֶशͱΞϊςʔγϣϯσʔλͷਪન • CSVΤΫεϙʔτ
DEMO 26
ΞϓϦέʔγϣϯͷߏ 27
·ͱΊ 28 త গͳ͍ςΩετσʔλ͔Βઐ༻ޠͷநग़Λߦ͏ ख๏ ڭࢣͳֶ͠श+ೳಈֶशΛ༻͍ͨWebΞϓϦέʔγϣϯͷఏڙ ࠓޙ நग़ΞϧΰϦζϜͷ࠶࣮ʹΑΔߴԽ ݕࡧͳͲͷԠ༻ʹ͓͚ΔੑೳධՁɺ৽ͨͳख๏ɾಛྔͷௐࠪ
ࢀߟจݙ [1] த ༟ࢤ, ౬ຊ ߛজ, ୢଇ. ग़ݱසͱ࿈සʹجͮ͘ઐ༻ޠநग़. ࣗવݴޠॲཧ.
2003, 10(1), p.27-45. [2] த ༟ࢤ, ౬ຊ ߛজ, ୢଇ. ຊޠϚχϡΞϧจʹ͓͚Δ໊ࢺؒͷ࿈ใΛ༻͍ͨϋΠύʔςΩε τԽͷͨΊͷࡧҾޠͷநग़. ใॲཧֶձݚڀใࠂࣗવݴޠॲཧ. 1996, (114), p.65-72 [3] “ઐ༻ޠʢΩʔϫʔυʣࣗಈநग़༻PerlϞδϡʔϧ ”. ”ઐ༻ޠʢΩʔϫʔυʣࣗಈநग़γεςϜ”ͷ ϖʔδΑ͏ͦ͜. http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html, (ࢀর 2018-9-4). [4] Burr Settles. Active Learning Literature Survey. Computer Sciences Technical Report 1648. 2010. http://burrsettles.com/pub/settles.activelearning.pdf, (ࢀর 2018-9-4). [5] Burr Settles, Mark Craven. An Analysis of Active Learning Strategies for Sequence Labeling Tasks. EMNLP. 2008. 29