Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
専門用語抽出手法の研究と 抽出アプリケーションの開発
Search
Koga Kobayashi
September 27, 2018
Programming
1.3k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
専門用語抽出手法の研究と 抽出アプリケーションの開発
Koga Kobayashi
September 27, 2018
More Decks by Koga Kobayashi
See All by Koga Kobayashi
第13回 Data-Centric AI勉強会, LLMのファインチューニングデータ
kajyuuen
4
1.8k
基礎数学の公式
kajyuuen
1
180
初等確率論の基礎
kajyuuen
1
190
Deep Markov Model を数式で追う (+ Pyroでの追試)
kajyuuen
0
950
Fundamentals of Music Processing (Chapter 5)
kajyuuen
0
110
完全なアノテーションが得られない状況下での固有表現抽出
kajyuuen
3
3.7k
SecHack365 北海道会 LT
kajyuuen
0
540
Other Decks in Programming
See All in Programming
Claspは野良GASの夢をみるか
takter00
0
170
Old Dog, New Tricks: The Java 25 Reinvention - JNation
bazlur_rahman
0
150
Lessons from Spec-Driven Development
simas
PRO
0
140
Dataformのリポジトリを立ち上げるときにまずやること / dataform-day0-2026
snhryt
0
110
Java × distroless で 軽量なコンテナイメージを / Java on Distroless
contour_gara
0
500
コンテキストの使い捨てをやめる — ビジネスルール駆動開発と miko —
ioki
0
140
AI時代の仕事技芸論 — ソフトウェア開発で「遊ぶように働く」職人的熟達のすすめ
kuranuki
1
620
Spring Security 実践 ─ GraphQL APIで実務に役立つ 認証・認可 を学ぶ
wagyu
0
160
タクシーアプリ『GO』の バックエンド開発のおける AI利活用と若者のすべて
pyama86
3
1.9k
エージェンティックRAGにAWSで入門しよう!
har1101
8
1.2k
ローカルLLMを使ってB2Bサービスを作っていての学び
yaotti
0
150
AIエージェントの隔離技術の徹底比較
kawayu
0
460
Featured
See All Featured
Producing Creativity
orderedlist
PRO
348
40k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
Optimising Largest Contentful Paint
csswizardry
37
3.7k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
320
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
280
How to Think Like a Performance Engineer
csswizardry
28
2.6k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
170
The Pragmatic Product Professional
lauravandoore
37
7.3k
Git: the NoSQL Database
bkeepers
PRO
432
67k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Transcript
ઐ༻ޠநग़ख๏ͷݚڀͱ நग़ΞϓϦέʔγϣϯͷ։ൃ
ࣗݾհ • খྛᕣՏ: @kajyuuen • ஜେֶ ใֶ܈ 4 • ݚڀࣗવݴޠॲཧɺػցֶश
• ։ൃͰRuby on RailsΛΑ͍͘·͢ • झຯ • ΠϯλʔωοτɺԻָؑɺόΠΫ(͓ٳΈத) 2
త 3 ڭࢣσʔλ͕গͳ͍ઐυϝΠϯͷจষ͔Β ઐ༻ޠΛநग़͕ग़དྷΔγεςϜɾख๏ͷ։ൃ
ઐ༻ޠͱ ઐ༻ޠʢͤΜΜΑ͏͝ʣͱɺ͋Δಛఆͷ৬ۀʹैࣄ͢Δऀɺ ͋ΔಛఆͷֶͷɺۀքͷؒͰͷΈ༻͞Εɺ௨༻͢Δݴ༿ɾ༻ޠ܈Ͱ͋Δɻ ςΫχΧϧλʔϜʢӳޠ technical termʣͱݴΘΕΔɻ Wikipedia͔ΒͷҾ༻ 4 ྫ: ίʔϧηϯλʔ
• ΦϖϨʔλʔɺFAQɺVoCɺฏۉ௨࣌ؒ ྫ: ྉཧ • ͍ͪΐ͏Γɺܡണ͖ɺࡾຕ͓Ζ͠
എܠ ͔͠͠… • ҰൠͷυϝΠϯͰֶशͨ͠ϞσϧΛ ઐυϝΠϯʹదԠ্ͤͯ͞ख͘நग़ग़དྷͳ͍ • ઐ༻ޠͷநग़ʹઐՈͷଟ͘ͷ࣌ؒͱਓख͕ඞཁ ͱ͍͏͕͋Γɺઐ༻ޠͷநग़͔ͬͨ͠ 5 ઐ༻ޠͷࣙॻܗଶૉղੳݕࡧͷਫ਼Λ্ͤ͞Δ
എܠ ͦͷͨΊগͳ͍ίετͰઐ༻ޠநग़͕ՄೳʹͳΔ͜ͱ ϨτϦόͷੑೳ্ʹܨ͕Δ 6
ఏҊख๏ • ग़ݱසͱ࿈සʹΑΔઐ༻ޠͷީิநग़ • ೳಈֶशΛ༻͍ͨڭࢣ͋ΓֶशʹΑΔઐ༻ޠީิͷྨ 7 ͜ΕΒ2ͭͷख๏ΛΈ߹ΘͤΔ͜ͱͰ ίετͰͷઐ༻ޠநग़ΛՄೳʹ͢Δ
ઐ༻ޠநग़·Ͱͷϑϩʔ 8 ग़ݱසͱ࿈සʹΑΔઐ༻ޠީิநग़ ೳಈֶशΛ༻͍ͨڭࢣ͋Γֶश ઐ༻ޠͷநग़
ग़ݱසͱ࿈සʹΑΔઐ༻ޠީิநग़[த+ 2003] • ઐ༻ޠ໊ࢺͦͷͷ͔ෳͷ໊ࢺͷෳ߹ޠ͔ΒΔͱԾఆ • ෳ߹ޠΛߏ͢Δ࠷খ୯ҐΛ୯໊ࢺͱఆٛ • ͋Δ୯໊ࢺ͕ଞͷ୯໊ࢺͱ࿈݁ͯ͠ ෳ߹ޠΛ࡞Δճ͕ଟ͍΄Ͳॏཁ㱺ઐ༻ޠ 9
ࣗવݴޠॲཧ ࣗવ ݴޠ ॲཧ = + +
ग़ݱසͱ࿈සʹΑΔઐ༻ޠީิநग़[த+ 2003] ྫ: ࣗવݴޠॲཧ 10 ୯໊ࢺ લͷޠʹ࿈݁ͨ͠ճ ޙͷޠʹ࿈݁ͨ͠ճ ࣗવ
ݴޠ ॲཧ ॏཁ = ෳ߹ޠΛ࡞Δ୯໊ࢺͷ࿈݁ճͷ૬ฏۉ = 6 1 ⋅ 2 ⋅ 2 ⋅ 3 ⋅ 1 ⋅ 1 = 1.51
ઐ༻ޠநग़·Ͱͷϑϩʔ 11 ग़ݱසͱ࿈සʹΑΔઐ༻ޠީิநग़ ೳಈֶशΛ༻͍ͨڭࢣ͋Γֶश ઐ༻ޠͷநग़
ೳಈֶशͱ ࢁͷϥϕϧͳ͠σʔλͷத͔Β ϥϕϧ͕͘ͱϞσϧͷੑೳ্͕ͦ͠͏ͳσʔλΛϢʔβʹਪન͠ Ξϊςʔγϣϯ͍ͯ͘͜͠ͱͰϞσϧΛֶश͍ͯ͘͠ํ๏ 12 গͳ͍ڭࢣσʔλͰϞσϧͷੑೳ্͕͢Δ
ೳಈֶशͱ 13 ઐ༻ޠ ඇઐ༻ޠ ϥϕϧͳ͠ 1 2 ϥϕϧ͕Γ͍ͨσʔλ?
ೳಈֶशͱ 14 ઐ༻ޠ ඇઐ༻ޠ ϥϕϧͳ͠ 1 2 ϥϕϧ͕Γ͍ͨσʔλ? ޮՌతͳֶश͕ߦ͑ͳ͍
ೳಈֶशͱ 15 ઐ༻ޠ ඇઐ༻ޠ ϥϕϧͳ͠ 1 2 ϥϕϧ͕Γ͍ͨσʔλ? ֶश͕ޮՌతʹਐΉ
ಛྔϕΫτϧͷ࡞ • લޙೋ୯ޠͷදܥͱࢺͱจࣈछ • ڭࢣͳֶ͠शʹΑΔॏཁ ͔ΒಛྔϕΫτϧΛ࡞͢Δ 16 ݚڀ ࣗવݴޠॲཧ
ͱ ػց ֶश Ͱ͢ ໊ ॿ ઐ༻ޠީิ ॿ ໊ ໊ ॿಈ ݚڀ ࣗવݴޠॲཧ ͱ ػց ֶश Ͱ͢ 1.51 ݚڀ ࣗવݴޠॲཧ ͱ ػց ֶश Ͱ͢
Ϟσϧͷֶश Logistic regression • ͦͷ୯ޠ͕ઐ༻ޠ͔ඇઐ༻ޠ͔Λྨ͢ΔϞσϧ • ೳಈֶशͰֶशͱ༧ଌΛ܁Γฦ͢ҝ୯७ͳϞσϧΛ࠾༻ • ࠓճ༻͍Δೳಈֶशͷख๏Ͱ༧ଌ͕֬ඞཁ 17
σʔλબͱϞσϧͷߋ৽ Uncertainly Sampling (least confident) ݱ࣌ͷϞσϧͰ࠷ෆ͔֬ͳσʔλΛਪન 18 x* LC =
arg max x∈U 1 − Pθ ( ̂ y|x) ̂ y: ࠷औΓ͏Δ͕֬ߴ͍ϥϕϧ U : ϥϕϧͳ͠σʔλͷू߹ x* LC : ϥϕϧ͚Λਪન͢Δσʔλ
࣮ݧᶃ: Wikipediaʹରͯ͠ઐ༻ޠநग़ • σʔλ • Wikipediaͷจষ61ͭʹରͯ͠ઐ༻ޠͷநग़Λߦ͏ • ݅ઃఆ • ڭࢣͳֶ͠शͰநग़ͨ͠༻ޠͷࡾͷҰʹΞϊςʔγϣϯ
• 5ͭͷσʔλʹϥϕϦϯά͕ऴΘͬͨΒϞσϧΛ࠶ֶश • ೳಈֶशͱϥϯμϜαϯϓϦϯάɺࣙॻʹΑΔൺֱΛߦ͏ 19 ೳಈֶश͕ϥϯμϜαϯϓϦϯάΑΓ༏Ε͍ͯΔ͜ͱΛࣔ͢
࣮ݧᶃ: ݁Ռ IPAdic NEologd 20 Ϟσϧ 1SFDJTJPO 3FDBMM 'WBMVF ڭࢣͳֶ͠श
ϥϯμϜαϯϓϦϯά ೳಈֶश Ϟσϧ 1SFDJTJPO 3FDBMM 'WBMVF ڭࢣͳֶ͠श ϥϯμϜαϯϓϦϯά ೳಈֶश • ྆ࣙॻʹ͓͍ͯϥϯμϜαϯϓϦϯάΑΓೳಈֶश͕༏Ε͍ͯͨ • NEologdΛ༻ͨ͠΄͏͕ੑೳ͕ߴ͔ͬͨ
࣮ݧᶄ: FAQυϝΠϯʹରͯ͠ͷઐ༻ޠநग़ • ֶशσʔλ • εΧύʔʂͷϔϧϓίϯςϯπ͔Βऔಘͨ͠FAQ 5,113จࣈ • ݅ઃఆ •
ϥϯμϜʹΞϊςʔγϣϯ͢ΔϞσϧͱൺֱ • 5ͭͷσʔλʹϥϕϦϯά͕ऴΘͬͨΒϞσϧΛ࠶ֶश • Ξϊςʔγϣϯ͕0ͷͱ͖શͯͷநग़୯ޠΛઐ༻ޠͱΈͳ͢ 21 ͲͷఔΞϊςʔγϣϯ͢Ε࣮༻తͳϞσϧʹͳΔ͔֬ೝ IUUQTIFMQDFOUFSTLZQFSGFDUWDPKQ
࣮ݧᶄ: ਫ਼ͱ࠶ݱ 22 • ਫ਼ೳಈֶश͕ϥϯμϜαϯϓϦϯάΑΓઌʹανΔ • ࠶ݱͰೳಈֶशϥϯμϜαϯϓϦϯάΛେ্͖͘ճΔ Ξϊςʔγϣϯͳͩ͠ͱ ਫ਼͍ ڭࢣͳֶ͠श
ઐ༻ޠͷ72.7%ΛΧόʔ ڭࢣͳֶ͠श
࣮ݧᶄ: F 23 ׂ࢛ఔΞϊςʔγϣϯΛߦ͏͚ͩͰF7ׂΛ͑ͨ ࠷େͰ20ϙΠϯτͷࠩ
நग़ʹޭͨ͠ઐ༻ޠ • εΧύʔʂɺϓϨϛΞϜαʔϏεޫϚϯγϣϯ͚αʔϏε நग़ग़དྷͳ͔ͬͨઐ༻ޠ • TZ-WR4KPɺSP-HR200HɺΞϯςφαϙʔτϓϥϯ ؒҧͬͯநग़ͯ͠͠·ͬͨ୯ޠ • ൪ɺνϟϯωϧɺMyνϟϯωϧ1 ࣮ݧᶄ:
ڭࢣͳֶ͠शͰͷநग़୯ޠྫ 24
ΠϯλʔϑΣʔε ΞϊςʔγϣϯͷޮΛ্͛ΔͨΊʹ WebΞϓϦέʔγϣϯͱͯ͠ΠϯλʔϑΣʔεΛ։ൃͨ͠ 25 ػೳҰཡ • ઐ༻ޠͷϋΠϥΠτ / நग़ػೳ •
ೳಈֶशʹΑΔֶशͱΞϊςʔγϣϯσʔλͷਪન • CSVΤΫεϙʔτ
DEMO 26
ΞϓϦέʔγϣϯͷߏ 27
·ͱΊ 28 త গͳ͍ςΩετσʔλ͔Βઐ༻ޠͷநग़Λߦ͏ ख๏ ڭࢣͳֶ͠श+ೳಈֶशΛ༻͍ͨWebΞϓϦέʔγϣϯͷఏڙ ࠓޙ நग़ΞϧΰϦζϜͷ࠶࣮ʹΑΔߴԽ ݕࡧͳͲͷԠ༻ʹ͓͚ΔੑೳධՁɺ৽ͨͳख๏ɾಛྔͷௐࠪ
ࢀߟจݙ [1] த ༟ࢤ, ౬ຊ ߛজ, ୢଇ. ग़ݱසͱ࿈සʹجͮ͘ઐ༻ޠநग़. ࣗવݴޠॲཧ.
2003, 10(1), p.27-45. [2] த ༟ࢤ, ౬ຊ ߛজ, ୢଇ. ຊޠϚχϡΞϧจʹ͓͚Δ໊ࢺؒͷ࿈ใΛ༻͍ͨϋΠύʔςΩε τԽͷͨΊͷࡧҾޠͷநग़. ใॲཧֶձݚڀใࠂࣗવݴޠॲཧ. 1996, (114), p.65-72 [3] “ઐ༻ޠʢΩʔϫʔυʣࣗಈநग़༻PerlϞδϡʔϧ ”. ”ઐ༻ޠʢΩʔϫʔυʣࣗಈநग़γεςϜ”ͷ ϖʔδΑ͏ͦ͜. http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html, (ࢀর 2018-9-4). [4] Burr Settles. Active Learning Literature Survey. Computer Sciences Technical Report 1648. 2010. http://burrsettles.com/pub/settles.activelearning.pdf, (ࢀর 2018-9-4). [5] Burr Settles, Mark Craven. An Analysis of Active Learning Strategies for Sequence Labeling Tasks. EMNLP. 2008. 29