Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストメディア特論 「会社名」の抽出
Search
Lamron
October 01, 2023
Research
0
67
テキストメディア特論 「会社名」の抽出
Lamron
October 01, 2023
Tweet
Share
More Decks by Lamron
See All by Lamron
テキストメディア特論 類似した「名前」の同一性の判定
lamrongol
0
52
Blueskyでは何が話し合われているか。「情報技術は民主主義を生み、今は殺そうとしている」
lamrongol
0
5.3k
要約: Formal Approaches in Categorization: Chapter.5 Semantics without categorization
lamrongol
0
2.6k
Blueskyの「今」がわかる!Bot
lamrongol
0
1.6k
Other Decks in Research
See All in Research
論文読み会 SNLP2024 Instruction-tuned Language Models are Better Knowledge Learners. In: ACL 2024
s_mizuki_nlp
1
350
Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024)
kampersanda
2
190
文献紹介:A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications
a1da4
1
220
データサイエンティストをめぐる環境の違い 2024年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
580
20241115都市交通決起集会 趣旨説明・熊本事例紹介
trafficbrain
0
230
Introducing Research Units of Matsuo-Iwasawa Laboratory
matsuolab
0
920
機械学習による言語パフォーマンスの評価
langstat
6
720
Weekly AI Agents News! 7月号 プロダクト/ニュースのアーカイブ
masatoto
0
160
3次元点群の分類における評価指標について
kentaitakura
0
410
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
150
SNLP2024:Planning Like Human: A Dual-process Framework for Dialogue Planning
yukizenimoto
1
330
「並列化時代の乱数生成」
abap34
3
820
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
94
13k
Fireside Chat
paigeccino
34
3k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
0
89
Designing Experiences People Love
moore
138
23k
For a Future-Friendly Web
brad_frost
175
9.4k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Site-Speed That Sticks
csswizardry
0
24
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Building Better People: How to give real-time feedback that sticks.
wjessup
364
19k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.8k
Facilitating Awesome Meetings
lara
50
6.1k
Transcript
「会社名」の抽出 @lamrongol
「~社」などの表現から会社名を判断する方法には限界 がある 切れ目の判断が難しい(「・」は切れ目か否か、など) 「オラクル」のように「~社」の形になってないものは社名と判 断できない 「東電」などの略称もある
あらかじめどのような会社名があるか登録しておけばよ い
Wikipedia の利用 Wikipediaの特徴 各項目には多くの場合「千葉県の会社」などカテゴリが 付与されている 一定の規則に基づいた文書が大量にある
人手による更新・訂正が行われるので正確性がある程 度保証されている 大量の「会社名」データを手に入れることができる (Wikipediaのデータベース・ダンプを利用)
略称の取得 略称と正式名称の関連も取得できる 例)「日立」というリンクから「日立製作所」につな がっている場合 「日立」=「日立製作所」と関連付けられる
Wikipedia以外からの取得 Web上にはWikipedia以外の文書も大量にある しかし、それらはWikipediaのように「企業」であることが 明記されてるわけではない だが、量は圧倒的に多いのでなんとか活用したい 周りの文章から「会社名」であることを判断できな
いか? 「〇〇は東証一部に上場した~」 「〇〇は1997年に創業した~」
構造化されてない文章からの会社名の取得 まず、Wikipediaなど構造化されているデータを「訓 練データ」として用いる 前後の単語から、会社名を判断する確率モデルを作 る 構造化されてないデータ(ブログの文章等)に対して これを適用し、会社名を取り出す
P(会社名|創業)= N(会社名∧創業) N(創業)
関連研究の応用 Support Vector Machineを用いた日本語固有表 現抽出[山田 et al] 前後の単語の素性(単語自体だけでなく、品詞の
種類なども含む)ベクトルの集合に対してSVMを行 い、学習させる