Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストメディア特論 「会社名」の抽出
Search
Lamron
October 01, 2023
Research
0
44
テキストメディア特論 「会社名」の抽出
Lamron
October 01, 2023
Tweet
Share
More Decks by Lamron
See All by Lamron
テキストメディア特論 類似した「名前」の同一性の判定
lamrongol
0
39
Blueskyでは何が話し合われているか。「情報技術は民主主義を生み、今は殺そうとしている」
lamrongol
0
3.8k
要約: Formal Approaches in Categorization: Chapter.5 Semantics without categorization
lamrongol
0
2.3k
Blueskyの「今」がわかる!Bot
lamrongol
0
1.5k
Other Decks in Research
See All in Research
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction(日本語版)
aiueola
0
120
SSII2024 [PD] 画像センシングの未来
ssii
PRO
0
290
CARA MEMBUKA VIDEO DEWASA DI INDONESIA
bloglangit
0
320
SSII2024 [OS1] 現場の課題を解決する ロボットラーニング
ssii
PRO
0
420
IVILab. Research Introduction
ysugano
0
260
LINEチャットボット「全力肯定彼氏くん(LuC4)」の 1年を振り返る
o_ob
0
680
第60回名古屋CV・PRML勉強会:CVPR2024論文紹介(AM-RADIO)
naok615
0
120
LLMとの共同執筆は文章の多様性を減らすか?
kuri8ive
3
690
ICLR2024 LLMエージェントの研究動向
masatoto
13
9.1k
出生抑制策と少子化
morimasao16
0
280
【ICASSP2024】音声変換に関する全論文まとめ【Parakeet株式会社】
supikiti
0
600
自然言語とVision&Language
kuehara
19
4.4k
Featured
See All Featured
GraphQLの誤解/rethinking-graphql
sonatard
59
9.6k
Documentation Writing (for coders)
carmenintech
63
4.2k
Product Roadmaps are Hard
iamctodd
PRO
48
10k
Six Lessons from altMBA
skipperchong
24
3.2k
How GitHub (no longer) Works
holman
305
140k
Speed Design
sergeychernyshev
9
270
Scaling GitHub
holman
458
140k
Robots, Beer and Maslow
schacon
PRO
157
8.1k
In The Pink: A Labor of Love
frogandcode
139
22k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
245
1.2M
Mobile First: as difficult as doing things right
swwweet
219
8.8k
Making the Leap to Tech Lead
cromwellryan
127
8.7k
Transcript
「会社名」の抽出 @lamrongol
「~社」などの表現から会社名を判断する方法には限界 がある 切れ目の判断が難しい(「・」は切れ目か否か、など) 「オラクル」のように「~社」の形になってないものは社名と判 断できない 「東電」などの略称もある
あらかじめどのような会社名があるか登録しておけばよ い
Wikipedia の利用 Wikipediaの特徴 各項目には多くの場合「千葉県の会社」などカテゴリが 付与されている 一定の規則に基づいた文書が大量にある
人手による更新・訂正が行われるので正確性がある程 度保証されている 大量の「会社名」データを手に入れることができる (Wikipediaのデータベース・ダンプを利用)
略称の取得 略称と正式名称の関連も取得できる 例)「日立」というリンクから「日立製作所」につな がっている場合 「日立」=「日立製作所」と関連付けられる
Wikipedia以外からの取得 Web上にはWikipedia以外の文書も大量にある しかし、それらはWikipediaのように「企業」であることが 明記されてるわけではない だが、量は圧倒的に多いのでなんとか活用したい 周りの文章から「会社名」であることを判断できな
いか? 「〇〇は東証一部に上場した~」 「〇〇は1997年に創業した~」
構造化されてない文章からの会社名の取得 まず、Wikipediaなど構造化されているデータを「訓 練データ」として用いる 前後の単語から、会社名を判断する確率モデルを作 る 構造化されてないデータ(ブログの文章等)に対して これを適用し、会社名を取り出す
P(会社名|創業)= N(会社名∧創業) N(創業)
関連研究の応用 Support Vector Machineを用いた日本語固有表 現抽出[山田 et al] 前後の単語の素性(単語自体だけでなく、品詞の
種類なども含む)ベクトルの集合に対してSVMを行 い、学習させる