Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストメディア特論 「会社名」の抽出
Search
Lamron
October 01, 2023
Research
0
84
テキストメディア特論 「会社名」の抽出
Lamron
October 01, 2023
Tweet
Share
More Decks by Lamron
See All by Lamron
テキストメディア特論 類似した「名前」の同一性の判定
lamrongol
0
63
Blueskyでは何が話し合われているか。「情報技術は民主主義を生み、今は殺そうとしている」
lamrongol
0
6.2k
要約: Formal Approaches in Categorization: Chapter.5 Semantics without categorization
lamrongol
0
2.8k
Blueskyの「今」がわかる!Bot
lamrongol
0
1.7k
Other Decks in Research
See All in Research
移動ビッグデータに基づく地理情報の埋め込みベクトル化
tam1110
0
240
Retrieval of Hurricane Rain Rate From SAR Images Based on Artificial Neural Network
satai
3
140
PhD Defence: Considering Temporal and Contextual Information for Lexical Semantic Change Detection
a1da4
0
130
한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성
inureyes
PRO
0
230
ドローンやICTを活用した持続可能なまちづくりに関する研究
nro2daisuke
0
150
博士学位論文予備審査 / Scaling Telemetry Workloads in Cloud Applications: Techniques for Instrumentation, Storage, and Mining
yuukit
1
1.7k
研究を支える拡張性の高い ワークフローツールの提案 / Proposal of highly expandable workflow tools to support research
linyows
0
310
DeepSeek を利用する上でのリスクと安全性の考え方
schroneko
3
820
非ガウス性と非線形性に基づく統計的因果探索
sshimizu2006
0
560
A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images
satai
3
140
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
470
CoRL2024サーベイ
rpc
1
1.6k
Featured
See All Featured
How to train your dragon (web standard)
notwaldorf
91
5.9k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
10
1.3k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
30
4.6k
4 Signs Your Business is Dying
shpigford
182
22k
For a Future-Friendly Web
brad_frost
176
9.6k
Music & Morning Musume
bryan
46
6.4k
Java REST API Framework Comparison - PWX 2021
mraible
29
8.4k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.2k
Optimising Largest Contentful Paint
csswizardry
34
3.1k
Speed Design
sergeychernyshev
27
810
The World Runs on Bad Software
bkeepers
PRO
67
11k
Transcript
「会社名」の抽出 @lamrongol
「~社」などの表現から会社名を判断する方法には限界 がある 切れ目の判断が難しい(「・」は切れ目か否か、など) 「オラクル」のように「~社」の形になってないものは社名と判 断できない 「東電」などの略称もある
あらかじめどのような会社名があるか登録しておけばよ い
Wikipedia の利用 Wikipediaの特徴 各項目には多くの場合「千葉県の会社」などカテゴリが 付与されている 一定の規則に基づいた文書が大量にある
人手による更新・訂正が行われるので正確性がある程 度保証されている 大量の「会社名」データを手に入れることができる (Wikipediaのデータベース・ダンプを利用)
略称の取得 略称と正式名称の関連も取得できる 例)「日立」というリンクから「日立製作所」につな がっている場合 「日立」=「日立製作所」と関連付けられる
Wikipedia以外からの取得 Web上にはWikipedia以外の文書も大量にある しかし、それらはWikipediaのように「企業」であることが 明記されてるわけではない だが、量は圧倒的に多いのでなんとか活用したい 周りの文章から「会社名」であることを判断できな
いか? 「〇〇は東証一部に上場した~」 「〇〇は1997年に創業した~」
構造化されてない文章からの会社名の取得 まず、Wikipediaなど構造化されているデータを「訓 練データ」として用いる 前後の単語から、会社名を判断する確率モデルを作 る 構造化されてないデータ(ブログの文章等)に対して これを適用し、会社名を取り出す
P(会社名|創業)= N(会社名∧創業) N(創業)
関連研究の応用 Support Vector Machineを用いた日本語固有表 現抽出[山田 et al] 前後の単語の素性(単語自体だけでなく、品詞の
種類なども含む)ベクトルの集合に対してSVMを行 い、学習させる