Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Web検索を用いた複合名詞同定
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2008
Research
0
78
Web検索を用いた複合名詞同定
沢井 康孝, 山本 和英. Web検索を用いた複合名詞同定. 言語処理学会第14回年次大会, pp.205-208 (2008.3)
自然言語処理研究室
March 31, 2008
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
410
データサイエンス13_解析.pdf
jnlp
0
520
データサイエンス12_分類.pdf
jnlp
0
370
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
[SITA2025 Workshop] 空中計算による高速・低遅延な分散回帰分析
k_sato
0
130
姫路市 -都市OSの「再実装」-
hopin
0
1.7k
[Devfest Incheon 2025] 모두를 위한 친절한 언어모델(LLM) 학습 가이드
beomi
2
1.5k
Ankylosing Spondylitis
ankh2054
0
150
競合や要望に流されない─B2B SaaSでミニマム要件を決めるリアルな取り組み / Don't be swayed by competitors or requests - A real effort to determine minimum requirements for B2B SaaS
kaminashi
0
1.2k
Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning
satai
3
700
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
530
業界横断 副業コンプライアンス調査 三者(副業者・本業先・発注者)におけるトラブル認知ギャップの構造分析
fkske
0
1.2k
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
3
600
From Data Meshes to Data Spaces
posedio
PRO
0
540
Grounding Text Complexity Control in Defined Linguistic Difficulty [Keynote@*SEM2025]
yukiar
0
140
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
350
Featured
See All Featured
Art, The Web, and Tiny UX
lynnandtonic
304
21k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
140
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
660
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
300
GraphQLとの向き合い方2022年版
quramy
50
14k
Optimizing for Happiness
mojombo
378
71k
Automating Front-end Workflow
addyosmani
1370
200k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
90
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
140
BBQ
matthewcrist
89
10k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
260
Transcript
1 Web 検索を用いた複合名詞同定 長岡技術科学大学 電気系 自然言語処理研究室 沢井 康孝、山本 和英 2008
2 目的 • 複合名詞(複合語) – 低価格ノイズキャンセルヘッドホン – 低価格ノイズキャンセルヘッドホン? – 低価格、ノイズキャンセル、ヘッドホン?
– 低価格、ノイズキャンセルヘッドホン? • 問題 – どこで分割点するか、どこまでが一語か – 分野によって最適な長さは異なる
3 複合名詞同定の調査 • Webを大規模なコーパスに見立てた複合名 詞同定処理を行う – どの程度妥当であるか – 作成される複合名詞の特徴 –
どのような分野に向いているか • 二種類の方法の比較 – ヒット件数 – AND 検索と連接検索の比率
4 提案手法の概要 • 手法1 – ヒット件数に閾値を定める – 先行研究 • 評判情報の抽出
[ 峠ら ,06] • ドメイン特徴語の抽出 • 手法2 – ヒット件数の割合に閾値を定める ヒット件数によって妥当性を判定 ヒット件数 閾値 1000 件
5 概要:複合名詞の同定 • Step1 – 複合名詞候補の抽出 • Step2 – 複合名詞同定処理
– 同定の優先順 (1: 長さ、 2: 値の大きさ ) • 複合名詞の候補 – 対象とする品詞の連接部分 – 対象:名詞、接尾、接頭、未知語、記号
6 同定基準1:ヒット件数 • ヒット件数に閾値を設定 – ヒット件数で妥当性を測る DNS サーバー アドレス 手動 設定 3 3 3
3 3 5 万 2 千 3 万 Hit 数 分割点 ( 閾値 1000)
7 同定基準2:ヒット割合 • ヒット件数の割合に閾値を設定 – AND 検索と連接検索(割合 = 連接 /AND)
DNS サーバー アドレス 手動 設定 3 3 3 3 0 0.01 0.5 0.04 割合 0 0.1 分割点 ( 閾値 0.1)
8 対象テキスト • 様々な語句を対象とする – Web テキスト – Blog, 掲示板
,etc • 対象テキスト – Livedoor Blog – 価格コム掲示板
9 評価方法 • 無作為にサンプリング • 人手による評価 – 被験者3人の平均を利用 – 正解例、不正解例をあらかじめ提示
– 対象の語句が妥当であるか判断 • 形態素数別に評価
10 複合名詞の候補数 形態素数 価格コム 候補自体の精度 2 155585 60944 0.69 3
94116 47839 0.54 4 29983 16199 0.45 5 9533 4853 0.33 Blog × 部長キタ × タイトルうろ覚えビート 形態素数の増加⇔精度の低下
11 同定後の複合名詞の評価 形態素数 ヒット件数 ヒット割合 ヒット割合 閾値 1000 0.1 0.05
2 0.77 0.87 0.91 3 0.80 0.84 0.87 4 0.69 0.80 0.79 5 0.69 0.78 0.81 形態素数が多い複合名詞が良好
12 形態素数 形態素数 2 3 4 5 ヒット件数後 392 197
55 20 ヒット割合後 409 99 25 11 • 2 ~ 5 形態素の複合名詞候補を対象とする – 各形態素数別に 100 件 • 同定処理後の複合名詞の形態素数の変化 • ヒット件数:形態素数が多い • ヒット割合:形態素数が少ない
13 • 検索ヒット数(閾値 1000 ) – 住宅用アルミ / 建材 /
カラーサンプル – USBサウンドデバイス / サウンドカード – 液晶プロジェクタ / 接続用アダプタ – 勝ち組VS負け組 – 等速ダビング / 完了時 – データ / 通信用カード / 形 • 検索ヒット割合(閾値 0.05 ) – 住宅用 / アルミ建材 / カラーサンプル – USB / サウンドデバイス / サウンドカード – 液晶プロジェクタ / 接続用 / アダプタ – 勝ち組 / VS / 負け組 – 等速ダビング / 完了時 – データ / 通信用 / カード形
14 特徴および問題 • ヒット件数 – 長い複合名詞を同定しやすい – ある程度連接すると判断できない – 出現が少ない語彙に弱い
• ヒット割合 – 短く分割する – 出現が少ない語彙に対しても判断できる
15 まとめ、展望 • Web を対象 – 特に形態素数が多い語彙に問題 – 両方の方法で良好な結果 •
2 つの方法を使用する – 処理によって必要とする単位が異なる – 両者に利点と欠点 展望:実際に幾つかのタスクを想定して 比較、実験を行う
16 Web 特有の表現 • Web 特有の表現を幾つか抽出 – なめ ら かさ – こ ー ゆ ー
– めん ど くせ え – ハズ カシ ク ナイ – お k Web を解析する際の辞書として有益?
17 先行研究の精度 • 先行研究 – 人手評価 – 対象:掲示板 – ドメイン固定
• 携帯電話 • 車 • デジタルカメラ 形態素数 ヒット件数 閾値 1000 2 0.81 3 0.78 4 0.73 5 0.79
18 実際の例