Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Webコーパスの提案
Search
自然言語処理研究室
September 30, 2003
Research
1
92
Webコーパスの提案
関口 洋一, 山本 和英. Webコーパスの提案. 情報処理学会 研究報告, NL157-17 / FI72-17, pp.123-130 (2003.9)
自然言語処理研究室
September 30, 2003
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
71
自然言語処理研究室 研究概要(2014年)
jnlp
0
67
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
一般化ランダムフォレストの理論と統計的因果推論への応用
tomoshige_n
10
1.8k
Equivalence of Geodesics and Importance Weighting from the Perspective of Information Geometry
mkimura
0
140
Embodied AIについて / About Embodied AI
nttcom
1
630
2024-01-23-az
sofievl
1
800
3D Human Mesh Estimationについていくつかまとめてみた / Survey about 3D Human Mesh Estimation
nttcom
0
230
Target trial emulationの概要
shuntaros
2
1.2k
論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction / DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction
nttcom
0
130
LLMマルチエージェントを俯瞰する
masatoto
26
16k
Source Code Diff Revolution (JetBrains Open Reading Club)
tsantalis
0
300
ゼロからわかるリザバーコンピューティング
kurotaky
1
320
MegaParticles: GPUを利用したStein Particle Filterによる点群6自由度姿勢推定
koide3
1
570
ICLR2024 LLMエージェントの研究動向
masatoto
8
3.6k
Featured
See All Featured
Practical Orchestrator
shlominoach
183
9.7k
Build your cross-platform service in a week with App Engine
jlugia
226
17k
Gamification - CAS2011
davidbonilla
77
4.6k
From Idea to $5000 a Month in 5 Months
shpigford
378
45k
StorybookのUI Testing Handbookを読んだ
zakiyama
13
4.6k
The Language of Interfaces
destraynor
151
23k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
34
8.9k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
117
18k
Pencils Down: Stop Designing & Start Developing
hursman
117
11k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
155
14k
YesSQL, Process and Tooling at Scale
rocio
165
13k
Atom: Resistance is Futile
akmur
260
25k
Transcript
Web コーパスの提案 長岡技術科学大学 電気系 関口 洋一 山本 和英 http://nlp.nagaokaut.ac.jp/
1 研究の背景 主に研究利用されているコーパスは,新聞記事 昨年度の年次大会では, コーパスを用いた研究のうち 40% が新聞記事 しかし,新聞コーパスは 量が限定的
用例の種類が限定的
2 研究目的 Webテキスト は 無限 に存在 新聞コーパスでは物足りない → Web テキストに着目 Web
テキストの問題点は? ✗崩れた文体が多い ✗記号の乱用 ✗文の切断 ...etc... } コーパスの質
3 関連研究 コーパスを構築に関する研究 Rosie Jones ら ( ACL2000 ) Constantin
Orasan ら ( LREC2000 ) Web から単一言語(タガログ語)のコーパスを構築 コーパス構築支援ツールの作成 どちらも Web をそのまま用いている 質の高いコーパスを構築したい
4 コーパスの質 「質」を見る上での2つの視点 ➢文の内容を考慮した内面的な質 ➢表層表現のみを考慮した外面的な質 構築したコーパスのすべてが,利用されることが望ましい 即ち, 密度の高いコーパス の構築が目標
コーパスの構築手順
5 コーパスの構築 • URL リストの作成 • Web ページの取得 • 整形処理
• 外面的質に関する処理 • 後処理 • 内面的質に関する処理
5 コーパスの構築( URL リストの作成) 任意のページから URL を再帰的に収集する コーパスの質に直接関係するため,条件を付与 条件 国ドメインが日本(
.jp )であること htm または, html の拡張子であること 文字コードが日本語と定義されていること 同一ドメインからの取得が 100 ページ以内であること
5 コーパスの構築( Web ページの取得) 一般的な方法でページを自動取得 • 簡単なスクリプトを書く • 既存のソフトを使用する
5 コーパスの構築(整形処理) •HTML タグ除去 ※ 外面的質に関する処理に用いるタグは残す •改行 / 空白 除去
タグ除去により現れた不要な改行 / 空白を除去
5 外面的質に関する処理 1)完全一致文の削除 2)文の特定 3)字面比の考慮 4)引用記号の対処
5 後処理 文末に句点を含む行 URLやE−Mailアドレスを含まない行 1行あたりが150文字以内の行 抽出対象 •外面的質の処理だけでは,不完全な場合がある •内面的質の作業効率を上げるため 以下の行を抽出対象とする
5 内面的質に関する処理 1)崩れた文体の削除 2)雛形表現の削除 3)顔文字等の削除
外面的質に関する処理
6 完全一致文の削除 重複して出現した文の削除 (例) 画像の(タグ内の)説明部と本文の一致 広告 引用文 引用文 : 引用記号を削除した上で上記処理 (例) >
わたしもそう思います。 引用記号: > $ # > $ #
6 文の特定 HTML タグが本来の使用法どおりではない どこまでが1文かを判定する処理が必要 句点(。) + <br>
句点(。) + </**> {?!)>♪} + <br> <li> パターン
6 字面比による文の削除 字面比とは,文字種の使用割合のこと 720×486/59.94i 、 720×480/59.94i をサポートしています。 Anthropology resource son
the Internet から。 (^◇^)ノ」とのお答えでした。 ★★★★★ 腰痛こんにゃくゼリー。 数字 > 40% 英字 > 40% 一般記号 > 30% 特殊記号 > 20% 削除例 文字種の偏った文は不自然
内面的質に関する処理
7 極端に崩れた文の削除 条件にあった文を削除 ん゛あーーーーーーーーーーーーーーーーーーーーー。 「もーーーーやだーーーーーー!!」 映っててんよ☆★☆いやーーーーんモォ。 ぴよぴよだけで反応してしまう〜〜〜〜〜〜 •「〜」が 3 つ以上連続
•「−」が3つ以上連続 •「っ」が2つ以上連続 •「?」や「!」が行末で3つ以上連続 削除例
7 雛形表現の削除 Web 独特の表現パターンを削除 •「フレーム対応」表現 •都道府県名の連続表現 •値段表現の連続 •日付表現の連続 削除例 このページをご覧いただくにはフレーム対応のブラウザが必要です。
北海道青森県岩手県秋田県宮城県山形県福島県… 3500 円 7200 円 平成13年8月15日 平成13年10月20日 特に多く見られる例として以下の4つに対処
7 顔文字等の削除 文としては意味をなさない記号を削除 • (^^) (^-^) (^o^) / など23種は,それを含む文を削除 •
( 笑 ) ( 苦笑 ) ( 涙 ) など52種は,対応箇所を削除 削除例 楽しんで下さい (^^) 。 お年玉をもらい、シェンムーカッチャッタ ( ^ - ^ ) アハッ。 あーもう、また行きたくなってしまったよ ( 笑 ) 。 書いたものが完全に闇に消えました ( 泣 ) 。
評価実験
8 構築実験 Web コーパス A リンク集のページから再帰的に URL を取得 [http://www.webring.ne.jp/] HTML
ファイル → 提案手法適用後 3505 MB 223 MB 新聞コーパス一年分と同規模(21 MB )にするため, 223 MB の中から,ランダムに行を抽出
8 提案手法により削除できた文の数 処理 削除の要素 削除できた文の数 外面的質 完全一致文 51691 19.7 同一ページ
14878 5.7 字面比 4937 1.9 内面的質 感情表現文字 3003 1.1 フレーム対応表現 2582 0.9 極端に崩れた文 2214 0.8 顔文字 1736 0.7 割合 [%]
8 コーパスのサイズと単語数変化 同一サイズでは,新聞よりも Web の方が優位
8 シソーラスによる単語の偏り調査 Web コーパスには,分類の偏りがない 新聞には,発表 , 代表,会議などが高頻度で出現
8 格フレームの異なり数 格フレーム数 145337 170274 頻度 明らかにする ことができる ことになる ことになる
ことを決める ものとする 容疑で逮捕する ことがある 明らかになる 必要がある 上位10位 罪に問う ようになる 方針を固める ようにする 会を開く 日から施行する 性がある 場合がある ことが分かる 目的とする 新聞( 21MB) Web( 21MB ) Web コーパスには,一般的なものが多い
8 料理に関する格フレームの調査 •皿に盛る ... 軽く塩コショーして皿に盛る •薄切りにする ... レモンは、薄切りにする。 •ふたをする ...
布巾をかけてふたをして、 ... •水をきる ... 水をきって裏ごしする。 雑誌レシピ中の格フレーム18件を対象 新聞(21 MB ) → 0件検出 Web (21 MB ) → 7件24例 検出 検出例
9 提案手法の有効性(単語数への影響) 未知語 51% 未知語 35% 適用前 適用後 約 10
万5千語 約9万7千語 未知語が減っている 名詞,動詞,形容詞以外の品詞の割合が格段に上昇
9 提案手法の有効性(単語数への影響) Web Ao 0 50000 100000 未知語 未知語
実質的に,単語数が増加している Web Ao : Web A と同じ情報源よりタグ除去のみを施したもの 同一規模,これを手法の適用前とする Web A
9 提案手法の有効性(格フレーム) 150000 単語と同様に同一規模で格フレーム数の変化を調査 適用後は, 14 万件(およそ6倍)多く検出 Web Ao Web
A 0 50000 100000
10 まとめ ➔Web は新聞よりも良好な言語情報である •実質単語数が増加 •格フレームの異なり数が増加 •低頻度の格フレームにおいても有用なものを獲得 ➔提案手法によって, しており,本手法で質が向上していることを実験で確認した.
コーパスの汎用性 Web A : リンク集 → 47.57% Web B : 健康に関する情報サイト → 47.60%
Web C : 首相官邸 → 44.85% 0 50 100 自然 性状 変動 行動 心情 人物 性向 社会 学芸 物品 Web A Web B Web C
None