Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Webコーパスの提案
Search
自然言語処理研究室
September 30, 2003
Research
1
120
Webコーパスの提案
関口 洋一, 山本 和英. Webコーパスの提案. 情報処理学会 研究報告, NL157-17 / FI72-17, pp.123-130 (2003.9)
自然言語処理研究室
September 30, 2003
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
When Submarine Cables Go Dark: Examining the Web Services Resilience Amid Global Internet Disruptions
irvin
0
210
電力システム最適化入門
mickey_kubo
1
650
「エージェントって何?」から「実際の開発現場で役立つ考え方やベストプラクティス」まで
mickey_kubo
0
120
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
satai
3
240
[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
nk35jk
2
520
Collaborative Development of Foundation Models at Japanese Academia
odashi
2
560
90 分で学ぶ P 対 NP 問題
e869120
17
7.5k
引力・斥力を制御可能なランダム部分集合の確率分布
wasyro
0
160
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
260
20250502_ABEJA_論文読み会_スライド
flatton
0
170
Mechanistic Interpretability:解釈可能性研究の新たな潮流
koshiro_aoki
1
300
研究テーマのデザインと研究遂行の方法論
hisashiishihara
5
1.4k
Featured
See All Featured
Designing for Performance
lara
609
69k
Facilitating Awesome Meetings
lara
54
6.4k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
17
950
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
A Modern Web Designer's Workflow
chriscoyier
694
190k
Building Applications with DynamoDB
mza
95
6.5k
Transcript
Web コーパスの提案 長岡技術科学大学 電気系 関口 洋一 山本 和英 http://nlp.nagaokaut.ac.jp/
1 研究の背景 主に研究利用されているコーパスは,新聞記事 昨年度の年次大会では, コーパスを用いた研究のうち 40% が新聞記事 しかし,新聞コーパスは 量が限定的
用例の種類が限定的
2 研究目的 Webテキスト は 無限 に存在 新聞コーパスでは物足りない → Web テキストに着目 Web
テキストの問題点は? ✗崩れた文体が多い ✗記号の乱用 ✗文の切断 ...etc... } コーパスの質
3 関連研究 コーパスを構築に関する研究 Rosie Jones ら ( ACL2000 ) Constantin
Orasan ら ( LREC2000 ) Web から単一言語(タガログ語)のコーパスを構築 コーパス構築支援ツールの作成 どちらも Web をそのまま用いている 質の高いコーパスを構築したい
4 コーパスの質 「質」を見る上での2つの視点 ➢文の内容を考慮した内面的な質 ➢表層表現のみを考慮した外面的な質 構築したコーパスのすべてが,利用されることが望ましい 即ち, 密度の高いコーパス の構築が目標
コーパスの構築手順
5 コーパスの構築 • URL リストの作成 • Web ページの取得 • 整形処理
• 外面的質に関する処理 • 後処理 • 内面的質に関する処理
5 コーパスの構築( URL リストの作成) 任意のページから URL を再帰的に収集する コーパスの質に直接関係するため,条件を付与 条件 国ドメインが日本(
.jp )であること htm または, html の拡張子であること 文字コードが日本語と定義されていること 同一ドメインからの取得が 100 ページ以内であること
5 コーパスの構築( Web ページの取得) 一般的な方法でページを自動取得 • 簡単なスクリプトを書く • 既存のソフトを使用する
5 コーパスの構築(整形処理) •HTML タグ除去 ※ 外面的質に関する処理に用いるタグは残す •改行 / 空白 除去
タグ除去により現れた不要な改行 / 空白を除去
5 外面的質に関する処理 1)完全一致文の削除 2)文の特定 3)字面比の考慮 4)引用記号の対処
5 後処理 文末に句点を含む行 URLやE−Mailアドレスを含まない行 1行あたりが150文字以内の行 抽出対象 •外面的質の処理だけでは,不完全な場合がある •内面的質の作業効率を上げるため 以下の行を抽出対象とする
5 内面的質に関する処理 1)崩れた文体の削除 2)雛形表現の削除 3)顔文字等の削除
外面的質に関する処理
6 完全一致文の削除 重複して出現した文の削除 (例) 画像の(タグ内の)説明部と本文の一致 広告 引用文 引用文 : 引用記号を削除した上で上記処理 (例) >
わたしもそう思います。 引用記号: > $ # > $ #
6 文の特定 HTML タグが本来の使用法どおりではない どこまでが1文かを判定する処理が必要 句点(。) + <br>
句点(。) + </**> {?!)>♪} + <br> <li> パターン
6 字面比による文の削除 字面比とは,文字種の使用割合のこと 720×486/59.94i 、 720×480/59.94i をサポートしています。 Anthropology resource son
the Internet から。 (^◇^)ノ」とのお答えでした。 ★★★★★ 腰痛こんにゃくゼリー。 数字 > 40% 英字 > 40% 一般記号 > 30% 特殊記号 > 20% 削除例 文字種の偏った文は不自然
内面的質に関する処理
7 極端に崩れた文の削除 条件にあった文を削除 ん゛あーーーーーーーーーーーーーーーーーーーーー。 「もーーーーやだーーーーーー!!」 映っててんよ☆★☆いやーーーーんモォ。 ぴよぴよだけで反応してしまう〜〜〜〜〜〜 •「〜」が 3 つ以上連続
•「−」が3つ以上連続 •「っ」が2つ以上連続 •「?」や「!」が行末で3つ以上連続 削除例
7 雛形表現の削除 Web 独特の表現パターンを削除 •「フレーム対応」表現 •都道府県名の連続表現 •値段表現の連続 •日付表現の連続 削除例 このページをご覧いただくにはフレーム対応のブラウザが必要です。
北海道青森県岩手県秋田県宮城県山形県福島県… 3500 円 7200 円 平成13年8月15日 平成13年10月20日 特に多く見られる例として以下の4つに対処
7 顔文字等の削除 文としては意味をなさない記号を削除 • (^^) (^-^) (^o^) / など23種は,それを含む文を削除 •
( 笑 ) ( 苦笑 ) ( 涙 ) など52種は,対応箇所を削除 削除例 楽しんで下さい (^^) 。 お年玉をもらい、シェンムーカッチャッタ ( ^ - ^ ) アハッ。 あーもう、また行きたくなってしまったよ ( 笑 ) 。 書いたものが完全に闇に消えました ( 泣 ) 。
評価実験
8 構築実験 Web コーパス A リンク集のページから再帰的に URL を取得 [http://www.webring.ne.jp/] HTML
ファイル → 提案手法適用後 3505 MB 223 MB 新聞コーパス一年分と同規模(21 MB )にするため, 223 MB の中から,ランダムに行を抽出
8 提案手法により削除できた文の数 処理 削除の要素 削除できた文の数 外面的質 完全一致文 51691 19.7 同一ページ
14878 5.7 字面比 4937 1.9 内面的質 感情表現文字 3003 1.1 フレーム対応表現 2582 0.9 極端に崩れた文 2214 0.8 顔文字 1736 0.7 割合 [%]
8 コーパスのサイズと単語数変化 同一サイズでは,新聞よりも Web の方が優位
8 シソーラスによる単語の偏り調査 Web コーパスには,分類の偏りがない 新聞には,発表 , 代表,会議などが高頻度で出現
8 格フレームの異なり数 格フレーム数 145337 170274 頻度 明らかにする ことができる ことになる ことになる
ことを決める ものとする 容疑で逮捕する ことがある 明らかになる 必要がある 上位10位 罪に問う ようになる 方針を固める ようにする 会を開く 日から施行する 性がある 場合がある ことが分かる 目的とする 新聞( 21MB) Web( 21MB ) Web コーパスには,一般的なものが多い
8 料理に関する格フレームの調査 •皿に盛る ... 軽く塩コショーして皿に盛る •薄切りにする ... レモンは、薄切りにする。 •ふたをする ...
布巾をかけてふたをして、 ... •水をきる ... 水をきって裏ごしする。 雑誌レシピ中の格フレーム18件を対象 新聞(21 MB ) → 0件検出 Web (21 MB ) → 7件24例 検出 検出例
9 提案手法の有効性(単語数への影響) 未知語 51% 未知語 35% 適用前 適用後 約 10
万5千語 約9万7千語 未知語が減っている 名詞,動詞,形容詞以外の品詞の割合が格段に上昇
9 提案手法の有効性(単語数への影響) Web Ao 0 50000 100000 未知語 未知語
実質的に,単語数が増加している Web Ao : Web A と同じ情報源よりタグ除去のみを施したもの 同一規模,これを手法の適用前とする Web A
9 提案手法の有効性(格フレーム) 150000 単語と同様に同一規模で格フレーム数の変化を調査 適用後は, 14 万件(およそ6倍)多く検出 Web Ao Web
A 0 50000 100000
10 まとめ ➔Web は新聞よりも良好な言語情報である •実質単語数が増加 •格フレームの異なり数が増加 •低頻度の格フレームにおいても有用なものを獲得 ➔提案手法によって, しており,本手法で質が向上していることを実験で確認した.
コーパスの汎用性 Web A : リンク集 → 47.57% Web B : 健康に関する情報サイト → 47.60%
Web C : 首相官邸 → 44.85% 0 50 100 自然 性状 変動 行動 心情 人物 性向 社会 学芸 物品 Web A Web B Web C
None