Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Webコーパスの提案
Search
自然言語処理研究室
September 30, 2003
Research
1
120
Webコーパスの提案
関口 洋一, 山本 和英. Webコーパスの提案. 情報処理学会 研究報告, NL157-17 / FI72-17, pp.123-130 (2003.9)
自然言語処理研究室
September 30, 2003
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
Generative Models 2025
takahashihiroshi
21
12k
Mathematics in the Age of AI and the 4 Generation University
hachama
0
170
ストレス計測方法の確立に向けたマルチモーダルデータの活用
yurikomium
0
720
在庫管理のための機械学習と最適化の融合
mickey_kubo
3
1.1k
数理最適化に基づく制御
mickey_kubo
5
680
Weekly AI Agents News!
masatoto
33
68k
時系列データに対する解釈可能な 決定木クラスタリング
mickey_kubo
2
750
MGDSS:慣性式モーションキャプチャを用いたジェスチャによるドローンの操作 / ec75-yamauchi
yumulab
0
260
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
200
Principled AI ~深層学習時代における課題解決の方法論~
taniai
3
1.2k
数理最適化と機械学習の融合
mickey_kubo
15
8.9k
EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry
satai
4
300
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
181
54k
Code Reviewing Like a Champion
maltzj
524
40k
Documentation Writing (for coders)
carmenintech
72
4.9k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
5.9k
RailsConf 2023
tenderlove
30
1.1k
Navigating Team Friction
lara
187
15k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Six Lessons from altMBA
skipperchong
28
3.9k
How GitHub (no longer) Works
holman
314
140k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
50
5.5k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Transcript
Web コーパスの提案 長岡技術科学大学 電気系 関口 洋一 山本 和英 http://nlp.nagaokaut.ac.jp/
1 研究の背景 主に研究利用されているコーパスは,新聞記事 昨年度の年次大会では, コーパスを用いた研究のうち 40% が新聞記事 しかし,新聞コーパスは 量が限定的
用例の種類が限定的
2 研究目的 Webテキスト は 無限 に存在 新聞コーパスでは物足りない → Web テキストに着目 Web
テキストの問題点は? ✗崩れた文体が多い ✗記号の乱用 ✗文の切断 ...etc... } コーパスの質
3 関連研究 コーパスを構築に関する研究 Rosie Jones ら ( ACL2000 ) Constantin
Orasan ら ( LREC2000 ) Web から単一言語(タガログ語)のコーパスを構築 コーパス構築支援ツールの作成 どちらも Web をそのまま用いている 質の高いコーパスを構築したい
4 コーパスの質 「質」を見る上での2つの視点 ➢文の内容を考慮した内面的な質 ➢表層表現のみを考慮した外面的な質 構築したコーパスのすべてが,利用されることが望ましい 即ち, 密度の高いコーパス の構築が目標
コーパスの構築手順
5 コーパスの構築 • URL リストの作成 • Web ページの取得 • 整形処理
• 外面的質に関する処理 • 後処理 • 内面的質に関する処理
5 コーパスの構築( URL リストの作成) 任意のページから URL を再帰的に収集する コーパスの質に直接関係するため,条件を付与 条件 国ドメインが日本(
.jp )であること htm または, html の拡張子であること 文字コードが日本語と定義されていること 同一ドメインからの取得が 100 ページ以内であること
5 コーパスの構築( Web ページの取得) 一般的な方法でページを自動取得 • 簡単なスクリプトを書く • 既存のソフトを使用する
5 コーパスの構築(整形処理) •HTML タグ除去 ※ 外面的質に関する処理に用いるタグは残す •改行 / 空白 除去
タグ除去により現れた不要な改行 / 空白を除去
5 外面的質に関する処理 1)完全一致文の削除 2)文の特定 3)字面比の考慮 4)引用記号の対処
5 後処理 文末に句点を含む行 URLやE−Mailアドレスを含まない行 1行あたりが150文字以内の行 抽出対象 •外面的質の処理だけでは,不完全な場合がある •内面的質の作業効率を上げるため 以下の行を抽出対象とする
5 内面的質に関する処理 1)崩れた文体の削除 2)雛形表現の削除 3)顔文字等の削除
外面的質に関する処理
6 完全一致文の削除 重複して出現した文の削除 (例) 画像の(タグ内の)説明部と本文の一致 広告 引用文 引用文 : 引用記号を削除した上で上記処理 (例) >
わたしもそう思います。 引用記号: > $ # > $ #
6 文の特定 HTML タグが本来の使用法どおりではない どこまでが1文かを判定する処理が必要 句点(。) + <br>
句点(。) + </**> {?!)>♪} + <br> <li> パターン
6 字面比による文の削除 字面比とは,文字種の使用割合のこと 720×486/59.94i 、 720×480/59.94i をサポートしています。 Anthropology resource son
the Internet から。 (^◇^)ノ」とのお答えでした。 ★★★★★ 腰痛こんにゃくゼリー。 数字 > 40% 英字 > 40% 一般記号 > 30% 特殊記号 > 20% 削除例 文字種の偏った文は不自然
内面的質に関する処理
7 極端に崩れた文の削除 条件にあった文を削除 ん゛あーーーーーーーーーーーーーーーーーーーーー。 「もーーーーやだーーーーーー!!」 映っててんよ☆★☆いやーーーーんモォ。 ぴよぴよだけで反応してしまう〜〜〜〜〜〜 •「〜」が 3 つ以上連続
•「−」が3つ以上連続 •「っ」が2つ以上連続 •「?」や「!」が行末で3つ以上連続 削除例
7 雛形表現の削除 Web 独特の表現パターンを削除 •「フレーム対応」表現 •都道府県名の連続表現 •値段表現の連続 •日付表現の連続 削除例 このページをご覧いただくにはフレーム対応のブラウザが必要です。
北海道青森県岩手県秋田県宮城県山形県福島県… 3500 円 7200 円 平成13年8月15日 平成13年10月20日 特に多く見られる例として以下の4つに対処
7 顔文字等の削除 文としては意味をなさない記号を削除 • (^^) (^-^) (^o^) / など23種は,それを含む文を削除 •
( 笑 ) ( 苦笑 ) ( 涙 ) など52種は,対応箇所を削除 削除例 楽しんで下さい (^^) 。 お年玉をもらい、シェンムーカッチャッタ ( ^ - ^ ) アハッ。 あーもう、また行きたくなってしまったよ ( 笑 ) 。 書いたものが完全に闇に消えました ( 泣 ) 。
評価実験
8 構築実験 Web コーパス A リンク集のページから再帰的に URL を取得 [http://www.webring.ne.jp/] HTML
ファイル → 提案手法適用後 3505 MB 223 MB 新聞コーパス一年分と同規模(21 MB )にするため, 223 MB の中から,ランダムに行を抽出
8 提案手法により削除できた文の数 処理 削除の要素 削除できた文の数 外面的質 完全一致文 51691 19.7 同一ページ
14878 5.7 字面比 4937 1.9 内面的質 感情表現文字 3003 1.1 フレーム対応表現 2582 0.9 極端に崩れた文 2214 0.8 顔文字 1736 0.7 割合 [%]
8 コーパスのサイズと単語数変化 同一サイズでは,新聞よりも Web の方が優位
8 シソーラスによる単語の偏り調査 Web コーパスには,分類の偏りがない 新聞には,発表 , 代表,会議などが高頻度で出現
8 格フレームの異なり数 格フレーム数 145337 170274 頻度 明らかにする ことができる ことになる ことになる
ことを決める ものとする 容疑で逮捕する ことがある 明らかになる 必要がある 上位10位 罪に問う ようになる 方針を固める ようにする 会を開く 日から施行する 性がある 場合がある ことが分かる 目的とする 新聞( 21MB) Web( 21MB ) Web コーパスには,一般的なものが多い
8 料理に関する格フレームの調査 •皿に盛る ... 軽く塩コショーして皿に盛る •薄切りにする ... レモンは、薄切りにする。 •ふたをする ...
布巾をかけてふたをして、 ... •水をきる ... 水をきって裏ごしする。 雑誌レシピ中の格フレーム18件を対象 新聞(21 MB ) → 0件検出 Web (21 MB ) → 7件24例 検出 検出例
9 提案手法の有効性(単語数への影響) 未知語 51% 未知語 35% 適用前 適用後 約 10
万5千語 約9万7千語 未知語が減っている 名詞,動詞,形容詞以外の品詞の割合が格段に上昇
9 提案手法の有効性(単語数への影響) Web Ao 0 50000 100000 未知語 未知語
実質的に,単語数が増加している Web Ao : Web A と同じ情報源よりタグ除去のみを施したもの 同一規模,これを手法の適用前とする Web A
9 提案手法の有効性(格フレーム) 150000 単語と同様に同一規模で格フレーム数の変化を調査 適用後は, 14 万件(およそ6倍)多く検出 Web Ao Web
A 0 50000 100000
10 まとめ ➔Web は新聞よりも良好な言語情報である •実質単語数が増加 •格フレームの異なり数が増加 •低頻度の格フレームにおいても有用なものを獲得 ➔提案手法によって, しており,本手法で質が向上していることを実験で確認した.
コーパスの汎用性 Web A : リンク集 → 47.57% Web B : 健康に関する情報サイト → 47.60%
Web C : 首相官邸 → 44.85% 0 50 100 自然 性状 変動 行動 心情 人物 性向 社会 学芸 物品 Web A Web B Web C
None