Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Webコーパスの提案
Search
自然言語処理研究室
September 30, 2003
Research
1
120
Webコーパスの提案
関口 洋一, 山本 和英. Webコーパスの提案. 情報処理学会 研究報告, NL157-17 / FI72-17, pp.123-130 (2003.9)
自然言語処理研究室
September 30, 2003
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
【輪講資料】Moshi: a speech-text foundation model for real-time dialogue
hpprc
3
820
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
440
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
180
離散凸解析に基づく予測付き離散最適化手法 (IBIS '25)
taihei_oki
PRO
1
620
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
270
VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs
satai
4
490
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
710
多言語カスタマーインタビューの“壁”を越える~PMと生成AIの共創~ 株式会社ジグザグ 松野 亘
watarumatsuno
0
170
財務諸表監査のための逐次検定
masakat0
0
210
音声感情認識技術の進展と展望
nagase
0
390
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
studio_graph
2
990
大学見本市2025 JSTさきがけ事業セミナー「顔の見えないセンシング技術:多様なセンサにもとづく個人情報に配慮した人物状態推定」
miso2024
0
190
Featured
See All Featured
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
720
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
The Cult of Friendly URLs
andyhume
79
6.7k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
710
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
For a Future-Friendly Web
brad_frost
180
10k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Producing Creativity
orderedlist
PRO
348
40k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
36
6.2k
Balancing Empowerment & Direction
lara
5
790
Java REST API Framework Comparison - PWX 2021
mraible
34
9k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Transcript
Web コーパスの提案 長岡技術科学大学 電気系 関口 洋一 山本 和英 http://nlp.nagaokaut.ac.jp/
1 研究の背景 主に研究利用されているコーパスは,新聞記事 昨年度の年次大会では, コーパスを用いた研究のうち 40% が新聞記事 しかし,新聞コーパスは 量が限定的
用例の種類が限定的
2 研究目的 Webテキスト は 無限 に存在 新聞コーパスでは物足りない → Web テキストに着目 Web
テキストの問題点は? ✗崩れた文体が多い ✗記号の乱用 ✗文の切断 ...etc... } コーパスの質
3 関連研究 コーパスを構築に関する研究 Rosie Jones ら ( ACL2000 ) Constantin
Orasan ら ( LREC2000 ) Web から単一言語(タガログ語)のコーパスを構築 コーパス構築支援ツールの作成 どちらも Web をそのまま用いている 質の高いコーパスを構築したい
4 コーパスの質 「質」を見る上での2つの視点 ➢文の内容を考慮した内面的な質 ➢表層表現のみを考慮した外面的な質 構築したコーパスのすべてが,利用されることが望ましい 即ち, 密度の高いコーパス の構築が目標
コーパスの構築手順
5 コーパスの構築 • URL リストの作成 • Web ページの取得 • 整形処理
• 外面的質に関する処理 • 後処理 • 内面的質に関する処理
5 コーパスの構築( URL リストの作成) 任意のページから URL を再帰的に収集する コーパスの質に直接関係するため,条件を付与 条件 国ドメインが日本(
.jp )であること htm または, html の拡張子であること 文字コードが日本語と定義されていること 同一ドメインからの取得が 100 ページ以内であること
5 コーパスの構築( Web ページの取得) 一般的な方法でページを自動取得 • 簡単なスクリプトを書く • 既存のソフトを使用する
5 コーパスの構築(整形処理) •HTML タグ除去 ※ 外面的質に関する処理に用いるタグは残す •改行 / 空白 除去
タグ除去により現れた不要な改行 / 空白を除去
5 外面的質に関する処理 1)完全一致文の削除 2)文の特定 3)字面比の考慮 4)引用記号の対処
5 後処理 文末に句点を含む行 URLやE−Mailアドレスを含まない行 1行あたりが150文字以内の行 抽出対象 •外面的質の処理だけでは,不完全な場合がある •内面的質の作業効率を上げるため 以下の行を抽出対象とする
5 内面的質に関する処理 1)崩れた文体の削除 2)雛形表現の削除 3)顔文字等の削除
外面的質に関する処理
6 完全一致文の削除 重複して出現した文の削除 (例) 画像の(タグ内の)説明部と本文の一致 広告 引用文 引用文 : 引用記号を削除した上で上記処理 (例) >
わたしもそう思います。 引用記号: > $ # > $ #
6 文の特定 HTML タグが本来の使用法どおりではない どこまでが1文かを判定する処理が必要 句点(。) + <br>
句点(。) + </**> {?!)>♪} + <br> <li> パターン
6 字面比による文の削除 字面比とは,文字種の使用割合のこと 720×486/59.94i 、 720×480/59.94i をサポートしています。 Anthropology resource son
the Internet から。 (^◇^)ノ」とのお答えでした。 ★★★★★ 腰痛こんにゃくゼリー。 数字 > 40% 英字 > 40% 一般記号 > 30% 特殊記号 > 20% 削除例 文字種の偏った文は不自然
内面的質に関する処理
7 極端に崩れた文の削除 条件にあった文を削除 ん゛あーーーーーーーーーーーーーーーーーーーーー。 「もーーーーやだーーーーーー!!」 映っててんよ☆★☆いやーーーーんモォ。 ぴよぴよだけで反応してしまう〜〜〜〜〜〜 •「〜」が 3 つ以上連続
•「−」が3つ以上連続 •「っ」が2つ以上連続 •「?」や「!」が行末で3つ以上連続 削除例
7 雛形表現の削除 Web 独特の表現パターンを削除 •「フレーム対応」表現 •都道府県名の連続表現 •値段表現の連続 •日付表現の連続 削除例 このページをご覧いただくにはフレーム対応のブラウザが必要です。
北海道青森県岩手県秋田県宮城県山形県福島県… 3500 円 7200 円 平成13年8月15日 平成13年10月20日 特に多く見られる例として以下の4つに対処
7 顔文字等の削除 文としては意味をなさない記号を削除 • (^^) (^-^) (^o^) / など23種は,それを含む文を削除 •
( 笑 ) ( 苦笑 ) ( 涙 ) など52種は,対応箇所を削除 削除例 楽しんで下さい (^^) 。 お年玉をもらい、シェンムーカッチャッタ ( ^ - ^ ) アハッ。 あーもう、また行きたくなってしまったよ ( 笑 ) 。 書いたものが完全に闇に消えました ( 泣 ) 。
評価実験
8 構築実験 Web コーパス A リンク集のページから再帰的に URL を取得 [http://www.webring.ne.jp/] HTML
ファイル → 提案手法適用後 3505 MB 223 MB 新聞コーパス一年分と同規模(21 MB )にするため, 223 MB の中から,ランダムに行を抽出
8 提案手法により削除できた文の数 処理 削除の要素 削除できた文の数 外面的質 完全一致文 51691 19.7 同一ページ
14878 5.7 字面比 4937 1.9 内面的質 感情表現文字 3003 1.1 フレーム対応表現 2582 0.9 極端に崩れた文 2214 0.8 顔文字 1736 0.7 割合 [%]
8 コーパスのサイズと単語数変化 同一サイズでは,新聞よりも Web の方が優位
8 シソーラスによる単語の偏り調査 Web コーパスには,分類の偏りがない 新聞には,発表 , 代表,会議などが高頻度で出現
8 格フレームの異なり数 格フレーム数 145337 170274 頻度 明らかにする ことができる ことになる ことになる
ことを決める ものとする 容疑で逮捕する ことがある 明らかになる 必要がある 上位10位 罪に問う ようになる 方針を固める ようにする 会を開く 日から施行する 性がある 場合がある ことが分かる 目的とする 新聞( 21MB) Web( 21MB ) Web コーパスには,一般的なものが多い
8 料理に関する格フレームの調査 •皿に盛る ... 軽く塩コショーして皿に盛る •薄切りにする ... レモンは、薄切りにする。 •ふたをする ...
布巾をかけてふたをして、 ... •水をきる ... 水をきって裏ごしする。 雑誌レシピ中の格フレーム18件を対象 新聞(21 MB ) → 0件検出 Web (21 MB ) → 7件24例 検出 検出例
9 提案手法の有効性(単語数への影響) 未知語 51% 未知語 35% 適用前 適用後 約 10
万5千語 約9万7千語 未知語が減っている 名詞,動詞,形容詞以外の品詞の割合が格段に上昇
9 提案手法の有効性(単語数への影響) Web Ao 0 50000 100000 未知語 未知語
実質的に,単語数が増加している Web Ao : Web A と同じ情報源よりタグ除去のみを施したもの 同一規模,これを手法の適用前とする Web A
9 提案手法の有効性(格フレーム) 150000 単語と同様に同一規模で格フレーム数の変化を調査 適用後は, 14 万件(およそ6倍)多く検出 Web Ao Web
A 0 50000 100000
10 まとめ ➔Web は新聞よりも良好な言語情報である •実質単語数が増加 •格フレームの異なり数が増加 •低頻度の格フレームにおいても有用なものを獲得 ➔提案手法によって, しており,本手法で質が向上していることを実験で確認した.
コーパスの汎用性 Web A : リンク集 → 47.57% Web B : 健康に関する情報サイト → 47.60%
Web C : 首相官邸 → 44.85% 0 50 100 自然 性状 変動 行動 心情 人物 性向 社会 学芸 物品 Web A Web B Web C
None