Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンス11_前処理.pdf

 データサイエンス11_前処理.pdf

More Decks by 自然言語処理研究室

Other Decks in Education

Transcript

  1. テキストデータの種類  Webクローリングテキスト  URLを限定せず、無差別大量にほしい時  新聞記事  公開テキスト 

    Twitter、各種クチコミなど  流行が知りたい、自社製品の評判を知りたい等  非公開テキスト(組織内文書)  日報、アンケート、カルテ、文献
  2. ジップの法則 (Zipf’s law)  出現頻度が k 番目に大きい要素が全体に占める割合が 1/k に比例する という経験則

     すなわち、どのような単語統計を取っても、極めて少数の単語が高頻度で あり、多数の単語は低頻度である。  言語統計だけの性質でなく、アクセス頻度、人口、収入など様々な社会現 象において概ねこの性質が成立することが確認されている。  テキストデータの解析は(概要把握だけなら)易しく、(全容把握は)難しい。
  3. テキスト処理以前の前処理  データのスケーリング  例えばX軸とY軸の2次元空間を考えるとき、数値が X >>> Y である とY軸の影響はほとんどない。

     データのシャッフル  多くの場合データの整列順には何らかの偏りがある(つまり何らかのソートが されている)。この先頭Nサンプルで訓練や評価を行っても偏るのは当然で ある。  ノイズの除去  何らかの方法で予めノイズの除去が可能であればクリーニングを行う。
  4. テキストの整形とクリーニング  文字コード  JIS、シフトJIS、EUC-JP、Unicode(UTF-8、UTF-16)  今ならUTF-8に統一するのが現実的  改行コード 

    CRLF(Windows)、CR(Mac OS)、LF(Linux)  (入手時の環境ではなく)開発環境に揃えるべき  (HTMLテキスト等に対する)タグの除去
  5. おまけ:絵文字のお話  2000年ごろから、日本のケータイ3社が勝手に拡張する  2007年 Googleが絵文字の開発を開始  2008年 ソフトバングがiPhone 3Gを発売、絵文字が搭載。

     2010年 Unicode 6.0 で絵文字が採用 つまり、  日本発祥の(ケータイ)絵文字が世界標準になった  ただし採用される絵文字は同一ではない  絵文字の普及と同時に Unicode が世界に普及した
  6. Unicode の文字統一  Unicode には結合文字列(Combining Characters) という概念があり、連 続する二つの文字コードの合成によって1文字を表現することができる。  日本語の濁点・半濁点など

     この結果、例えば「だ」という文字は、全く同一の文字でありながら  「た」+(濁点)  「だ」 の2種類の文字コードが存在することになる。  これは検索など様々な処理において非常に面倒。よって統一する必要がある。  NFKC(Normalization Form KC)正規化
  7. 表記ゆれ 特に日本語には、様々な表記ゆれ (多様な表現)が存在する。  文字種  「りんご」と「リンゴ」と「林檎」  旧漢字 

    「付属」と「附属」  「竜馬」と「龍馬」  部分的なひらがな化  「改ざん」と「改竄」  送りがなの異なり  「受け付ける」と「受付ける」  外来語  「コンピュータ」と「コンピューター」  「バイオリン」と「ヴァイオリン」  口語的表現  「~ている」と「~てる」  「すばしっこい」と「すばしこい」