データサイエンス11_前処理.pdf

山本担当分(11回～15回)  第11回テキストデータと前処理  第12回機械学習、データの分類  第13回類似度、重要度、相関
 第14回推薦システムとシステム評価  第15回全体まとめと達成度確認テスト

今日の内容  テキストデータ  テキストマイニング  前処理  言語データの種類 
文字コード  ノイズ除去

Text data

テキストデータの種類  Webクローリングテキスト  URLを限定せず、無差別大量にほしい時  新聞記事  公開テキスト 
Twitter、各種クチコミなど  流行が知りたい、自社製品の評判を知りたい等  非公開テキスト(組織内文書)  日報、アンケート、カルテ、文献

ジップの法則 (Zipf’s law)  出現頻度が k 番目に大きい要素が全体に占める割合が 1/k に比例するという経験則
 すなわち、どのような単語統計を取っても、極めて少数の単語が高頻度であり、多数の単語は低頻度である。  言語統計だけの性質でなく、アクセス頻度、人口、収入など様々な社会現象において概ねこの性質が成立することが確認されている。  テキストデータの解析は(概要把握だけなら)易しく、(全容把握は)難しい。

https://ja.wikipedia.org/wiki/%E3%82%B8%E3%83%83%E3%83%97%E3%81%AE%E6%B3%95%E5%89%87#/media/File:Zipf_30wiki_en_labels.png

Text mining

テキストマイニング(text mining)  最近ではテキストアナリティックス(text analytics)とも呼ぶ。  大量のテキストを対象に何らかの有益な知見を得るための一連の作業  実際に行う作業は多岐にわたる 
データの分類・クラスタリング  情報抽出  情報可視化

データマイニングとの違い  対象とするデータが構造化データかどうかの違い  データマイニング：数値や◦×など、何らかの表形式になっているデータが分析対象  テキストマイニング：テキスト（自然言語文）が分析対象。これを自然言語処理を使って何らかの表形式に変換する処理が必要 
つまり、自然言語処理によって言語情報が何らかの表形式に変換できれば、以降で用いられる技術は同一。

preprocessing

前処理の重要性  データ処理は「きれいな」データが対象  しかし、実際のデータはきれいでないことがほとんど  特にテキストデータ（言語データ）は半端ないことが多い  目的とする処理をする以前に、データに対する前処理が必須

データサイエンスの現場において、その業務は「前処理」と呼ばれるデータの整形に90%以上の時間を費やすと言われています。「前処理」を効率よくこなすことで、予測モデルの構築やデータモデリングといった本来のデータサイエンス業務に時間を割くことができるわけです。

テキスト処理以前の前処理  データのスケーリング  例えばX軸とY軸の２次元空間を考えるとき、数値が X >>> Y であるとY軸の影響はほとんどない。
 データのシャッフル  多くの場合データの整列順には何らかの偏りがある(つまり何らかのソートがされている)。この先頭Nサンプルで訓練や評価を行っても偏るのは当然である。  ノイズの除去  何らかの方法で予めノイズの除去が可能であればクリーニングを行う。

テキストの整形とクリーニング  文字コード  JIS、シフトJIS、EUC-JP、Unicode(UTF-8、UTF-16)  今ならUTF-8に統一するのが現実的  改行コード 
CRLF(Windows)、CR(Mac OS)、LF(Linux)  (入手時の環境ではなく)開発環境に揃えるべき  （HTMLテキスト等に対する）タグの除去

おまけ：絵文字のお話  2000年ごろから、日本のケータイ３社が勝手に拡張する  2007年 Googleが絵文字の開発を開始  2008年ソフトバングがiPhone 3Gを発売、絵文字が搭載。
 2010年 Unicode 6.0 で絵文字が採用つまり、  日本発祥の(ケータイ)絵文字が世界標準になった  ただし採用される絵文字は同一ではない  絵文字の普及と同時に Unicode が世界に普及した

フォーマットの変換  １行を１単語とする  １行を１文とする  １行を１文書とする  これらは何をどう処理したいかによって選択する必要がある

単語分割  日本語の場合は、文字列を単語に分割する必要がある。  形態素解析  日本語の形態素解析器は下記の通り  JUMAN(老舗) /
JUMAN++ (改良版)  ChaSen  MeCab (最もよく使われる)  Sudachi

参考：Webで単語分割  http://reed.kuee.kyoto-u.ac.jp/nl-resource/cgi-bin/juman.cgi

http://chamame.ninjal.ac.jp/

参考：Webで単語分割  http://www.sofnec.co.jp/az-demo/cgi-bin/mecabtest.cgi

 https://tool.konisimple.net/text/hinshi_keitaiso

文字種の統一  全角文字と半角文字の統一  漢数字(一、ニ、三)と算用数字(1, 2, 3)の統一  記号の統一 
（年号の統一）：西暦と和暦

Unicode の文字統一  Unicode には結合文字列(Combining Characters) という概念があり、連続する二つの文字コードの合成によって１文字を表現することができる。  日本語の濁点・半濁点など
 この結果、例えば「だ」という文字は、全く同一の文字でありながら  「た」＋(濁点)  「だ」の２種類の文字コードが存在することになる。  これは検索など様々な処理において非常に面倒。よって統一する必要がある。  NFKC(Normalization Form KC)正規化

http://ar.nyx.link/unicode/#id.5.0.0

表記ゆれ特に日本語には、様々な表記ゆれ (多様な表現)が存在する。  文字種  「りんご」と「リンゴ」と「林檎」  旧漢字 
「付属」と「附属」  「竜馬」と「龍馬」  部分的なひらがな化  「改ざん」と「改竄」  送りがなの異なり  「受け付ける」と「受付ける」  外来語  「コンピュータ」と「コンピューター」  「バイオリン」と「ヴァイオリン」  口語的表現  「～ている」と「～てる」  「すばしっこい」と「すばしこい」

表記ゆれ（続き）  表記ゆれに対処できる自然言語処理ツールは存在しなかった。  より正確には、部分的にしか対応できていなかった。  2017年に Sudachi というツールが発表。 
ワークス徳島人工知能NLP研究所

https://www.slideshare.net/WorksApplications/ss-78025845

データサイエンス11_前処理.pdf

データサイエンス11_前処理.pdf

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Education

Featured

Transcript

山本担当分(11回～15回)  第11回テキストデータと前処理  第12回機械学習、データの分類  第13回類似度、重要度、相関

今日の内容  テキストデータ  テキストマイニング  前処理  言語データの種類 

Text data

テキストデータの種類  Webクローリングテキスト  URLを限定せず、無差別大量にほしい時  新聞記事  公開テキスト 

ジップの法則 (Zipf’s law)  出現頻度が k 番目に大きい要素が全体に占める割合が 1/k に比例するという経験則

https://ja.wikipedia.org/wiki/%E3%82%B8%E3%83%83%E3%83%97%E3%81%AE%E6%B3%95%E5%89%87#/media/File:Zipf_30wiki_en_labels.png

Text mining

テキストマイニング(text mining)  最近ではテキストアナリティックス(text analytics)とも呼ぶ。  大量のテキストを対象に何らかの有益な知見を得るための一連の作業  実際に行う作業は多岐にわたる 

preprocessing

テキスト処理以前の前処理  データのスケーリング  例えばX軸とY軸の２次元空間を考えるとき、数値が X >>> Y であるとY軸の影響はほとんどない。

テキストの整形とクリーニング  文字コード  JIS、シフトJIS、EUC-JP、Unicode(UTF-8、UTF-16)  今ならUTF-8に統一するのが現実的  改行コード 

おまけ：絵文字のお話  2000年ごろから、日本のケータイ３社が勝手に拡張する  2007年 Googleが絵文字の開発を開始  2008年ソフトバングがiPhone 3Gを発売、絵文字が搭載。

フォーマットの変換  １行を１単語とする  １行を１文とする  １行を１文書とする  これらは何をどう処理したいかによって選択する必要がある

単語分割  日本語の場合は、文字列を単語に分割する必要がある。  形態素解析  日本語の形態素解析器は下記の通り  JUMAN(老舗) /

参考：Webで単語分割  http://reed.kuee.kyoto-u.ac.jp/nl-resource/cgi-bin/juman.cgi

http://chamame.ninjal.ac.jp/

参考：Webで単語分割  http://www.sofnec.co.jp/az-demo/cgi-bin/mecabtest.cgi

 https://tool.konisimple.net/text/hinshi_keitaiso

文字種の統一  全角文字と半角文字の統一  漢数字(一、ニ、三)と算用数字(1, 2, 3)の統一  記号の統一 

Unicode の文字統一  Unicode には結合文字列(Combining Characters) という概念があり、連続する二つの文字コードの合成によって１文字を表現することができる。  日本語の濁点・半濁点など

http://ar.nyx.link/unicode/#id.5.0.0

表記ゆれ特に日本語には、様々な表記ゆれ (多様な表現)が存在する。  文字種  「りんご」と「リンゴ」と「林檎」  旧漢字 

表記ゆれ（続き）  表記ゆれに対処できる自然言語処理ツールは存在しなかった。  より正確には、部分的にしか対応できていなかった。  2017年に Sudachi というツールが発表。 

https://www.slideshare.net/WorksApplications/ss-78025845