B3 コアタイム第3回目 ( 2014年11月28日(金) )

「入門自然言語処理」 2章：テキストコーパスと語彙資源へのアクセス B3 三上侑城

もくじ •テキストコーパスへのアクセス •条件付き頻度分布 •語彙資源 •WordNet

テキストコーパスへのアクセス •テキストコーパスとは？ →様々なテキストが入っているテキスト集 →本、チャットの会話、台本、レビューなどがある ※研究でコーパスを用いる際には、そのサイズと種類（どのぐらいの文量でどのような話か）を明示する。

テキストコーパスへのアクセス・入っている電子書籍を見てみる >>>import nltk >>> nltk.corpus.gutenberg.fileids() ※ファイルは以下のディレクトリにある /home/UserName/nltk_data/corpora/gutenberg

テキストコーパスへのアクセス・電子書籍を読み出す >>>emma = nltk.corpus.gutenberg.words('austen-emma.txt') ・単語数を調べる >>>len(emma)

テキストコーパスへのアクセス・前回のtext読み出し&検索 >>>from nltk.book import * >>>text1.concordance("test") ・今回のtext読み出し&検索 >>>emma =
nltk.Text(nltk.corpus.gutenberg.words (‘austen-emma.txt’)) >>>emma.concordance('surprize')

テキストコーパスへのアクセスしかし、こんなに長い名前を毎回タイプするのは面倒くさいし大変….. もっと短く書く方法がある >>>from nltk.corpus import gutenberg >>>gutenberg.fileids() #テキスト一覧表示
>>>emma = gutenberg.words('austen-emma.txt')

テキストコーパスへのアクセス・Webテキストを読み出す >>>from nltk.corpus import webtext >>>for fileid in webtext.fileids
(): ．．． print fileid, webtext.raw(fileid)[:65], ’...’ ．．．・チャットを読み出す上記の”webtext”全てを”nps_chat”に変更

テキストコーパスへのアクセス・ブラウンコーパス一番古い電子コーパスで様々なジャンルのものが入っている（教科書P45の表2-1参照） >>>from nltk.corpus import brown >>>brown.categories() >>>brown.words(categories='news')
>>>brown.words(fileids=['ca16']) ※例 ID:A16 , ファイル:ca16 , ジャンル:ニュース

テキストコーパスへのアクセス・ロイターコーパスニュース関連の文章が収録 >>>from nltk.corpus import reuters >>>reuters.fileids() >>>reuters.categories()

テキストコーパスへのアクセス・就任演説コーパス大統領の就任演説が収録 >>> from nltk.corpus import inaugural >>>inaugural.fileids() ※ここでは先頭４文字が年号なことを利用し、年号
の情報のみを受け取ってみる。 >>>[fileid[:4] for fileid in inaugural.fileids()]

テキストコーパスへのアクセス・他の言語のコーパス他の言語を使用するには文字コーディングが必要となる。第3章でその説明がある。・独自コーパス自分自身が用意したコーパスも使用可能。方法は教科書P53-54を参考。

条件付き頻度分布・条件と事象をペアにして処理を行う。形式：（条件(ジャンル) , 事象(単語)） >>>from nltk.corpus import brown >>>genre_word
= [(genre,word) ．．． for genre in ['news','romance'] ．．． for word in brown.words(categories=genre)] >>>len(genre_word)

条件付き頻度分布・ペアになっていること確認 >>>genre_word[:4] #最初の４つのペア >>>genre_word[-4:] #最後の4つのペア

条件付き頻度分布・ジャンルごとに単語を調べる ConditionalFreqDist：ペアから度数分布を生成する >>>cfd = nltk.ConditionalFreqDist(genre_word) >>>cfd >>>cfd.conditions() #条件リスト >>>cfd[‘news’]
#newsの条件での分布 >>>cfd['romance'] >>>list(cfd['romance']) ※教科書P59表2-4に各詳細説目あり

語彙資源・語彙リストコーパス一般的に使われる語彙を集めたコーパススペルミスや一般的でない単語を発見することによく使用される。

語彙資源・テキストのフィルタリング関数の作成 >>>def unusual_words(text): ．．． text_vocab = set(w.lower() for
w in text if w.isalpha()) ．．． english_vocab = set(w.lower() for w in nltk.corpus.words.words()) ．．． unusual = text_vocab.difference(english_vocab) ．．． return sorted(unusual) ※x.lower()：小文字にする , x.isalpha()：アルファベットか判断 x.difference()：差分のみを取り出す

語彙資源・テキストのフィルタリング例として以下のテキストを使用する主に一般的ではないワードを探す >>>unusual_words(nltk.corpus.gutenberg.words ('austen-sense.txt')) 主にネット上で使われるワードを探す >>>unusual_words(nltk.corpus.nps_chat.words())

語彙資源・テキストのフィルタリング the , to , alsoなど頻度が高い単語のコーパスもある(ストップワード) >>>from nltk.corpus
import stopwords >>>stopwords.words('english')

WordNet ・WordNetとは意味により整列された辞書例「motorcar」 , 「automobile」は意味が同じ。つまりこれらは同義語である。

WordNet ・本当に同義語か確かめてみる >>>from nltk.corpus import wordnet as wn >>>wn.synsets('motorcar') ※「motorcar」がどこに属しているか示される
>>>wn.synset('car.n.01').lemma_names() ※ここに属しているものが見える >>>wn.synset('car.n.01').definition() >>>wn.synset('car.n.01').examples()

WordNet ・WordNetの階層構造 WordNetは概念として、階層構造を想像できる。 ※概念図は教科書P73図2-8を参照

今回の最低限理解して欲しい事 • テキストコーパス＝構造化されたテキスト集 • 各ジャンルやトピックに別れて用意してある • 関数(メソッド)は『オブジェクト名.メソッド名(送り値)』
で呼び出すことができる例：word.isalpha() , x.funct(y) など

B3 コアタイム第3回目 ( 2014年11月28日(金) )

B3 コアタイム第3回目 ( 2014年11月28日(金) )

MIKAMI-YUKI

More Decks by MIKAMI-YUKI

Other Decks in Education

Featured

Transcript

「入門自然言語処理」 2章：テキストコーパスと語彙資源へのアクセス B3 三上侑城

もくじ •テキストコーパスへのアクセス •条件付き頻度分布 •語彙資源 •WordNet

テキストコーパスへのアクセス・入っている電子書籍を見てみる >>>import nltk >>> nltk.corpus.gutenberg.fileids() ※ファイルは以下のディレクトリにある /home/UserName/nltk_data/corpora/gutenberg

テキストコーパスへのアクセス・電子書籍を読み出す >>>emma = nltk.corpus.gutenberg.words('austen-emma.txt') ・単語数を調べる >>>len(emma)

テキストコーパスへのアクセス・前回のtext読み出し&検索 >>>from nltk.book import * >>>text1.concordance("test") ・今回のtext読み出し&検索 >>>emma =

テキストコーパスへのアクセスしかし、こんなに長い名前を毎回タイプするのは面倒くさいし大変….. もっと短く書く方法がある >>>from nltk.corpus import gutenberg >>>gutenberg.fileids() #テキスト一覧表示

テキストコーパスへのアクセス・Webテキストを読み出す >>>from nltk.corpus import webtext >>>for fileid in webtext.fileids

テキストコーパスへのアクセス・ブラウンコーパス一番古い電子コーパスで様々なジャンルのものが入っている（教科書P45の表2-1参照） >>>from nltk.corpus import brown >>>brown.categories() >>>brown.words(categories='news')

テキストコーパスへのアクセス・ロイターコーパスニュース関連の文章が収録 >>>from nltk.corpus import reuters >>>reuters.fileids() >>>reuters.categories()

テキストコーパスへのアクセス・就任演説コーパス大統領の就任演説が収録 >>> from nltk.corpus import inaugural >>>inaugural.fileids() ※ここでは先頭４文字が年号なことを利用し、年号

テキストコーパスへのアクセス・他の言語のコーパス他の言語を使用するには文字コーディングが必要となる。第3章でその説明がある。・独自コーパス自分自身が用意したコーパスも使用可能。方法は教科書P53-54を参考。

条件付き頻度分布・条件と事象をペアにして処理を行う。形式：（条件(ジャンル) , 事象(単語)） >>>from nltk.corpus import brown >>>genre_word

条件付き頻度分布・ペアになっていること確認 >>>genre_word[:4] #最初の４つのペア >>>genre_word[-4:] #最後の4つのペア

条件付き頻度分布・ジャンルごとに単語を調べる ConditionalFreqDist：ペアから度数分布を生成する >>>cfd = nltk.ConditionalFreqDist(genre_word) >>>cfd >>>cfd.conditions() #条件リスト >>>cfd[‘news’]

語彙資源・語彙リストコーパス一般的に使われる語彙を集めたコーパススペルミスや一般的でない単語を発見することによく使用される。

語彙資源・テキストのフィルタリング関数の作成 >>>def unusual_words(text): ．．． text_vocab = set(w.lower() for

語彙資源・テキストのフィルタリング the , to , alsoなど頻度が高い単語のコーパスもある(ストップワード) >>>from nltk.corpus

WordNet ・WordNetとは意味により整列された辞書例「motorcar」 , 「automobile」は意味が同じ。つまりこれらは同義語である。

WordNet ・本当に同義語か確かめてみる >>>from nltk.corpus import wordnet as wn >>>wn.synsets('motorcar') ※「motorcar」がどこに属しているか示される

WordNet ・WordNetの階層構造 WordNetは概念として、階層構造を想像できる。 ※概念図は教科書P73図2-8を参照

今回の最低限理解して欲しい事 • テキストコーパス＝構造化されたテキスト集 • 各ジャンルやトピックに別れて用意してある • 関数(メソッド)は『オブジェクト名.メソッド名(送り値)』

B3 コアタイム 第3回目 ( 2014年11月28日(金) )

B3 コアタイム 第3回目 ( 2014年11月28日(金) )

More Decks by MIKAMI-YUKI

Other Decks in Education

Featured

Transcript

B3 コアタイム第3回目 ( 2014年11月28日(金) )

B3 コアタイム第3回目 ( 2014年11月28日(金) )