Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 コアタイム 第6回目 ( 2014年12月09日(火) )
Search
MIKAMI-YUKI
December 08, 2014
Education
0
160
B3 コアタイム 第6回目 ( 2014年12月09日(火) )
MIKAMI-YUKI
December 08, 2014
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
330
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
99
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
2025年度春学期 統計学 第15回 分布についての仮説を検証する ー 仮説検定(2) (2025. 7. 17)
akiraasano
PRO
0
120
ARアプリを活用した防災まち歩きデータ作成ハンズオン
nro2daisuke
0
190
附属科学技術高等学校の概要|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
1.3k
小学校女性教員向け プログラミング教育研修プログラム「SteP」の実践と課題
codeforeveryone
0
140
HCI and Interaction Design - Lecture 2 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.3k
RSJ2025 ランチョンセミナー 一歩ずつ世界へ:学生・若手研究者のための等身大の国際化の始め方
t_inamura
0
320
Презентация "Знаю Россию"
spilsart
0
270
質のよいアウトプットをできるようになるために~「読む・聞く、まとめる、言葉にする」を読んで~
amarelo_n24
0
270
Test-NUTMEG紹介スライド
mugiiicha
0
230
Introduction - Lecture 1 - Web Technologies (1019888BNR)
signer
PRO
0
5.7k
みんなのコードD&I推進レポート2025 テクノロジー分野のジェンダーギャップとその取り組みについて
codeforeveryone
0
290
日本の情報系社会人院生のリアル -JAIST 修士編-
yurikomium
1
130
Featured
See All Featured
For a Future-Friendly Web
brad_frost
180
10k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
GraphQLとの向き合い方2022年版
quramy
49
14k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
The Pragmatic Product Professional
lauravandoore
36
6.9k
Facilitating Awesome Meetings
lara
56
6.6k
The Cult of Friendly URLs
andyhume
79
6.6k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Making Projects Easy
brettharned
120
6.4k
Thoughts on Productivity
jonyablonski
70
4.9k
Building Flexible Design Systems
yeseniaperezcruz
329
39k
Git: the NoSQL Database
bkeepers
PRO
431
66k
Transcript
「入門 自然言語処理」 5章:単語の分類とタグ付け B3 三上侑城
もくじ •タガーの利用 •タグ付きコーパス •ディクショナリ(重要) •自動タグ付け •Nグラムタグ付け
タガーの利用 ・品詞タガー それぞれの単語に品詞のタグを付ける。 >>> text = nltk.word_tokenize(“And now for something
completely different") >>> nltk.pos_tag(text)
タガーの利用 ここで出てくる分類名の意味 詳細は以下のようにタグを指定する。 >>> nltk.help.upenn_tagset(’CC’) 分類名 意味 CC 等位接続詞 RB
副詞 IN 前置詞 NN 名詞 JJ 形容詞
タグ付きコーパス ・str2suple() タグ付きトークンに変換 >>> tagged_token = nltk.tag.str2tuple('fly/NN') >>> tagged_token >>>
tagged_token[0] >>> tagged_token[1]
タグ付きコーパス ・タグ付きコーパスを読み込む NLTKにはタグ付きのサンプルがある。 例 >>> nltk.corpus.brown.tagged_words() >>> nltk.corpus.nps_chat.tagged_words()
ディクショナリ(P204~) ・ディクショナリ型と呼ばれるデータ型 ・リストには整数の添字を使ってアクセス ・マップ、ハッシュ、ハッシュマップとも 呼ばれる
ディクショナリ >>> pos = {} >>> pos >>> pos['colorless'] =
'ADJ' >>> pos >>> pos['ideas'] = 'N' >>> pos['sleep'] = 'V' >>> pos['furiously'] = 'ADV' >>> pos
ディクショナリ ・キー指定で値を得る >>> pos['ideas'] >>>pos['colorless'] ・ないものはエラーが出る。 >>>pos['green']
ディクショナリ ・リストに変換 >>> list(pos) ・キーを整列させる >>> sorted(pos)
ディクショナリ ・最後にsがつくものを探す >>> [w for w in pos if w.endswith('s')]
・ディクショナリの中身を全て表示 >>> for word in sorted(pos): ... print word + ":", pos[word]
ディクショナリ ・キーの一覧メソッド >>> pos.keys() ・値の一覧メソッド >>> pos.values() ・ペアの一覧メソッド >>> pos.items()
ディクショナリ ・ディクショナリを定義 >>> pos = {'colorless':'ADJ','ideas':'N','sleep' :'V','furiously':'ADV'}
ディクショナリ ・デフォルトディクショナリ 存在しないものにアクセス 通常→エラー デフォルトディクショナリ→自動生成 nltk.defaultdict()を使用する
ディクショナリ ・デフォルトディクショナリ 整数型の場合 >>> freq1 = {} >>> freq1['colorless'] =
4 >>> freq1['ideas'] #エラーが出る >>> freq2 = nltk.defaultdict(int) >>> freq2['colorless'] = 4 >>> freq2[‘ideas’] #エラーは出ない
ディクショナリ ・デフォルトディクショナリ リスト型の場合 >>> pos1 = {} >>> pos1['sleep'] =
['N','V'] >>> pos1['ideas'] #エラーが出る >>> pos2 = nltk.defaultdict(list) >>> pos2['sleep'] = ['N','V'] >>> pos2[‘ideas’] #エラーは出ない
ディクショナリ ・デフォルトディクショナリ デフォルト値の設定 >>> pos = nltk.defaultdict(lambda:'N') >>> pos['colorless'] =
'ADJ' >>> pos['blog'] #Nが自動的に入る >>> pos.items()
自動タグ付け ・テキストに自動的に品詞タグを付け てくれる。 ・様々なタガーがあり、それぞれに 特徴がある。 ・必要となった時に参照してもらい たい(P214~)
Nグラムタグ付け ・文脈を考慮してタグを付けてくれる ・いくつかのタガーを組み合わせて 使い、精度を高められる。 ・必要となった時に参照してもらい たい(P219~)