Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
R言語で「言語処理100本ノック 2020」/ NLP100 Rlang
Search
Shotaro Ishihara
May 17, 2020
Technology
0
2.3k
R言語で「言語処理100本ノック 2020」/ NLP100 Rlang
第85回R勉強会@東京(#TokyoR)でのLT資料
https://tokyor.connpass.com/event/176318/
Shotaro Ishihara
May 17, 2020
Tweet
Share
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
Web からのデータ収集と探究事例の紹介 / no94_jsai_seminar
upura
0
110
記者・編集者との協働:情報技術が変えるニュースメディア / Kaishi PU 2024
upura
0
68
ニュースメディアにおける生成 AI の活用と開発 / UTokyo Lecture Business Introduction
upura
0
230
マルチモーダル AI 実装の課題と解決策 / Developer X Summit
upura
0
270
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
810
「巨人の肩の上」で自作ライブラリを作る技術 / pyconjp2024
upura
3
980
Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper
upura
0
65
第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps Book Chapter 11
upura
0
500
第19回YANSシンポジウムスポンサー資料 / yans2024-nikkei
upura
0
71
Other Decks in Technology
See All in Technology
Swiftの “private” を テストする / Testing Swift "private"
yutailang0119
0
130
利用終了したドメイン名の最強終活〜観測環境を育てて、分析・供養している件〜 / The Ultimate End-of-Life Preparation for Discontinued Domain Names
nttcom
2
200
インフラをつくるとはどういうことなのか、 あるいはPlatform Engineeringについて
nwiizo
5
2.6k
SA Night #2 FinatextのSA思想/SA Night #2 Finatext session
satoshiimai
1
140
プロダクトエンジニア構想を立ち上げ、プロダクト志向な組織への成長を続けている話 / grow into a product-oriented organization
hiro_torii
1
230
OpenID Connect for Identity Assurance の概要と翻訳版のご紹介 / 20250219-BizDay17-OIDC4IDA-Intro
oidfj
0
280
リーダブルテストコード 〜メンテナンスしやすい テストコードを作成する方法を考える〜 #DevSumi #DevSumiB / Readable test code
nihonbuson
11
7.4k
現場で役立つAPIデザイン
nagix
34
12k
Cloud Spanner 導入で実現した快適な開発と運用について
colopl
1
740
人はなぜISUCONに夢中になるのか
kakehashi
PRO
6
1.7k
Data-centric AI入門第6章:Data-centric AIの実践例
x_ttyszk
1
410
Goで作って学ぶWebSocket
ryuichi1208
3
1.7k
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
GraphQLとの向き合い方2022年版
quramy
44
13k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Rails Girls Zürich Keynote
gr2m
94
13k
KATA
mclloyd
29
14k
Producing Creativity
orderedlist
PRO
344
39k
Navigating Team Friction
lara
183
15k
YesSQL, Process and Tooling at Scale
rocio
172
14k
Gamification - CAS2011
davidbonilla
80
5.1k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
4
410
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
9
450
Transcript
R⾔語で「⾔語処理100本 ノック 2020」 u++ (@upura0) 第85回R勉強会@東京(#TokyoR) 2020年5⽉23⽇ 1
概要 4⽉に公開された「⾔語処理100本ノック 2020」の紹介 . 2015年からの5年ぶりの改訂の変更点は? . R⾔語で解いてみる $ whoamai Name:
u++ Job: Data Scientist Interest: Kaggle, NLP https://github.com/upura/nlp100v2020 2
⾔語処理100本ノック 東北⼤の乾・鈴⽊研が公開している⾔語処理研究の⼊⾨者向け教材 https://nlp100.github.io/ja/ 3
お品書き 第1章: 準備運動 第2章: UNIXコマンド 第3章: 正規表現 第4章: 形態素解析 第5章:
係り受け解析 第6章: 機械学習 第7章: 単語ベクトル 第8章: ニューラルネット 第9章: RNN,CNN 第10章: 機械翻訳 4
改訂の変更点 深層ニューラルネットワークに関する問題を追加 多⾔語対応 英語版の公開(39番まで翻訳完了) 旧第6章(英語テキストの処理)を英語版に移動 https://nlp100.github.io/ja/about.html 5
内容の⽐較 章 2020年版 2015年版との差異 1 準備運動 - 2 UNIXコマンド -
3 正規表現 - 4 形態素解析 - 5 係り受け解析 - 6
章 2020年版 2015年版との差異 6 機械学習 第8章から移動 7 単語ベクトル 第9, 10章から移動
8 ニューラルネット 9 RNN,CNN 10 機械翻訳 https://qiita.com/hi-asano/items/3c17943ce06f9999ec6f 7
所感 2018年に「BERT」が登場するなど、近年の⾔語処理を語る 上で⽋かせない深層ニューラルネットワークの問題を新設 ⼀⽅でニューラルネットの実装や計算量の都合で、R⾔語だと 厳しそうな場⾯も・・・ 8
R⾔語で解いてみる https://nlp100.github.io/ja/ch01.html 9
おわりに 4⽉に公開された「⾔語処理100本ノック 2020」の紹介 . 2015年からの5年ぶりの改訂の変更点は? . R⾔語で解いてみる https://www.kaggle.com/sishihara/nlp100-rlang-sample 10