Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Perlとテキストデータクリーニング@吉祥寺.pm18
Search
korenari
May 17, 2019
Technology
0
1.9k
Perlとテキストデータクリーニング@吉祥寺.pm18
korenari
May 17, 2019
Tweet
Share
More Decks by korenari
See All by korenari
なぜ私はPerlでコーディングするのか@吉祥寺.pm16
korenari
0
840
サーバレス日本語形態素解析エンジンとの格闘記録
korenari
0
2.1k
Other Decks in Technology
See All in Technology
LangSmith入門―トレース/評価/プロンプト管理などを担うLLMアプリ開発プラットフォーム
os1ma
3
310
IaCジェネレーターとBedrockで詳細設計書を生成してみた
tsukasa_ishimaru
1
280
サーバー間 GraphQL と webmock-graphql の話 / server-to-server graphql and webmock-graphql
qsona
2
190
障害対応をちょっとずつよくしていくための 演習の作りかた
heleeen
0
230
Python と Snowflake はズッ友だょ!~ Snowflake の Python 関連機能をふりかえる ~
__allllllllez__
1
120
ワールドカフェI /チューターを改良する / World Café I and Improving the Tutors
ks91
PRO
0
120
アクセス制御にまつわる改善 / Improving access control
itkq
0
550
エンジニアのキャリアをちょっと楽しくする3本の軸/Three Pillars to Make an Engineer's Career More Enjoyable
kwappa
0
2.7k
本当のAWS基礎
toru_kubota
0
520
オーナーシップを持つ領域を明確にする
konifar
13
3.2k
開発パフォーマンスを最大化するための開発体制
ham0215
2
430
推しは推せるときに推せ! プロダクトにフィードバックしていこう
nakasho
0
320
Featured
See All Featured
Gamification - CAS2011
davidbonilla
76
4.6k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
34
8.9k
How To Stay Up To Date on Web Technology
chriscoyier
782
250k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
6
1.5k
Documentation Writing (for coders)
carmenintech
60
3.9k
StorybookのUI Testing Handbookを読んだ
zakiyama
13
4.6k
Debugging Ruby Performance
tmm1
70
11k
No one is an island. Learnings from fostering a developers community.
thoeni
16
2.1k
The Pragmatic Product Professional
lauravandoore
25
5.8k
jQuery: Nuts, Bolts and Bling
dougneiner
59
7.1k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
125
32k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
40
4.4k
Transcript
1FSMͱ ςΩετσʔλΫϦʔχϯά # 2 978 1 0 . 5
ࣗݾհ N G G , , . , !,PSFOBSJ@%
΅͘ʹͱͬͯͷ1FSM •ࣗવݴޠॲཧʢ/-1ʣͷΞϨίϨͰ༻ Perl – 1998/11
ࣗવݴޠॲཧͷେσʔλΫϦʔχϯά ྫ 5XJUUFSͰΑ͘ݟΔϊΠζσʔλ • URL • <0@mentionhashtag52 etc. • &/=ãäé
• *6-,.8 • ?Unicode0: • /= #"& - - - ⁃ ˗ − ‒ – ~ ∼ ˜ ˷ ∽ ∾ ∿ @ (>% 1);.84+ FIT2016!#$ https://www.slideshare.net/yukiarase/fit2016-66043779 7'39
จࣈྻʹ͓͚Δ·͍͠ਖ਼نԽॲཧͷྫ •6OJDPEFਖ਼نԽ •ϋΠϑϯϚΠφεͬΆ͍จࣈΛஔ •Իه߸ͬΆ͍จࣈΛஔ •ճҎ্࿈ଓ͢ΔԻه߸ճʹஔ •༨ͳεϖʔεΛআ ʜ
https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja
6OJDPEFਖ਼نԽ Unicode http://nomenclator.la.coocan.jp/unicode/normalization.htm
ʢ༨ஊʣ.BD049ʹ͓͚Δ ϑΝΠϧ໊ʹؔ͢ΔϝϞ /'$ /'% http://www.sakito.com/2010/05/mac-os-x-normalization.html
ʢ༨ஊʣʮࠤʑʯ͞Μ͕ Ώ͏ͪΐ1BZʹొͰ͖ͳ͔ͬͨ https://togetter.com/li/1353302 https://twitter.com/straywalker/status/1126111132689682434
ʢ༨ஊʣʮࠤʑʯ͞Μ͕ Ώ͏ͪΐ1BZʹొͰ͖ͳ͔ͬͨ http://b.hatena.ne.jp/entry/s/www.itmedia.co.jp/news/articles/1905/09/news090.html
ςΩετσʔλͷલॲཧ ʢσʔλΫϦʔχϯάʣʹ จࣈίʔυͷࣝɾٕज़Λ शಘ͍ͯ͠Δͱྑͦ͞͏ [ ]
2018/12/28 https://www.amazon.co.jp/dp/4297102919/
1FSM741ZUIPO ʙ
ʙͰѹత1FSM
จࣈίʔυपΓͷྑهࣄʹଟ͍ • ͍͜ͳͦ͏Ϣχίʔυʢఃኍߦࢯʣ • http://nomenclator.la.coocan.jp/unicode/ • : 2008-01-14 •
QFSMͷ6OJDPEFαϙʔτʢѨลࢯʣ • http://www.lr.pi.titech.ac.jp/~abekawa/perl/perl_unicode.html • : 2006-03-16 • จࣈίʔυɺඪ४Խʹ͍ͭͯ • http://ash.jp/code/ • : 2002
1FSMͷςΩετॲཧଞݴޠΑΓྑهࣄ͕ଟ͍ • ۄੴࠞަͰݴ͏ͱ͜Ζͷੴ͕গͳ͍ • ॳΊͷڧ͍ΤϯδχΞͷղઆهࣄ͕ଟ͍ • Perl •
i • 1ZUIPO৭ʑ͋ͬͨ
ͱ͍͏Θ͚ͰࠓͷҰ۟ จࣈίʔυ 1FSMͰֶ ྑ͍͔Ͷ
ʢ༨ஊʣ1FSMϓϩ͔Βདྷͦ͏ͳ࣭ 2FODPEJOHϓϥάϚͱ͔ͦͬͪܥͷΛ ͢ΔͷͩͱࢥͬͯͨΜ͚ͩͲʁ "Ή͠Ζ୭͔ڭ͍͑ͯͩ͘͞ɻɻɻ 2όΠτҎ্ͷֆจࣈͱ͔ͦ͏͍͏ͷʁ "Ή͠Ζ୭͔ڭ͍͑ͯͩ͘͞ɻɻɻ