Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Perlとテキストデータクリーニング@吉祥寺.pm18
Search
korenari
May 17, 2019
Technology
0
2.1k
Perlとテキストデータクリーニング@吉祥寺.pm18
korenari
May 17, 2019
Tweet
Share
More Decks by korenari
See All by korenari
なぜ私はPerlでコーディングするのか@吉祥寺.pm16
korenari
0
990
サーバレス日本語形態素解析エンジンとの格闘記録
korenari
0
2.5k
Other Decks in Technology
See All in Technology
Shifting from MCP to Skills / ベストプラクティスの変遷を辿る
yamanoku
4
790
クラウド × シリコンの Mashup - AWS チップ開発で広がる AI 基盤の選択肢
htokoyo
2
180
モブプログラミング再入門 ー 基本から見直す、AI時代のチーム開発の選択肢 ー / A Re-introduction of Mob Programming
takaking22
5
1.3k
2026-03-11 JAWS-UG 茨城 #12 改めてALBを便利に使う
masasuzu
2
350
オレ達はAWS管理をやりたいんじゃない!開発の生産性を爆アゲしたいんだ!!
wkm2
4
490
Security Diaries of an Open Source IAM
ahus1
0
210
Claude Code のコード品質がばらつくので AI に品質保証させる仕組みを作った話 / A story about building a mechanism to have AI ensure quality, because the code quality from Claude Code was inconsistent
nrslib
13
5.9k
わたしがセキュアにAWSを使えるわけないじゃん、ムリムリ!(※ムリじゃなかった!?)
cmusudakeisuke
1
500
OCI技術資料 : コンピュート・サービス 概要
ocise
4
54k
マネージャー版 "提案のレベル" を上げる
konifar
22
15k
複数クラスタ運用と検索の高度化:ビズリーチにおけるElastic活用事例 / ElasticON Tokyo2026
visional_engineering_and_design
0
130
[JAWS DAYS 2026]私の AWS DevOps Agent 推しポイント
furuton
0
140
Featured
See All Featured
Fireside Chat
paigeccino
42
3.8k
Discover your Explorer Soul
emna__ayadi
2
1.1k
How to train your dragon (web standard)
notwaldorf
97
6.6k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.8k
4 Signs Your Business is Dying
shpigford
187
22k
GraphQLの誤解/rethinking-graphql
sonatard
75
11k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.5k
Prompt Engineering for Job Search
mfonobong
0
180
Making Projects Easy
brettharned
120
6.6k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
860
A Modern Web Designer's Workflow
chriscoyier
698
190k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
190
Transcript
1FSMͱ ςΩετσʔλΫϦʔχϯά # 2 978 1 0 . 5
ࣗݾհ N G G , , . , !,PSFOBSJ@%
΅͘ʹͱͬͯͷ1FSM •ࣗવݴޠॲཧʢ/-1ʣͷΞϨίϨͰ༻ Perl – 1998/11
ࣗવݴޠॲཧͷେσʔλΫϦʔχϯά ྫ 5XJUUFSͰΑ͘ݟΔϊΠζσʔλ • URL • <0@mentionhashtag52 etc. • &/=ãäé
• *6-,.8 • ?Unicode0: • /= #"& - - - ⁃ ˗ − ‒ – ~ ∼ ˜ ˷ ∽ ∾ ∿ @ (>% 1);.84+ FIT2016!#$ https://www.slideshare.net/yukiarase/fit2016-66043779 7'39
จࣈྻʹ͓͚Δ·͍͠ਖ਼نԽॲཧͷྫ •6OJDPEFਖ਼نԽ •ϋΠϑϯϚΠφεͬΆ͍จࣈΛஔ •Իه߸ͬΆ͍จࣈΛஔ •ճҎ্࿈ଓ͢ΔԻه߸ճʹஔ •༨ͳεϖʔεΛআ ʜ
https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja
6OJDPEFਖ਼نԽ Unicode http://nomenclator.la.coocan.jp/unicode/normalization.htm
ʢ༨ஊʣ.BD049ʹ͓͚Δ ϑΝΠϧ໊ʹؔ͢ΔϝϞ /'$ /'% http://www.sakito.com/2010/05/mac-os-x-normalization.html
ʢ༨ஊʣʮࠤʑʯ͞Μ͕ Ώ͏ͪΐ1BZʹొͰ͖ͳ͔ͬͨ https://togetter.com/li/1353302 https://twitter.com/straywalker/status/1126111132689682434
ʢ༨ஊʣʮࠤʑʯ͞Μ͕ Ώ͏ͪΐ1BZʹొͰ͖ͳ͔ͬͨ http://b.hatena.ne.jp/entry/s/www.itmedia.co.jp/news/articles/1905/09/news090.html
ςΩετσʔλͷલॲཧ ʢσʔλΫϦʔχϯάʣʹ จࣈίʔυͷࣝɾٕज़Λ शಘ͍ͯ͠Δͱྑͦ͞͏ [ ]
2018/12/28 https://www.amazon.co.jp/dp/4297102919/
1FSM741ZUIPO ʙ
ʙͰѹత1FSM
จࣈίʔυपΓͷྑهࣄʹଟ͍ • ͍͜ͳͦ͏Ϣχίʔυʢఃኍߦࢯʣ • http://nomenclator.la.coocan.jp/unicode/ • : 2008-01-14 •
QFSMͷ6OJDPEFαϙʔτʢѨลࢯʣ • http://www.lr.pi.titech.ac.jp/~abekawa/perl/perl_unicode.html • : 2006-03-16 • จࣈίʔυɺඪ४Խʹ͍ͭͯ • http://ash.jp/code/ • : 2002
1FSMͷςΩετॲཧଞݴޠΑΓྑهࣄ͕ଟ͍ • ۄੴࠞަͰݴ͏ͱ͜Ζͷੴ͕গͳ͍ • ॳΊͷڧ͍ΤϯδχΞͷղઆهࣄ͕ଟ͍ • Perl •
i • 1ZUIPO৭ʑ͋ͬͨ
ͱ͍͏Θ͚ͰࠓͷҰ۟ จࣈίʔυ 1FSMͰֶ ྑ͍͔Ͷ
ʢ༨ஊʣ1FSMϓϩ͔Βདྷͦ͏ͳ࣭ 2FODPEJOHϓϥάϚͱ͔ͦͬͪܥͷΛ ͢ΔͷͩͱࢥͬͯͨΜ͚ͩͲʁ "Ή͠Ζ୭͔ڭ͍͑ͯͩ͘͞ɻɻɻ 2όΠτҎ্ͷֆจࣈͱ͔ͦ͏͍͏ͷʁ "Ή͠Ζ୭͔ڭ͍͑ͯͩ͘͞ɻɻɻ