Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Perlとテキストデータクリーニング@吉祥寺.pm18
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
korenari
May 17, 2019
Technology
2.1k
0
Share
Perlとテキストデータクリーニング@吉祥寺.pm18
korenari
May 17, 2019
More Decks by korenari
See All by korenari
なぜ私はPerlでコーディングするのか@吉祥寺.pm16
korenari
0
1k
サーバレス日本語形態素解析エンジンとの格闘記録
korenari
0
2.5k
Other Decks in Technology
See All in Technology
AI時代の私の技術インプットとアウトプット術
tonkotsuboy_com
15
8k
テストコードのないプロジェクトにテストを根付かせる
tttol
1
240
なぜハノーバーメッセに行くべきなのか 〜初参加だから語れること〜
tanakaseiya
0
190
権限管理設計を完全に理解した
rsugi
2
240
Sony_KMP_Journey_KotlinConf2026
sony
1
180
AI フレンドリーなエラー監視を TypeScript で実現する
shinyaigeek
2
200
開発を止めない CI/CD ~CI Visibilityによる継続的最適化~
pensuke628
0
220
Javaで学ぶSOLID原則
negima
1
240
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
1
130
ポスター発表&デモと総括 / Poster Presentations & Demonstrations and Summary
ks91
PRO
0
180
AIガバナンス実践 - 生成AIコネクタのデータ漏洩リスクと実務対策
knishioka
0
150
Datadog 認定試験の概要と対策
uechishingo
0
210
Featured
See All Featured
Information Architects: The Missing Link in Design Systems
soysaucechin
0
950
The Invisible Side of Design
smashingmag
302
52k
Optimising Largest Contentful Paint
csswizardry
37
3.7k
Six Lessons from altMBA
skipperchong
29
4.3k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
Music & Morning Musume
bryan
47
7.2k
The Cult of Friendly URLs
andyhume
79
6.9k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
290
Prompt Engineering for Job Search
mfonobong
0
320
Typedesign – Prime Four
hannesfritz
42
3.1k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
Transcript
1FSMͱ ςΩετσʔλΫϦʔχϯά # 2 978 1 0 . 5
ࣗݾհ N G G , , . , !,PSFOBSJ@%
΅͘ʹͱͬͯͷ1FSM •ࣗવݴޠॲཧʢ/-1ʣͷΞϨίϨͰ༻ Perl – 1998/11
ࣗવݴޠॲཧͷେσʔλΫϦʔχϯά ྫ 5XJUUFSͰΑ͘ݟΔϊΠζσʔλ • URL • <0@mentionhashtag52 etc. • &/=ãäé
• *6-,.8 • ?Unicode0: • /= #"& - - - ⁃ ˗ − ‒ – ~ ∼ ˜ ˷ ∽ ∾ ∿ @ (>% 1);.84+ FIT2016!#$ https://www.slideshare.net/yukiarase/fit2016-66043779 7'39
จࣈྻʹ͓͚Δ·͍͠ਖ਼نԽॲཧͷྫ •6OJDPEFਖ਼نԽ •ϋΠϑϯϚΠφεͬΆ͍จࣈΛஔ •Իه߸ͬΆ͍จࣈΛஔ •ճҎ্࿈ଓ͢ΔԻه߸ճʹஔ •༨ͳεϖʔεΛআ ʜ
https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja
6OJDPEFਖ਼نԽ Unicode http://nomenclator.la.coocan.jp/unicode/normalization.htm
ʢ༨ஊʣ.BD049ʹ͓͚Δ ϑΝΠϧ໊ʹؔ͢ΔϝϞ /'$ /'% http://www.sakito.com/2010/05/mac-os-x-normalization.html
ʢ༨ஊʣʮࠤʑʯ͞Μ͕ Ώ͏ͪΐ1BZʹొͰ͖ͳ͔ͬͨ https://togetter.com/li/1353302 https://twitter.com/straywalker/status/1126111132689682434
ʢ༨ஊʣʮࠤʑʯ͞Μ͕ Ώ͏ͪΐ1BZʹొͰ͖ͳ͔ͬͨ http://b.hatena.ne.jp/entry/s/www.itmedia.co.jp/news/articles/1905/09/news090.html
ςΩετσʔλͷલॲཧ ʢσʔλΫϦʔχϯάʣʹ จࣈίʔυͷࣝɾٕज़Λ शಘ͍ͯ͠Δͱྑͦ͞͏ [ ]
2018/12/28 https://www.amazon.co.jp/dp/4297102919/
1FSM741ZUIPO ʙ
ʙͰѹత1FSM
จࣈίʔυपΓͷྑهࣄʹଟ͍ • ͍͜ͳͦ͏Ϣχίʔυʢఃኍߦࢯʣ • http://nomenclator.la.coocan.jp/unicode/ • : 2008-01-14 •
QFSMͷ6OJDPEFαϙʔτʢѨลࢯʣ • http://www.lr.pi.titech.ac.jp/~abekawa/perl/perl_unicode.html • : 2006-03-16 • จࣈίʔυɺඪ४Խʹ͍ͭͯ • http://ash.jp/code/ • : 2002
1FSMͷςΩετॲཧଞݴޠΑΓྑهࣄ͕ଟ͍ • ۄੴࠞަͰݴ͏ͱ͜Ζͷੴ͕গͳ͍ • ॳΊͷڧ͍ΤϯδχΞͷղઆهࣄ͕ଟ͍ • Perl •
i • 1ZUIPO৭ʑ͋ͬͨ
ͱ͍͏Θ͚ͰࠓͷҰ۟ จࣈίʔυ 1FSMͰֶ ྑ͍͔Ͷ
ʢ༨ஊʣ1FSMϓϩ͔Βདྷͦ͏ͳ࣭ 2FODPEJOHϓϥάϚͱ͔ͦͬͪܥͷΛ ͢ΔͷͩͱࢥͬͯͨΜ͚ͩͲʁ "Ή͠Ζ୭͔ڭ͍͑ͯͩ͘͞ɻɻɻ 2όΠτҎ্ͷֆจࣈͱ͔ͦ͏͍͏ͷʁ "Ή͠Ζ୭͔ڭ͍͑ͯͩ͘͞ɻɻɻ