Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Perlとテキストデータクリーニング@吉祥寺.pm18
Search
korenari
May 17, 2019
Technology
0
1.9k
Perlとテキストデータクリーニング@吉祥寺.pm18
korenari
May 17, 2019
Tweet
Share
More Decks by korenari
See All by korenari
なぜ私はPerlでコーディングするのか@吉祥寺.pm16
korenari
0
880
サーバレス日本語形態素解析エンジンとの格闘記録
korenari
0
2.2k
Other Decks in Technology
See All in Technology
ACRiルーム最新情報とAMD GPUサーバーのご紹介
anjn
0
160
DDDにおける認可の扱いとKotlinにおける実装パターン / authorization-for-ddd-and-kotlin-implement-pattern
urmot
4
390
ギークの理想が7つ集まるエムスリーで夢を叶えよう - エムスリー株式会社
m3_engineering
1
260
AWS IAMのアンチパターン/AWSが考える最低権限実現へのアプローチ概略(JAWS-UG朝会#59資料改修20分版)
htan
0
330
JBUG岡山 #6 WordCamp男木島の チームビルディング
takeshifurusato
0
150
Luupの開発組織におけるインシデントマネジメントの変遷 ver.RoadtoSRENEXT2024
grimoh
1
270
[NIKKEI Tech Talk]Bias for Action!! 実践から学ぶための仕組とコミュニティ / Community for Practice and Learning
kanamasa
0
280
20240725 LLMによるDXのビジョンと、今何からやるべきか @Azure OpenAI Service Dev Day
nrryuya
3
1.2k
プレイドにおけるDatadog APMの活用方法
plaidtech
PRO
2
120
ABEMAにおけるLLMを用いたコンテンツベース推薦システム導入と効果検証
cyberagentdevelopers
PRO
1
750
DevIO2024_レガシー運用からの脱却 -クラウド活用の実践事例とベストプラクティス-
jun2882
0
210
Azure OpenAI Service Dev Day / LLMでできる!使える!生成AIエージェント
masahiro_nishimi
3
800
Featured
See All Featured
Become a Pro
speakerdeck
PRO
15
4.8k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
26
1.6k
Writing Fast Ruby
sferik
623
60k
GraphQLの誤解/rethinking-graphql
sonatard
59
9.6k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
502
140k
Building Effective Engineering Teams - LeadDev
addyosmani
47
2.2k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
18
1.2k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
353
29k
Making the Leap to Tech Lead
cromwellryan
127
8.7k
10 Git Anti Patterns You Should be Aware of
lemiorhan
652
58k
Fontdeck: Realign not Redesign
paulrobertlloyd
79
5.1k
Done Done
chrislema
179
15k
Transcript
1FSMͱ ςΩετσʔλΫϦʔχϯά # 2 978 1 0 . 5
ࣗݾհ N G G , , . , !,PSFOBSJ@%
΅͘ʹͱͬͯͷ1FSM •ࣗવݴޠॲཧʢ/-1ʣͷΞϨίϨͰ༻ Perl – 1998/11
ࣗવݴޠॲཧͷେσʔλΫϦʔχϯά ྫ 5XJUUFSͰΑ͘ݟΔϊΠζσʔλ • URL • <0@mentionhashtag52 etc. • &/=ãäé
• *6-,.8 • ?Unicode0: • /= #"& - - - ⁃ ˗ − ‒ – ~ ∼ ˜ ˷ ∽ ∾ ∿ @ (>% 1);.84+ FIT2016!#$ https://www.slideshare.net/yukiarase/fit2016-66043779 7'39
จࣈྻʹ͓͚Δ·͍͠ਖ਼نԽॲཧͷྫ •6OJDPEFਖ਼نԽ •ϋΠϑϯϚΠφεͬΆ͍จࣈΛஔ •Իه߸ͬΆ͍จࣈΛஔ •ճҎ্࿈ଓ͢ΔԻه߸ճʹஔ •༨ͳεϖʔεΛআ ʜ
https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja
6OJDPEFਖ਼نԽ Unicode http://nomenclator.la.coocan.jp/unicode/normalization.htm
ʢ༨ஊʣ.BD049ʹ͓͚Δ ϑΝΠϧ໊ʹؔ͢ΔϝϞ /'$ /'% http://www.sakito.com/2010/05/mac-os-x-normalization.html
ʢ༨ஊʣʮࠤʑʯ͞Μ͕ Ώ͏ͪΐ1BZʹొͰ͖ͳ͔ͬͨ https://togetter.com/li/1353302 https://twitter.com/straywalker/status/1126111132689682434
ʢ༨ஊʣʮࠤʑʯ͞Μ͕ Ώ͏ͪΐ1BZʹొͰ͖ͳ͔ͬͨ http://b.hatena.ne.jp/entry/s/www.itmedia.co.jp/news/articles/1905/09/news090.html
ςΩετσʔλͷલॲཧ ʢσʔλΫϦʔχϯάʣʹ จࣈίʔυͷࣝɾٕज़Λ शಘ͍ͯ͠Δͱྑͦ͞͏ [ ]
2018/12/28 https://www.amazon.co.jp/dp/4297102919/
1FSM741ZUIPO ʙ
ʙͰѹత1FSM
จࣈίʔυपΓͷྑهࣄʹଟ͍ • ͍͜ͳͦ͏Ϣχίʔυʢఃኍߦࢯʣ • http://nomenclator.la.coocan.jp/unicode/ • : 2008-01-14 •
QFSMͷ6OJDPEFαϙʔτʢѨลࢯʣ • http://www.lr.pi.titech.ac.jp/~abekawa/perl/perl_unicode.html • : 2006-03-16 • จࣈίʔυɺඪ४Խʹ͍ͭͯ • http://ash.jp/code/ • : 2002
1FSMͷςΩετॲཧଞݴޠΑΓྑهࣄ͕ଟ͍ • ۄੴࠞަͰݴ͏ͱ͜Ζͷੴ͕গͳ͍ • ॳΊͷڧ͍ΤϯδχΞͷղઆهࣄ͕ଟ͍ • Perl •
i • 1ZUIPO৭ʑ͋ͬͨ
ͱ͍͏Θ͚ͰࠓͷҰ۟ จࣈίʔυ 1FSMͰֶ ྑ͍͔Ͷ
ʢ༨ஊʣ1FSMϓϩ͔Βདྷͦ͏ͳ࣭ 2FODPEJOHϓϥάϚͱ͔ͦͬͪܥͷΛ ͢ΔͷͩͱࢥͬͯͨΜ͚ͩͲʁ "Ή͠Ζ୭͔ڭ͍͑ͯͩ͘͞ɻɻɻ 2όΠτҎ্ͷֆจࣈͱ͔ͦ͏͍͏ͷʁ "Ή͠Ζ୭͔ڭ͍͑ͯͩ͘͞ɻɻɻ