Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Perlとテキストデータクリーニング@吉祥寺.pm18
Search
korenari
May 17, 2019
Technology
0
2k
Perlとテキストデータクリーニング@吉祥寺.pm18
korenari
May 17, 2019
Tweet
Share
More Decks by korenari
See All by korenari
なぜ私はPerlでコーディングするのか@吉祥寺.pm16
korenari
0
920
サーバレス日本語形態素解析エンジンとの格闘記録
korenari
0
2.3k
Other Decks in Technology
See All in Technology
Oracle Cloudの生成AIサービスって実際どこまで使えるの? エンジニア目線で試してみた
minorun365
PRO
4
270
OpenShift Virtualizationのネットワーク構成を真剣に考えてみた/OpenShift Virtualization's Network Configuration
tnk4on
0
130
1等無人航空機操縦士一発試験 合格までの道のり ドローンミートアップ@大阪 2024/12/18
excdinc
0
150
コンテナセキュリティのためのLandlock入門
nullpo_head
2
320
Turing × atmaCup #18 - 1st Place Solution
hakubishin3
0
470
日本版とグローバル版のモバイルアプリ統合の開発の裏側と今後の展望
miichan
1
120
バクラクのドキュメント解析技術と実データにおける課題 / layerx-ccc-winter-2024
shimacos
2
1k
KubeCon NA 2024 Recap / Running WebAssembly (Wasm) Workloads Side-by-Side with Container Workloads
z63d
1
240
20241214_WACATE2024冬_テスト設計技法をチョット俯瞰してみよう
kzsuzuki
3
440
継続的にアウトカムを生み出し ビジネスにつなげる、 戦略と運営に対するタイミーのQUEST(探求)
zigorou
0
500
新機能VPCリソースエンドポイント機能検証から得られた考察
duelist2020jp
0
210
小学3年生夏休みの自由研究「夏休みに Copilot で遊んでみた」
taichinakamura
0
140
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
GraphQLとの向き合い方2022年版
quramy
44
13k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
28
2.1k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
The World Runs on Bad Software
bkeepers
PRO
65
11k
A Modern Web Designer's Workflow
chriscoyier
693
190k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
95
17k
Raft: Consensus for Rubyists
vanstee
137
6.7k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
0
94
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Transcript
1FSMͱ ςΩετσʔλΫϦʔχϯά # 2 978 1 0 . 5
ࣗݾհ N G G , , . , !,PSFOBSJ@%
΅͘ʹͱͬͯͷ1FSM •ࣗવݴޠॲཧʢ/-1ʣͷΞϨίϨͰ༻ Perl – 1998/11
ࣗવݴޠॲཧͷେσʔλΫϦʔχϯά ྫ 5XJUUFSͰΑ͘ݟΔϊΠζσʔλ • URL • <0@mentionhashtag52 etc. • &/=ãäé
• *6-,.8 • ?Unicode0: • /= #"& - - - ⁃ ˗ − ‒ – ~ ∼ ˜ ˷ ∽ ∾ ∿ @ (>% 1);.84+ FIT2016!#$ https://www.slideshare.net/yukiarase/fit2016-66043779 7'39
จࣈྻʹ͓͚Δ·͍͠ਖ਼نԽॲཧͷྫ •6OJDPEFਖ਼نԽ •ϋΠϑϯϚΠφεͬΆ͍จࣈΛஔ •Իه߸ͬΆ͍จࣈΛஔ •ճҎ্࿈ଓ͢ΔԻه߸ճʹஔ •༨ͳεϖʔεΛআ ʜ
https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja
6OJDPEFਖ਼نԽ Unicode http://nomenclator.la.coocan.jp/unicode/normalization.htm
ʢ༨ஊʣ.BD049ʹ͓͚Δ ϑΝΠϧ໊ʹؔ͢ΔϝϞ /'$ /'% http://www.sakito.com/2010/05/mac-os-x-normalization.html
ʢ༨ஊʣʮࠤʑʯ͞Μ͕ Ώ͏ͪΐ1BZʹొͰ͖ͳ͔ͬͨ https://togetter.com/li/1353302 https://twitter.com/straywalker/status/1126111132689682434
ʢ༨ஊʣʮࠤʑʯ͞Μ͕ Ώ͏ͪΐ1BZʹొͰ͖ͳ͔ͬͨ http://b.hatena.ne.jp/entry/s/www.itmedia.co.jp/news/articles/1905/09/news090.html
ςΩετσʔλͷલॲཧ ʢσʔλΫϦʔχϯάʣʹ จࣈίʔυͷࣝɾٕज़Λ शಘ͍ͯ͠Δͱྑͦ͞͏ [ ]
2018/12/28 https://www.amazon.co.jp/dp/4297102919/
1FSM741ZUIPO ʙ
ʙͰѹత1FSM
จࣈίʔυपΓͷྑهࣄʹଟ͍ • ͍͜ͳͦ͏Ϣχίʔυʢఃኍߦࢯʣ • http://nomenclator.la.coocan.jp/unicode/ • : 2008-01-14 •
QFSMͷ6OJDPEFαϙʔτʢѨลࢯʣ • http://www.lr.pi.titech.ac.jp/~abekawa/perl/perl_unicode.html • : 2006-03-16 • จࣈίʔυɺඪ४Խʹ͍ͭͯ • http://ash.jp/code/ • : 2002
1FSMͷςΩετॲཧଞݴޠΑΓྑهࣄ͕ଟ͍ • ۄੴࠞަͰݴ͏ͱ͜Ζͷੴ͕গͳ͍ • ॳΊͷڧ͍ΤϯδχΞͷղઆهࣄ͕ଟ͍ • Perl •
i • 1ZUIPO৭ʑ͋ͬͨ
ͱ͍͏Θ͚ͰࠓͷҰ۟ จࣈίʔυ 1FSMͰֶ ྑ͍͔Ͷ
ʢ༨ஊʣ1FSMϓϩ͔Βདྷͦ͏ͳ࣭ 2FODPEJOHϓϥάϚͱ͔ͦͬͪܥͷΛ ͢ΔͷͩͱࢥͬͯͨΜ͚ͩͲʁ "Ή͠Ζ୭͔ڭ͍͑ͯͩ͘͞ɻɻɻ 2όΠτҎ্ͷֆจࣈͱ͔ͦ͏͍͏ͷʁ "Ή͠Ζ୭͔ڭ͍͑ͯͩ͘͞ɻɻɻ