Unicode Programming in Modern Perl

tests => 66; use Lingua::Stem::UniNE::CS qw( stem ); is stem('zvířatech'), 'zvíř', 'rm -atech'; is stem('zvířatům'), 'zvíř', 'rm -atům'; is stem('zvířata'), 'zvíř', 'rm -ata'; is stem('zvířaty'), 'zvíř', 'rm -aty';

use utf8; use open qw( :encoding(UTF-8) :std ); use Test::More

use charnames ':full';

sub remove_kasra { my ($word) = @_; $word =~ s{

\x{0650} $}{}x; return $word; }

sub remove_kasra { my ($word) = @_; $word =~ s{

\x{0650} $}{}x; return $word; }

use charnames ':full'; sub remove_kasra { my ($word) = @_;

$word =~ s{ \x{0650} $}{}x; return $word; }

use charnames ':full'; sub remove_kasra { my ($word) = @_;

$word =~ s{ \N{ARABIC KASRA} $}{}x; return $word; }

use v5.16; sub remove_kasra { my ($word) = @_; $word

=~ s{ \N{ARABIC KASRA} $}{}x; return $word; }

lc('Größe') eq 'größe'

lc('Größe') eq 'größe' uc('Größe') eq 'GRÖSSE'

lc('Größe') eq 'größe' uc('Größe') eq 'GRÖSSE' lc('Größe') ne lc(uc('Größe'))

lc('Größe') eq 'größe' uc('Größe') eq 'GRÖSSE' lc('Größe') ne lc(uc('Größe')) fc('Größe')

eq fc('GRÖSSE')

use Unicode::CaseFold; fc('Größe') eq fc('GRÖSSE')

use v5.16; fc('Größe') eq fc('GRÖSSE')

use Unicode::Normalize; NFC('Größe') eq NFC('Gro\x{0308}ße')

use v5.16; use Unicode::Normalize; NFC(fc('Größe')) eq NFC(fc('GRO\x{0308}SSE'))

None

use Unicode::Collate; my $c = Unicode::Collate->new; @countries = $c->sort(@countries);

use Unicode::Collate; my $c = Unicode::Collate->new( level => 2 #

ignore case ); $c->eq('Größe', 'GRO\x{0308}SSE')

use Unicode::Collate; my $c = Unicode::Collate->new( level => 2 #

ignore case ); $c->eq('Größe', 'GRO\x{0308}SSE')

use Unicode::Collate::Locale; my $c = Unicode::Collate::Locale->new( locale => 'de' );

@words_de = $c->sort(@words_de);

use Unicode::Collate::Locale; my $c = Unicode::Collate::Locale->new( locale => 'de' );

@words_de = $c->sort(@words_de);

\d 123… … ১২৩ … ໑໒໓

[0-9] 123…

\w abc… 123… _ αβγ… ㄅㄆㄇ… …ج ب أ

\b abc… 123… _ αβγ… ㄅㄆㄇ… …ج ب أ

/\w/a abc… 123… _

\s

\R LF (\n) CR (\r) FF (\f) CRLF (\r\n) NEL

VT LS PS

\R LF (\n) CR (\r) FF (\f) CRLF (\r\n) NEL

VT LS PS

\R LF (\n) CR (\r) FF (\f) CRLF (\r\n) NEL

VT LS PS

\R LF (\n) CR (\r) FF (\f) CRLF (\r\n) NEL

VT LS PS

.

\X Spınal Tap ̈ n\N{COMBINING DIAERESIS} 각 กำำ நி िष

CRLF (\r\n)

\X Spın̈al Tap n\N{COMBINING DIAERESIS} 각 กำำ நி िष CRLF

(\r\n)

\X Spınal Tap ̈ n\N{COMBINING DIAERESIS} 각 กำำ நி िष

CRLF (\r\n)

\X Spınal Tap ̈ n\N{COMBINING DIAERESIS} 각 กำำ நி िष

CRLF (\r\n)

\X Spınal Tap ̈ n\N{COMBINING DIAERESIS} 각 กำำ நி िष

CRLF (\r\n)

\X Spınal Tap ̈ n\N{COMBINING DIAERESIS} 각 กำำ நி िष

CRLF (\r\n)

\p{…}

\p{General_Category=Letter}

\p{Letter}

\p{L}

\pL

L Letter M Mark N Number P Punctuation S Symbol

Z Separator C Other

S Symbol Sm Math_Symbol Sc Currency_Symbol Sk Modifier_Symbol So Other_Symbol

\p{Script=Latin}

\p{Latin}

[\p{Hiragana} \p{Katakana} \p{Han} \p{Latin} \p{Common}]

[\p{Hira} \p{Kana} \p{Hani} \p{Latn} \p{Common}]

Arab Arabic Beng Bengali Deva Devanagari Egyp Egyptian hieroglyphs Ethi

Ethiopic Grek Greek Hang Hangul …

return $word if $word =~ s{ $}{ }x зи г

|| $word =~ s{ ( е \p{Cyrl} ) $}{ $1}x и я || $word =~ s{ $}{ }x ци к || $word =~ s{ (?: | ) $}{}x; та ища

\p{ASCII}

\P{ASCII}

use v5.18;

(?[…])

(?[ \d - \p{ASCII} ])

(?[ \d & \p{Thai} ])

no warnings 'experimental::regex_sets'; (?[ \d & \p{Thai} ])

perlunicode — Unicode features perluniprops — Unicode properties perlre —

regex syntax perlreref — regex reference perlrebackslash — regex escape sequences perlrecharclass — regex character classes Unicode::UCD — Unicode Character DB Lingua::Stem::UniNE — code examples

Unicode Programming in Modern Perl

Unicode Programming in Modern Perl

More Decks by Nova Patch

Other Decks in Programming

Featured

Transcript