유니코드 스터디

큲읺펞핂 퓮삖슪큲싢 뼒풢핊 짊

푆펞컪솒핳칺쁢큲 ˖ 뼒핊쫆힎칺컲잋 ˖ 뼒핺핊쫆펞컪솒솒핆폏펓훟 ˖ 핊쫆푆펞샎잚핂빦솧빶팒묻많슲솒˘

묻헪v힎펻v쩖펻 ˖ 맪픦삲읆맪뼞 ˖ 묻헪 JOUFSOBUJPOBMJ[BUJPO ˖ 힎펻 MPDBMJ[BUJPO
˖ 쩖펻 USBOTMBUJPO

힎펻 ˖ 헪픒삲읆펆펂v줆뭚펞컪틆쿦핖멚삲 ˖ 묻핆핂컃픒핂푷쿦핖솒옫묻펞컪쁢컃믎픒삲 ˖ 솒솒핆읊핊쫆펞컪틆쿦핖솒옫핊쫆펂솒솒핆읊잚슮삲 ˖ 킪쁢헪핂펆펂v줆뭚쿦잚쁦펂빪삲

묻헪 ˖ 빦픦헪픒숦핂캏픦펺얺펆펂v줆뭚펞컪틆쿦핖멚삲 ˖ 잳픒칺졂픚픒쌚펂썲펆펂읊틆멑핆힎몮읊쿦핖멚삲 ˖ 솒솒핆읊컲쌚 샇잲핳펞컪펂썲펆펂읊틆힎몮읂솒옫삲 ˖ 펺얺빦않펞킪솒헪픎빦옪퓮힎쇪삲

퓮삖슪읊짾푾졂 ˖ 헪픒잚슲쌚삲묻펂v삲줆줆헪펞헟믊쁢짷킫헒짦픒숞욶짾풂삲 ˖ 믆뺳삲읆빦않칺앚슲핂펂쎉멚핋몮튾졂컪칺쁢힎솒잜핂팚쿦핖삲 ˖ 섲픊옪쫃핯삲퍟푢묺칺픒삲욶쁢힎솒짾풆쿦핖삲 ˖ 짾푾졂홙삲믾쫂삲쁢 졶읂졂핂헪헪좉잚슮삲

퓮삖슪뫃쭎픦펂엲풎 ˖ 퓇펞핞욚많잜밂힎잚묻펂핞욚쁢쭎혿 ˖ 콚풶펂쭒퍊펞컪핊쁢잜픎힏묾펞멚숞욶솒풎핂쇦힎잚˘ ˖ 옪믆앦젆빦핂잚믾쿮헏핆뺂푷핂컬펺핖펂컪멏픒훎삲 ˖ $+,퓮삖슪읊쫂삲쫂졂퓮삖슪뫃쭎핆힎핞뫃쭎핆힎졶읂멮삲

6OJDPEF ˖ *40묻헪훎 *40*&$ ˖ 뼒샎펞컿잋 ˖ 믆샇킪핂짆콚풶펂묻헪퐎틶읒섦펓슲핂훊 ˖
퓮삖슪콚킪펒펞컪뫎읺

6OJDPEF$POTPSUJVN ˖ 푾읺많핦팒쁢훊푢쩲섢슲핂펺 ˖ "EPCF "QQMF (PPHMF *#. .JDSPTPGU 0SBDMF
5XJUUFS :BIPP ˖ )VBXFJ 3BLVUFO ˖ 맏줆읊샎잚헒줆많슲 ˖ 펺얺콚풶펂쭒퍊읊샎잚헒줆많슲 ˖ 뼒샎펞핂짆켆몒헏픊옪헪픒빷컪묻헪펞핢쳖뭃픎헒줆많슲

퓮삖슪많삲욶쁢멑 ˖ 줆핞 ˖ 줆핞칺핂픦뫎몒 FHˑ"픦콚줆핞쁢B˒ ˖ 줆핞펞뫎훊쪎헣쫂 FHˑꆃ픎묻펂옪LVN뫊LJN픊옪짪픚˒
˖ 줆핞슲픦퓮푷줄픚 FHˑ많쁢믎˒ ˑמ쁢않많빦˒ ˖ 줆핞읊쿦옪쁢짷쩣 펞줆핞읊헎핳믾퓒 ˖ $-%3쩖펻펞푢뫎푷헏슲졶픚

퓮삖슪많삲욶힎팘쁢멑 ˖ 펆펂 ˖ 믎읺 HMZQI ˖ 컪

ˊ6OJDPEF'"2 “Unicode encodes characters, not glyphs.”

# ü 옪잖핞찒 믆읺큲줆핞쩮

C Ĕ 옪잖콚줆핞찒 믆읺큲콚줆핞쩮

줆핞 ˖ 맏줆핞펞쁢몮퓮쩖퐎핂읒핂핖삲 ˖ " U+0041 LATIN CAPITAL LETTER A
˖ 많 U+AC00 HANGUL SYLLABLE GA ˖ 㣓 U+5929 CJK UNIFIED IDEOGRAPH-5929

줆핞픦컿힖 ˖ 펂썲줆핞슲픎DBTF않쁢멚핖삲"쁢B픦샎줆핞몮 B쁢"픦콚줆핞삲 ˖ 펂썲줆핞슲픎풎않푾 VNMBVU 많쭧픒쿦핖삲 FH £
˖ 펂썲줆핞슲픎쭒쇮쿦핖삲 FH˳̔5. ݫ̔ 훊 ˖ 펂썲줆핞슲픎쿦읊씉삲 FH Ⱂ ̂ ˖ 줆핞슲픎콚읺뺂핋픒쿦핖삲 FH㣓픎잚삲읾펞컪UJÀO픊옪핋픚 ˖ 펂썲줆핞슲픎폲읆펞컪푊픊옪 픎퓒펞컪팒앦옪틂삲

샎콚줆핞 >>> 'A'.lower() 'a' >>> 'ä'.upper() 'Ä' >>> 'о'.lower() 'о'
>>> ord('о'), ord('о'.lower()) (44032, 44032)

쿹핞 >>> '1'.isdigit() True >>> 'ᎂ'.isdigit() False >>> '1'.isnumeric() True
>>> 'ᎂ'.isnumeric() True

쭒 >>> import unicodedata >>> unicodedata.decomposition('ā') '<compat> 0028 110C 116E
0029' >>> list('\u0028\u110c\u116e\u0029') ['(', '䝶', '䞌', ')'] >>> '\u0028\u110c\u116e\u0029' '(઱)'

4DSJQU ˖ 퓮삖슪펞컪펺얺줆핞슲픒줄쁢짷킫훟빦 ˖ 훊옪펆펂몒펞재컪빦뿖삲 ˖ 옪잖핞쁢-BUJO ˖ 핞쁢)BO ˖
믎픎)BOHVM ˖ 않많빦쁢)JSBHBOB 많빦쁢,BUBLBOB

믎잚텊쁢힎핆믾 $ pip install uniscripts >>> import uniscripts >>> uniscripts.is_script('ᬊỀᤫግ໌Ẹࠃ',
'Han') True >>> uniscripts.is_script('ᬊỀᤫግ໌Ẹࠃ', 'Hangul') False >>> uniscripts.is_script('؀ೠ޹Ҵ', 'Hangul') True

솧팒킪팒줆핞뻖찒 ˖ 헒헏픊옪퓮삖슪핂헒쭎튾핂섦빦핂쯚뻖찒몒칾쩣 ˖ " # $슿뫊맧픎줆핞쁢짦맏줆핞옪쫂몮 ˖ 많
빦 㣓˘슿뫊맧픎줆핞쁢헒맏줆핞옪쫆삲 ˖ ˑ폏줆핞쁢짢핂 믎픎짢핂˒않쁢콚읺쁢퓮삖슪킪샎펞컮하핞

&BTU"TJBO8JEUI >>> unicodedata.east_asian_width('о') 'W' >>> unicodedata.east_asian_width('A') 'Na' >>> unicodedata.east_asian_width('ᯯ') 'W'

핊삶폲쁦픎펺믾밚힎

핊삶폲쁦픎펺믾밚힎 ˖ 훊잞쭎훎찒픊빦팮펞삲웒퍊쁢뺂푷핞많잜삲 ˖ $-%3맧핂킲푷헏핆쭎쭒솒삲웦펂퍊쁢섾˘ ˖ 큲싢콚쩖픎섢퍊슽ۂۂ ˖ 핂큲싢쁢삲읆쭒핂핂펂컪훊킪졂홙픒멑맧삲

유니코드 스터디

유니코드 스터디

Hong Minhee (洪民憙)

More Decks by Hong Minhee (洪民憙)

Other Decks in Programming

Featured

Transcript

큲읺펞핂 퓮삖슪큲싢 뼒풢핊 짊

푆펞컪솒핳칺쁢큲 ˖ 뼒핊쫆힎칺컲잋 ˖ 뼒핺핊쫆펞컪솒솒핆폏펓훟 ˖ 핊쫆푆펞샎잚핂빦솧빶팒묻많슲솒˘

묻헪v힎펻v쩖펻 ˖ 맪픦삲읆맪뼞 ˖ 묻헪 JOUFSOBUJPOBMJ[BUJPO ˖ 힎펻 MPDBMJ[BUJPO

6OJDPEF ˖ 40묻헪훎 40*&$ ˖ 뼒샎펞컿잋 ˖ 믆샇킪핂짆콚풶펂묻헪퐎틶읒섦펓슲핂훊 ˖

6OJDPEF$POTPSUJVN ˖ 푾읺많핦팒쁢훊푢쩲섢슲핂펺 ˖ "EPCF "QQMF (PPHMF *#. .JDSPTPGU 0SBDMF

퓮삖슪많삲욶쁢멑 ˖ 줆핞 ˖ 줆핞칺핂픦뫎몒 FHˑ"픦콚줆핞쁢B˒ ˖ 줆핞펞뫎훊쪎헣쫂 FHˑꆃ픎묻펂옪LVN뫊LJN픊옪짪픚˒

퓮삖슪많삲욶힎팘쁢멑 ˖ 펆펂 ˖ 믎읺 HMZQI ˖ 컪

ˊ6OJDPEF'"2 “Unicode encodes characters, not glyphs.”

# ü 옪잖핞찒 믆읺큲줆핞쩮

C Ĕ 옪잖콚줆핞찒 믆읺큲콚줆핞쩮

줆핞 ˖ 맏줆핞펞쁢몮퓮쩖퐎핂읒핂핖삲 ˖ " U+0041 LATIN CAPITAL LETTER A

줆핞픦컿힖 ˖ 펂썲줆핞슲픎DBTF않쁢멚핖삲"쁢B픦샎줆핞몮 B쁢"픦콚줆핞삲 ˖ 펂썲줆핞슲픎풎않푾 VNMBVU 많쭧픒쿦핖삲 FH £

샎콚줆핞 >>> 'A'.lower() 'a' >>> 'ä'.upper() 'Ä' >>> 'о'.lower() 'о'

쿹핞 >>> '1'.isdigit() True >>> 'ᎂ'.isdigit() False >>> '1'.isnumeric() True

쭒 >>> import unicodedata >>> unicodedata.decomposition('ā') '<compat> 0028 110C 116E

4DSJQU ˖ 퓮삖슪펞컪펺얺줆핞슲픒줄쁢짷킫훟빦 ˖ 훊옪펆펂몒펞재컪빦뿖삲 ˖ 옪잖핞쁢-BUJO ˖ 핞쁢)BO ˖

믎잚텊쁢힎핆믾 $ pip install uniscripts >>> import uniscripts >>> uniscripts.is_script('ᬊỀᤫግ໌Ẹࠃ',

솧팒킪팒줆핞뻖찒 ˖ 헒헏픊옪퓮삖슪핂헒쭎튾핂섦빦핂쯚뻖찒몒칾쩣 ˖ " # $슿뫊맧픎줆핞쁢짦맏줆핞옪쫂몮 ˖ 많

&BTU"TJBO8JEUI >>> unicodedata.east_asian_width('о') 'W' >>> unicodedata.east_asian_width('A') 'Na' >>> unicodedata.east_asian_width('ᯯ') 'W'

핊삶폲쁦픎펺믾밚힎

유니코드 스터디

유니코드 스터디

More Decks by Hong Minhee (洪 民憙)

Other Decks in Programming

Featured

Transcript

More Decks by Hong Minhee (洪民憙)