20190407 第7章事例研究:自然言語処理における素性

!LNPUPIBT ຊڷݴޠॲཧษڧձ ୈ7ষ ࣄྫݚڀɿࣗવݴޠॲཧʹ͓͚Δૉੑ

ࣗݾ঺հ !2 ຊڮ࿨و !LNPUPIBT ‣ ౦޻େجૅ෺ཧֶઐ߈1I%
‣ ιϑτόϯΫגࣜձࣾ ‣ %&&1$03&*OD ‣ εΧΠϚΠϯυגࣜձࣾ w ਂ૚ֶशϞσϧͷ։ൃɾӡ༻ϓϥοτϑΥʔϜl4,*-z࡞ͬͯΔձࣾ w +BWB4DBMBͰͰ͖ΔEFFQMFBSOJOHKͷ։ൃ w ,FSBTOE UI DPOUSJCVUPST͕͍ͨΓ͢Δ w ๻͸ϓϦηʔϧεΤϯδχΞ

໨࣍ !3 ୈ̎ฤɹࣗવݴޠσʔλͷѻ͍ ‣ ୈ̒ষɹςΩετσʔλͷͨΊͷૉੑ ‣ ୈ̓ষɹࣄྫݚڀɿࣗવݴޠॲཧʹ͓͚Δૉੑ w จॻ෼ྨɿݴޠಉఆ
w จॻ෼ྨɿτϐοΫ෼ྨ w จॻ෼ྨɿஶऀಛఆ w จ຺ʹຒΊࠐ·Εͨ୯ޠɿ඼ࢺλά෇͚ w จ຺ʹຒΊࠐ·Εͨ୯ޠɿݻ༗දݱೝࣝ w จ຺ʹຒΊࠐ·Εͨ୯ޠͱݴޠֶతૉੑɿલஔࢺҙຯᐆດੑղফ w จ຺ʹຒΊࠐ·Εͨ୯ޠͷؒͷؔ܎ɿΞʔΫΛ୯Ґͱͨ͠ύʔδϯά

จॻ෼ྨɿݴޠಉఆ !4 จࣈόΠάϥϜͷόοάʢCBHPGMFUUFSCJHSBNTʣ͕ڧྗ @btsmith #nlp ▪ Character n-gram frequencies
for English Language Identification 28 e 12.6% t 9.1% a 8.0% o 7.6% i 6.9% n 6.9% s 6.3% h 6.2% … th 3.9% he 3.7% in 2.3% er 2.2% an 2.1% re 1.7% nd 1.6% on 1.4% … the 3.5% and 1.6% ing 1.1% her 0.8% hat 0.7% his 0.6% tha 0.6% ere 0.6% … From Cryptograms.org, derived from English documents at Project Gutenberg https://www.slideshare.net/LithiumTech/lightweight-natural-language-processing-nlp

จॻ෼ྨɿݴޠಉఆ !5 จࣈූ߸ԽํࣜಉఆʢFODPEJOHEFUFDUJPOʣʹ͸όΠτόΠάϥϜͷόοά͕༗ޮ Figure 2: Byte-based method vs. character-based
method – ISO-2022-{JP,KR} [ja,ko] – UTF-8 [universal] or characters (unigram models can use two or ters (bigrams, trigram parameter space is exp between the accuracy ing, computation and s tant as the size of the Asian charsets with ch 3.3 Algorithm Our ﬁrst choice was N http://cs229.stanford.edu/proj2007/KimPark-AutomaticDetectionOfCharacterEncodingAndLanguages.pdf

จॻ෼ྨɿτϐοΫ෼ྨ !6 จষ㱨\ܦࡁ੓࣏εϙʔπϨδϟʔΰγοϓੜ׆ͦͷଞ^ʁ ҙຯతͳجຊతͳ୯Ґ͸୯ޠ  ʢޠॱ͸͋·ΓҙຯΛ࣋ͨͳ͍ʣ ‣ ୯ޠͷόοά CBDLPGXPSET
‣ ୯ޠόΠάϥϜͷόοά CBHPGXPSECJHSBNT w ϓϥεͰɺϨϯϚԽɺ୯ޠຒΊࠐΈϕΫτϧɺ5'*%'ॏΈ෇͚ͳͲ΋ޮՌ͋Γ https://aylien.com/text-api/text-classiﬁcation/

จॻ෼ྨɿஶऀಛఆ !7 ஶऀ໊ɾੑผɾ೥ྸɾ฼ޠͳͲɺஶऀͷಛ௃Λਪఆ จষͷελΠϧʹؔ͢Δಛ௃͕༗༻ ‣ ඼ࢺλάͱػೳޠ GVODUJPOXPSE
w ػೳޠɿPO PG UIF BOE CFGPSF ʜIF TIF * UIFZ ʜ w ͦΕࣗ਎͸಺༰Λ఻͑ͣɺ಺༰Λ఻͑Δ୯ޠͱ݁ͼ͍ͭͯҙຯΛׂΓ౰ͯΔ w େن໛ίʔύεͷ࠶සग़୯ޠ্Ґޠఔ౓͕ۙࣅతʹػೳޠͷϦετʹͳΔ w ͦΕͧΕͷCJHSBN USJHSBN HSBN ػೳޠͷີ౓ͳͲ͕࢖͑Δ

จॻ෼ྨɿஶऀಛఆ !8 ྫɿl#VJMEJOH.BDIJOF-FBSOJOH4ZTUFNTXJUI1ZUIPOzͷ֤ষͷஶऀಛఆ ‣ CZ8JMMJ3JDIFSUBOE-VJT1FESP$PFMIP ڭࢣͳֶ͠शͷख๏Λར༻ͯ͠શষͷஶऀಛఆͰશ໰ਖ਼ղ ‣ Ұจ͋ͨΓͷฏۉ୯ޠ਺
‣ Ұจͷ௕͞ͷ෼ࢄ ‣ ޠኮ਺ ‣ Ұจ͋ͨΓͷΧϯϚɺηϛίϩϯɺίϩϯͷฏۉ਺ ‣ ػೳޠͷόοά ‣ ֤඼ࢺλάͷग़ݱׂ߹ ͜ΕΒͷಛ௃ྔΛ࢖ͬͯLNFBOT L ΫϥελϦϯά http://www.aicbt.com/authorship-attribution/

จ຺ʹຒΊࠐ·Εͨ୯ޠɿ඼ࢺλά෇͚ !9 ඼ࢺλά෇͚ QBSUTPGTQFFDIUBHHJOH w ྫ 6OJWFSTBM5SFFCBOL1SPKFDU ܗ༰ࢺɺ઀ஔࢺɺ෭ࢺɺॿಈࢺɺ౳Ґ઀ଓࢺɺݶఆࢺɺؒ౤ࢺɺ
໊ࢺɺ਺ࢺɺෆมԽࢺɺ୅໊ࢺɺݻ༗໊ࢺɺ۟ಡ఺ɺैଐ઀ଓࢺɺه߸ɺಈࢺɺͦͷଞ ‣ ߏ଄໰୊ɺ·ͨ͸྆ଆ̎୯ޠͷ૭ʹ͓͚Δ඼ࢺλά෼ྨͷλεΫʹۙࣅ w JOUSJOTJDʢ୯ޠͦΕࣗମʹجͮ͘ʣख͕͔Γ ୯ޠͦΕࣗ਎ɺ઀಄ࣙɺ઀ඌࣙɺܗঢ়ʢFEɺVOɺେจࣈʣɺग़ݱස౓ w FYUSJOTJDʢͦͷจ຺ʹجͮ͘ʣख͕͔Γ पΓͷ୯ޠͷɺ୯ޠͦΕࣗ਎ɺ઀಄ࣙɺ઀ඌࣙɺલޙͷ඼ࢺ༧ଌ݁Ռ

จ຺ʹຒΊࠐ·Εͨ୯ޠɿݻ༗දݱೝࣝ !10 タスク説明: 固有表現抽出 • テキスト中から人名や組織名ような固有表現 (NE)
を抽出する • 固有表現定義ほしい情報に基づいて柔軟に定義する • 情報抽出や検索エンジンインデキシングなどで有用 https://explosion.ai/demos/displacy-ent 5 https://speakerdeck.com/himkt/neural-named-entity-recognition

จ຺ʹຒΊࠐ·Εͨ୯ޠɿݻ༗දݱೝࣝ !11 ܥྻϥϕϦϯά໰୊ TFRVFODFMBCFMJOHUBTL ͱͯ͠ఆࣜԽ ‣ ϥϕϧ෇͚ͷεΩʔϚ#*0λά #FHJO*OTJEF0VUTJEFFODPEFEUBH
$"4& 456%*&4 0' /-1 '&"563&4 ɩF TFOUFODF BCPWF XPVME CF UBHHFE BT CQ?Mf"@S1_ aKBi?fA@S1_ -fP T`2bB/2MifP Q7fP J+*Q`KBFf"@P_: AM/mbi`B2bfA@P_: pBbBi2/fP ?BbfP MB2+2fP S`Bbf"@S1_ BMfP JBHMf"@GP* -fP `2TQì2`bfP bvfP XfP ɩF USBOTMBUJPO GSPN OPOPWFSMBQQJOH TFHNFOUT UP #*0 UBHT BOE CBDL JT TUSBJHIUGPSXBSE -JLF 104UBHHJOH UIF /&3 UBTL JT B TUSVDUVSFE POF BT UBHHJOH EFDJTJPOT GPS EJĊFSFOU XPSET JOUFSBDU XJUI FBDI PUIFS JU JT NPSF MJLFMZ UP SFNBJO XJUIJO UIF TBNF FOUJUZ UZQF UIBO UP TXJUDI JU JT NPSF MJLFMZ UP UBH i+PIO 4NJUI *ODw BT "@P_: A@P_: A@P_: UIBO BT "@S1_ A@S1_ "@P_: )PXFWFS XF BHBJO BTTVNF JU DBO CF BQQSPYJNBUFE SFBTPOBCMZ XFMM VTJOH JOEFQFOEFOU DMBTTJmDBUJPO EFDJTJPOT ɩF DPSF GFBUVSF TFU GPS UIF /&3 UBTL JT TJNJMBS UP UIBU PG UIF 104UBHHJOH UBTL BOE SFMJFT PO XPSET XJUIJO B XPSET XJOEPX UP FBDI TJEF PG UIF GPDVT XPSE *O BEEJUJPO UP UIF GFBUVSFT PG FOUJUJFT TVDI BT .JMBO +PIO 4NJUI .D$PSNJL *OEVTUSJFT BOE 1BSJT BT XFMM BT UP DBUFHPSJ[F UIFN JOUP B QSFEFmOFE TFU PG DBUFHPSJFT TVDI BT -ĠĔĒĥĚĠğ 0ģĘĒğĚīĒĥĚĠğ 1ĖģĤĠğ PS 0ĥęĖģ /PUF UIBU UIJT UBTL JT DPOUFYU EFQFOEFOU BT .JMBO DBO CF B MPDBUJPO UIF DJUZ PS BO PSHBOJ[BUJPO B TQPSUT UFBN i.JMBO QMBZFE BHBJOTU #BSTB 8FEOFTEBZ FWFOJOHw BOE 1BSJT DBO CF UIF OBNF PG B DJUZ PS B QFSTPO " UZQJDBM JOQVU UP UIF QSPCMFN XPVME CF B TFOUFODF TVDI BT CQ?M aKBi? - T`2bB/2Mi Q7 J+*Q`KBF AM/mbi`B2b pBbBi2/ ?Bb MB2+2 S`Bb BM JBHM - `2TQì2`b bv X BOE UIF FYQFDUFE PVUQVU XPVME CF (S1_ CQ?M aKBi? ) - T`2bB/2Mi Q7 (P_: J+*Q`KBF AM/mbi`B2b ) pBbBi2/ ?Bb MB2+2 (S1_ S`Bb ) BM (GP* JBHM )- `2TQì2`b bv X 8IJMF /&3 JT B TFRVFODF TFHNFOUBUJPO UBTLJU BTTJHOT MBCFMFE CSBDLFUT PWFS OPO PWFSMBQQJOH TFOUFODF TQBOTJU JT PGUFO NPEFMFE BT B TFRVFODF UBHHJOH UBTL MJLF 104UBHHJOH ɩF VTF PG UBHHJOH UP TPMWF TFHNFOUBUJPO UBTLT JT QFSGPSNFE VTJOH #*0 FODPEFE UBHTņ &BDI XPSE JT BTTJHOFE POF PG UIF GPMMPXJOH UBHT BT TFFO JO 5BCMF 5BCMF #*0 UBHT GPS OBNFE FOUJUZ SFDPHOJUJPO Tag Meaning O Not part of a named entity B-PER I-PER First word of a person name Continuation of a person name B-LOC First word of a location name ظ଴ग़ྗ #*0λά෇͚ •IOB (or IOB1): CoNLL 2003 データセットで使われている • 接頭辞 I を付与; NEが連続する場合，2番目以降 NE 開始単語に I-PER E-PER S-PER O S-LOC O B-PER I-PER I-PER B-PER O I-LOC O B-PER I-PER I-PER B-PER O I-LOC O I-PER IOB BIO BIOES 系列タグスキーマ https://speakerdeck.com/himkt/neural-named-entity-recognition #-0$

จ຺ʹຒΊࠐ·Εͨ୯ޠͱݴޠֶతૉੑɿલஔࢺҙຯᐆດੑղফ !12 લஔࢺҙຯᐆດੑղফ QSFQPTJUJPOTFOTFEJTBNCJHVBUJPO ‣ <B>໨త 163104& <C>डӹऀ
#&/&'*$*"3: <D>ظؒ %63"5*0/ <E>৔ॴ -0$"5*0/ ‣ લஔࢺपΓͷ૭Λૉੑͱͯ͠༻͍Δͷ͸ཧ૝తͰ͸ͳ͍ ‣ Ή͠ΖώϡʔϦεςΟοΫʢࠨଆͷ࠷ॳͷಈࢺˍӈଆͷ࠷ॳͷ໊ࢺʣ͕༗ޮ w લஔࢺͷࢧ഑ཁૉ HPWFSOPS ͱ໨తޠ PCKFDU Λ֫ಘͰ͖Δ 803% */ $0/5&95 -*/(6*45*$ '&"563&4 13&104*5*0/ 4&/4& %*4".#*(6"5*0/ 1SFQPTJUJPOT XPSET MJLF PO JO XJUI BOE GPS TFSWF GPS DPOOFDUJOH QSFEJDBUFT XJUI UIFJS BSHV NFOUT BOE OPVOT XJUI UIFJS QSFQPTJUJPOBM NPEJmFST 1SFQPTJPOT BSF WFSZ DPNNPO BOE BMTP WFSZ BNCJHVPVT $POTJEFS GPS FYBNQMF UIF XPSE GPS JO UIF GPMMPXJOH TFOUFODFT B 8F XFOU UIFSF GPS MVODI C )F QBJE GPS NF D 8F BUF GPS UXP IPVST E )F XPVME IBWF MFGU GPS IPNF CVU JU TUBSUFE SBJOJOH ɩF XPSE GPS QMBZT B EJĊFSFOU SPMF JO FBDI PG UIFN JO B JU JOEJDBUFT B 1ĦģġĠĤĖ JO C B #ĖğĖėĚ ĔĚĒģĪ JO D B %ĦģĒĥĚĠğ BOE JO E B -ĠĔĒĥĚĠğ *O PSEFS UP GVMMZ VOEFSTUBOE UIF NFBOJOH PG B TFOUFODF POF TIPVME BSHVBCMMZ LOPX UIF DPSSFDU TFOTFT PG UIF QSFQPTJUJPOT XJUIJO JU ɩF QSFQPTJUJPOTFOTF EJTBNCJHVBUJPO UBTL EFBMT XJUI BTTJHOJOH UIF DPSSFDU TFOTF UP B QSFQPTJUJPO JO DPOUFYU GSPN B mOJUF JOWFOUPSZ PG TFOTFT 4DIOFJEFS FU BM < > EJTDVTT UIF UBTL QSFTFOU B VOJmFE TFOTF JOWFOUPSZ UIBU DPWFST NBOZ QSFQPTJ 803%*/$0/5&95 -*/(6*45*$'&"563&413&104*5*0/4&/4&%*4".#*(6"5*0/ UJPOT BOE QSPWJEF B TNBMM BOOPUBUFE DPSQVT PG TFOUFODFT GSPN POMJOF SFWJFXT DPWFSJOH QSFQPTJUJPO NFOUJPOT FBDI BOOPUBUFE XJUI JUT TFOTFŇ 8IJDI BSF B HPPE TFU PG GFBUVSFT GPS UIF QSFQPTJUJPO TFOTF EJTBNCJHVBUJPO UBTL 8F GPMMPX IFSF UIF GFBUVSF TFU JOTQJSFE CZ UIF XPSL PG )PWZ FU BM <> 0CWJPVTMZ UIF QSFQPTJUJPO JUTFMG JT B VTFGVM GFBUVSF UIF EJTUSJCVUJPO PG QPTTJCMF TFOTFT GPS JO JT WFSZ EJĊFSFOU GSPN UIF EJTUSJCVUJPO PG TFOTFT GPS XJUI PS BCPVU GPS FYBNQMF #FTJEFT UIBU XF XJMM MPPL JO UIF DPOUFYU JO XIJDI UIF XPSE PDDVST " mYFE XJOEPX BSPVOE UIF QSFQPTJUJPO NBZ OPU CF JEFBM JO UFSNT PG JOGPSNBUJPO DPOUFOU UIPVHIU $POTJEFS GPS FYBNQMF UIF GPMMPXJOH TFOUFODFT B )F MJLFE UIF SPVOE PCKFDU GSPN UIF WFSZ mSTU UJNF IF TBX JU C )F TBWFE UIF SPVOE PCKFDU GSPN IJN UIF WFSZ mSTU UJNF UIFZ TBX JU ɩF UXP JOTUBODFT PG GSPN IBWF EJĊFSFOU TFOTFT CVU NPTU PG UIF XPSET JO B XJOEPX BSPVOE UIF XPSE BSF FJUIFS OPU JOGPSNBUJWF PS FWFO NJTMFBEJOH 8F OFFE B CFUUFS NFDIBOJTN GPS TFMFDUJOH JOGPSNBUJWF DPOUFYUT 0OF PQUJPO XPVME CF UP VTF B IFVSJTUJD TVDI BT iUIF mSTU WFSC PO UIF MFGUw BOE iUIF mSTU OPVO PO UIF SJHIUw ɩFTF XJMM DBQUVSF UIF USJQMFUT hMJLFE GSPN UJNFi BOE hTBWFE GSPN IJNi XIJDI JOEFFE DPOUBJO UIF FTTFODF PG UIF QSFQPTJUJPO TFOTF *O MJOHVJTUJD UFSNT XF TBZ UIBU UIJT IFVSJTUJD IFMQT VT DBQUVSF UIF HPWFSOPS BOE UIF BOE PCKFDU PG UIF QSFQPTJUJPO #Z LOPXJOH UIF JEFOUJGZ PG UIF QSFQPTJUJPO BT XFMM BT JUT HPWFSOPS BOE PCKFDUT IVNBOT DBO JO

จ຺ʹຒΊࠐ·Εͨ୯ޠͱݴޠֶతૉੑɿલஔࢺҙຯᐆດੑղফ !13 લஔࢺҙຯᐆດੑղফ QSFQPTJUJPOTFOTFEJTBNCJHVBUJPO ‣ <B>໨త 163104& <C>डӹऀ
#&/&'*$*"3: <D>ظؒ %63"5*0/ <E>৔ॴ -0$"5*0/ ‣ લஔࢺपΓͷ૭Λૉੑͱͯ͠༻͍Δͷ͸ཧ૝తͰ͸ͳ͍ ‣ Ή͠ΖώϡʔϦεςΟοΫʢࠨଆͷ࠷ॳͷಈࢺˍӈଆͷ࠷ॳͷ໊ࢺʣ͕༗ޮ w લஔࢺͷࢧ഑ཁૉ HPWFSOPS ͱ໨తޠ PCKFDU Λ֫ಘͰ͖Δ w ґଘߏ଄ύʔβʢޙड़ʣͷ݁Ռ΋༻͍ͯϩόετʹ͢Δ 803% */ $0/5&95 -*/(6*45*$ '&"563&4 13&104*5*0/ 4&/4& %*4".#*(6"5*0/ 1SFQPTJUJPOT XPSET MJLF PO JO XJUI BOE GPS TFSWF GPS DPOOFDUJOH QSFEJDBUFT XJUI UIFJS BSHV NFOUT BOE OPVOT XJUI UIFJS QSFQPTJUJPOBM NPEJmFST 1SFQPTJPOT BSF WFSZ DPNNPO BOE BMTP WFSZ BNCJHVPVT $POTJEFS GPS FYBNQMF UIF XPSE GPS JO UIF GPMMPXJOH TFOUFODFT B 8F XFOU UIFSF GPS MVODI C )F QBJE GPS NF D 8F BUF GPS UXP IPVST E )F XPVME IBWF MFGU GPS IPNF CVU JU TUBSUFE SBJOJOH ɩF XPSE GPS QMBZT B EJĊFSFOU SPMF JO FBDI PG UIFN JO B JU JOEJDBUFT B 1ĦģġĠĤĖ JO C B #ĖğĖėĚ ĔĚĒģĪ JO D B %ĦģĒĥĚĠğ BOE JO E B -ĠĔĒĥĚĠğ *O PSEFS UP GVMMZ VOEFSTUBOE UIF NFBOJOH PG B TFOUFODF POF TIPVME BSHVBCMMZ LOPX UIF DPSSFDU TFOTFT PG UIF QSFQPTJUJPOT XJUIJO JU ɩF QSFQPTJUJPOTFOTF EJTBNCJHVBUJPO UBTL EFBMT XJUI BTTJHOJOH UIF DPSSFDU TFOTF UP B QSFQPTJUJPO JO DPOUFYU GSPN B mOJUF JOWFOUPSZ PG TFOTFT 4DIOFJEFS FU BM < > EJTDVTT UIF UBTL QSFTFOU B VOJmFE TFOTF JOWFOUPSZ UIBU DPWFST NBOZ QSFQPTJ 803%*/$0/5&95 -*/(6*45*$'&"563&413&104*5*0/4&/4&%*4".#*(6"5*0/ UJPOT BOE QSPWJEF B TNBMM BOOPUBUFE DPSQVT PG TFOUFODFT GSPN POMJOF SFWJFXT DPWFSJOH QSFQPTJUJPO NFOUJPOT FBDI BOOPUBUFE XJUI JUT TFOTFŇ 8IJDI BSF B HPPE TFU PG GFBUVSFT GPS UIF QSFQPTJUJPO TFOTF EJTBNCJHVBUJPO UBTL 8F GPMMPX IFSF UIF GFBUVSF TFU JOTQJSFE CZ UIF XPSL PG )PWZ FU BM <> 0CWJPVTMZ UIF QSFQPTJUJPO JUTFMG JT B VTFGVM GFBUVSF UIF EJTUSJCVUJPO PG QPTTJCMF TFOTFT GPS JO JT WFSZ EJĊFSFOU GSPN UIF EJTUSJCVUJPO PG TFOTFT GPS XJUI PS BCPVU GPS FYBNQMF #FTJEFT UIBU XF XJMM MPPL JO UIF DPOUFYU JO XIJDI UIF XPSE PDDVST " mYFE XJOEPX BSPVOE UIF QSFQPTJUJPO NBZ OPU CF JEFBM JO UFSNT PG JOGPSNBUJPO DPOUFOU UIPVHIU $POTJEFS GPS FYBNQMF UIF GPMMPXJOH TFOUFODFT B )F MJLFE UIF SPVOE PCKFDU GSPN UIF WFSZ mSTU UJNF IF TBX JU C )F TBWFE UIF SPVOE PCKFDU GSPN IJN UIF WFSZ mSTU UJNF UIFZ TBX JU ɩF UXP JOTUBODFT PG GSPN IBWF EJĊFSFOU TFOTFT CVU NPTU PG UIF XPSET JO B XJOEPX BSPVOE UIF XPSE BSF FJUIFS OPU JOGPSNBUJWF PS FWFO NJTMFBEJOH 8F OFFE B CFUUFS NFDIBOJTN GPS TFMFDUJOH JOGPSNBUJWF DPOUFYUT 0OF PQUJPO XPVME CF UP VTF B IFVSJTUJD TVDI BT iUIF mSTU WFSC PO UIF MFGUw BOE iUIF mSTU OPVO PO UIF SJHIUw ɩFTF XJMM DBQUVSF UIF USJQMFUT hMJLFE GSPN UJNFi BOE hTBWFE GSPN IJNi XIJDI JOEFFE DPOUBJO UIF FTTFODF PG UIF QSFQPTJUJPO TFOTF *O MJOHVJTUJD UFSNT XF TBZ UIBU UIJT IFVSJTUJD IFMQT VT DBQUVSF UIF HPWFSOPS BOE UIF BOE PCKFDU PG UIF QSFQPTJUJPO #Z LOPXJOH UIF JEFOUJGZ PG UIF QSFQPTJUJPO BT XFMM BT JUT HPWFSOPS BOE PCKFDUT IVNBOT DBO JO NBOZ DBTFT JOGFS UIF TFOTF PG UIF QSFQPTJUJPO VTJOH SFBTPOJOH QSPDFTTFT BCPVU UIF mOFHSBJOFE QSFQPTJUJPO NFOUJPOT FBDI BOOPUBUFE XJUI JUT TFOTFŇ 8IJDI BSF B HPPE TFU PG GFBUVSFT GPS UIF QSFQPTJUJPO TFOTF EJTBNCJHVBUJPO UBTL IFSF UIF GFBUVSF TFU JOTQJSFE CZ UIF XPSL PG )PWZ FU BM <> 0CWJPVTMZ UIF QSFQPTJUJPO JUTFMG JT B VTFGVM GFBUVSF UIF EJTUSJCVUJPO PG QPTTJCMF JO JT WFSZ EJĊFSFOU GSPN UIF EJTUSJCVUJPO PG TFOTFT GPS XJUI PS BCPVU GPS FYBNQMF #F XF XJMM MPPL JO UIF DPOUFYU JO XIJDI UIF XPSE PDDVST " mYFE XJOEPX BSPVOE UIF Q NBZ OPU CF JEFBM JO UFSNT PG JOGPSNBUJPO DPOUFOU UIPVHIU $POTJEFS GPS FYBNQMF UIF TFOUFODFT B )F MJLFE UIF SPVOE PCKFDU GSPN UIF WFSZ mSTU UJNF IF TBX JU C )F TBWFE UIF SPVOE PCKFDU GSPN IJN UIF WFSZ mSTU UJNF UIFZ TBX JU ɩF UXP JOTUBODFT PG GSPN IBWF EJĊFSFOU TFOTFT CVU NPTU PG UIF XPSET JO B XJOEPX XPSE BSF FJUIFS OPU JOGPSNBUJWF PS FWFO NJTMFBEJOH 8F OFFE B CFUUFS NFDIBOJTN GP JOGPSNBUJWF DPOUFYUT 0OF PQUJPO XPVME CF UP VTF B IFVSJTUJD TVDI BT iUIF mSTU W MFGUw BOE iUIF mSTU OPVO PO UIF SJHIUw ɩFTF XJMM DBQUVSF UIF USJQMFUT hMJLFE GSPN hTBWFE GSPN IJNi XIJDI JOEFFE DPOUBJO UIF FTTFODF PG UIF QSFQPTJUJPO TFOTF *O MJOHV XF TBZ UIBU UIJT IFVSJTUJD IFMQT VT DBQUVSF UIF HPWFSOPS BOE UIF BOE PCKFDU PG UIF Q #Z LOPXJOH UIF JEFOUJGZ PG UIF QSFQPTJUJPO BT XFMM BT JUT HPWFSOPS BOE PCKFDUT IVN NBOZ DBTFT JOGFS UIF TFOTF PG UIF QSFQPTJUJPO VTJOH SFBTPOJOH QSPDFTTFT BCPVU UIF m TFNBOUJDT PG UIF XPSET ɩF IFVSJTUJD GPS FYUSBDUJOH UIF PCKFDU BOE HPWFSOPS SFRVJSFT B 104UBHHFS JO PSEFS UP JEFOUJGZ UIF OPVOT BOE WFSCT *U JT BMTP TPNFXIBU CSJUUMF IBSE UP JNBHJOF DBTFT JO XIJDI JU GBJMT 8F DPVME SFmOF UIF IFVSJTUJD XJUI NPSF SVMFT SPCVTU BQQSPBDI XPVME CF UP VTF B EFQFOEFODZ QBSTFS UIF HPWFSOPS BOE PCKFDU JOGP FBTJMZ SFBEBCMF GSPN UIF TZOUBDUJD USFF SFEVDJOH UIF OFFE GPS DPNQMFY IFVSJTUJDT he liked the round object from the very first time he saw it nsubj nsubj dobj det amod amod amod det rcmod dobj prep pobj root 0G DPVSTF UIF QBSTFS VTFE GPS QSPEVDJOH UIF USFF NBZ CF XSPOH UPP 'PS SPCVTUOFTT X

จ຺ʹຒΊࠐ·Εͨ୯ޠͷؒͷؔ܎ɿΞʔΫΛ୯Ґͱͨ͠ύʔδϯά !14 ґଘߏ଄ύʔδϯά EFQFOEFODZQBSTJOH ‣ ౷ޠతґଘߏ଄໦ TZOUBDUJDEFQFOEFODZUSFF Λฦ͢
‣ Oݸͷ୯ޠͱ୯ޠͷؔ܎ʢΞʔΫʣʹείΞ"3$4$03& I N TFOU ΛׂΓ౰ͯΔ w จTFOUɺओࣙ୯ޠީิͷΠϯσοΫεIɺम০ޠ୯ޠީิͷΠϯσοΫεN 3&-"5*0/ #&58&&/ 803%4 */ $0/5&95 "3$'"$503&% 1"34*/( ɩF QSFQPTJUJPOTFOTF EJTBNCJHVBUJPO UBTL JT BO FYBNQMF PG B IJHIMFWFM TFNBOUJD DMBTTJm DBUJPO QSPCMFN GPS XIJDI XF OFFE B TFU PG GFBUVSFT UIBU DBOOPU CF SFBEJMZ JOGFSSFE GSPN UIF TVSGBDF GPSNT BOE DBO CFOFmU GSPN MJOHVJTUJD QSFQSPDFTTJOH JF 104UBHHJOH BOE TZOUBDUJD QBSTJOH BT XFMM BT GSPN TFMFDUFE QJFDFT PG JOGPSNBUJPO GSPN NBOVBMMZ DVSBUFE TFNBOUJD MFYJDPOT 3&-"5*0/ #&58&&/ 803%4 */ $0/5&95 "3$'"$503&% 1"34*/( *O UIF EFQFOEFODZ QBSTJOH UBTL XF BSF HJWFO B TFOUFODF BOE OFFE UP SFUVSO B TZOUBDUJD EFQFOEFODZ USFF PWFS JU TVDI BT UIF USFF JO 'JHVSF &BDI XPSE JT BTTJHOFE B QBSFOU XPSE FYDFQU GPS UIF NBJO XPSE PG UIF TFOUFODF XIPTF QBSFOU JT B TQFDJBM _PPh TZNCPM the boy with the black shirt opened the door with a key det prep prep amod det pobj nsubj root dobj pobj det det 'JHVSF %FQFOEFODZ USFF 'PS NPSF JOGPSNBUJPO PO UIF EFQFOEFODZ QBSTJOH UBTL JUT MJOHVJTUJD GPVOEBUJPOT BOE BQ QSPBDIFT UP JUT TPMVUJPO TFF UIF CPPL CZ ,àCMFS FU BM <> 0OF BQQSPBDI UP NPEFMJOH UIF UBTL JT UIF BSDGBDUPSFE BQQSPBDI <.D%POBME FU BM > XIFSF FBDI PG UIF QPTTJCMF n2 XPSEXPSE SFMBUJPOT BSDT JT BTTJHOFE B TDPSF JOEFQFOEFOU PG UIF PUIFST BOE UIFO XF TFBSDI GPS UIF WBMJE USFF XJUI UIF NBYJNBM PWFSBMM TDPSF ɩF TDPSF BTTJHONFOU JT NBEF CZ B USBJOFE TDPSJOH GVODUJPO "ģĔ4ĔĠģĖ.h; m; sent/ SFDFJWJOH B TFOUFODF BT XFMM BT UIF JOEJDFT h BOE m PG UXP XPSET XJUIJO JU UIBU BSF DPOTJEFSFE BT DBOEJEBUFT GPS BUUBDINFOU h JT UIF JOEFY PG UIF DBOEJEBUF IFBEXPSE BOE m JT UIF JOEFY PG UIF DBOEJEBUF NPEJmFS 5SBJOJOH UIF TDPSJOH GVODUJPO TVDI UIBU JU XPSLT XFMM XJUI UIF TFBSDI QSPDFEVSF XJMM CF EJTDVTTFE JO $IBQUFS

จ຺ʹຒΊࠐ·Εͨ୯ޠͷؒͷؔ܎ɿΞʔΫΛ୯Ґͱͨ͠ύʔδϯά !15 Α͘࢖ΘΕΔૉੑ ‣ ओࣙ୯ޠͷޠܗͱ඼ࢺλά w DBLFBUF ‣ म০ޠͷޠܗͱ඼ࢺλάʢUIF
Bʣ ‣ ओࣙ୯ޠͷ྆ଆ̎ޠͷ૭ ‣ म০ޠͷ྆ଆ̎ޠͷ૭ ‣ ୯ޠΫϥελɾ୯ޠຒΊࠐΈͳͲͷ෼෍࿦త৘ใ w Ұൠʹґଘߏ଄໦ͷ܇࿅ίʔύε͸͋·Γେ͖͘ͳ͍ ‣ ୯ޠͱ୯ޠͷڑ཭EJTUcINc ‣ ୯ޠؒͷํ޲ w XNUIF XICPZͷͱ͖ɺNIͩͱΞʔΫ͕షΒΕΔՄೳੑߴ͍͕ɺNIͩͱ΄΅ͳ͍ ‣ ୯ޠؒʹݱΕΔ୯ޠͷޠܗ w UIFʜBʜCPZͷΑ͏ʹ UIF CPZ ͷؒʹݶఆࢺ͕͋Δ৔߹ɺUIF͕CPZʹ͔͔ΔՄೳੑ͸௿͍

໨࣍ !16 ୈ̎ฤɹࣗવݴޠσʔλͷѻ͍ ‣ ୈ̒ষɹςΩετσʔλͷͨΊͷૉੑ ‣ ୈ̓ষɹࣄྫݚڀɿࣗવݴޠॲཧʹ͓͚Δૉੑ w จॻ෼ྨɿݴޠಉఆ
w จॻ෼ྨɿτϐοΫ෼ྨ w จॻ෼ྨɿஶऀಛఆ w จ຺ʹຒΊࠐ·Εͨ୯ޠɿ඼ࢺλά෇͚ w จ຺ʹຒΊࠐ·Εͨ୯ޠɿݻ༗දݱೝࣝ w จ຺ʹຒΊࠐ·Εͨ୯ޠͱݴޠֶతૉੑɿલஔࢺҙຯᐆດੑղফ w จ຺ʹຒΊࠐ·Εͨ୯ޠͷؒͷؔ܎ɿΞʔΫΛ୯Ґͱͨ͠ύʔδϯά

20190407 第7章事例研究:自然言語処理における素性

20190407 第7章事例研究:自然言語処理における素性

kmotohas

More Decks by kmotohas

Other Decks in Technology

Featured

Transcript

!LNPUPIBT ຊڷݴޠॲཧษڧձ ୈ7ষ ࣄྫݚڀɿࣗવݴޠॲཧʹ͓͚Δૉੑ

ࣗݾ঺հ !2 ຊڮ࿨و !LNPUPIBT ‣ ౦޻େجૅ෺ཧֶઐ߈1I%

໨࣍ !3 ୈ̎ฤɹࣗવݴޠσʔλͷѻ͍ ‣ ୈ̒ষɹςΩετσʔλͷͨΊͷૉੑ ‣ ୈ̓ষɹࣄྫݚڀɿࣗવݴޠॲཧʹ͓͚Δૉੑ w จॻ෼ྨɿݴޠಉఆ

จॻ෼ྨɿݴޠಉఆ !4 จࣈόΠάϥϜͷόοάʢCBHPGMFUUFSCJHSBNTʣ͕ڧྗ @btsmith #nlp ▪ Character n-gram frequencies

จॻ෼ྨɿݴޠಉఆ !5 จࣈූ߸ԽํࣜಉఆʢFODPEJOHEFUFDUJPOʣʹ͸όΠτόΠάϥϜͷόοά͕༗ޮ Figure 2: Byte-based method vs. character-based

จॻ෼ྨɿτϐοΫ෼ྨ !6 จষ㱨\ܦࡁ੓࣏εϙʔπϨδϟʔΰγοϓੜ׆ͦͷଞ^ʁ ҙຯతͳجຊతͳ୯Ґ͸୯ޠ  ʢޠॱ͸͋·ΓҙຯΛ࣋ͨͳ͍ʣ ‣ ୯ޠͷόοά CBDLPGXPSET

จॻ෼ྨɿஶऀಛఆ !7 ஶऀ໊ɾੑผɾ೥ྸɾ฼ޠͳͲɺஶऀͷಛ௃Λਪఆ จষͷελΠϧʹؔ͢Δಛ௃͕༗༻ ‣ ඼ࢺλάͱػೳޠ GVODUJPOXPSE

จॻ෼ྨɿஶऀಛఆ !8 ྫɿl#VJMEJOH.BDIJOF-FBSOJOH4ZTUFNTXJUI1ZUIPOzͷ֤ষͷஶऀಛఆ ‣ CZ8JMMJ3JDIFSUBOE-VJT1FESP$PFMIP ڭࢣͳֶ͠शͷख๏Λར༻ͯ͠શষͷஶऀಛఆͰશ໰ਖ਼ղ ‣ Ұจ͋ͨΓͷฏۉ୯ޠ਺

จ຺ʹຒΊࠐ·Εͨ୯ޠɿ඼ࢺλά෇͚ !9 ඼ࢺλά෇͚ QBSUTPGTQFFDIUBHHJOH w ྫ 6OJWFSTBM5SFFCBOL1SPKFDU ܗ༰ࢺɺ઀ஔࢺɺ෭ࢺɺॿಈࢺɺ౳Ґ઀ଓࢺɺݶఆࢺɺؒ౤ࢺɺ

จ຺ʹຒΊࠐ·Εͨ୯ޠɿݻ༗දݱೝࣝ !10 タスク説明: 固有表現抽出 • テキスト中から人名や組織名ような固有表現 (NE)

จ຺ʹຒΊࠐ·Εͨ୯ޠɿݻ༗දݱೝࣝ !11 ܥྻϥϕϦϯά໰୊ TFRVFODFMBCFMJOHUBTL ͱͯ͠ఆࣜԽ ‣ ϥϕϧ෇͚ͷεΩʔϚ#0λά #FHJOOTJEF0VUTJEFFODPEFEUBH

จ຺ʹຒΊࠐ·Εͨ୯ޠͱݴޠֶతૉੑɿલஔࢺҙຯᐆດੑղফ !12 લஔࢺҙຯᐆດੑղফ QSFQPTJUJPOTFOTFEJTBNCJHVBUJPO ‣ <B>໨త 163104& <C>डӹऀ

จ຺ʹຒΊࠐ·Εͨ୯ޠͱݴޠֶతૉੑɿલஔࢺҙຯᐆດੑղফ !13 લஔࢺҙຯᐆດੑղফ QSFQPTJUJPOTFOTFEJTBNCJHVBUJPO ‣ <B>໨త 163104& <C>डӹऀ

จ຺ʹຒΊࠐ·Εͨ୯ޠͷؒͷؔ܎ɿΞʔΫΛ୯Ґͱͨ͠ύʔδϯά !14 ґଘߏ଄ύʔδϯά EFQFOEFODZQBSTJOH ‣ ౷ޠతґଘߏ଄໦ TZOUBDUJDEFQFOEFODZUSFF Λฦ͢

จ຺ʹຒΊࠐ·Εͨ୯ޠͷؒͷؔ܎ɿΞʔΫΛ୯Ґͱͨ͠ύʔδϯά !15 Α͘࢖ΘΕΔૉੑ ‣ ओࣙ୯ޠͷޠܗͱ඼ࢺλά w DBLFBUF ‣ म০ޠͷޠܗͱ඼ࢺλάʢUIF

໨࣍ !16 ୈ̎ฤɹࣗવݴޠσʔλͷѻ͍ ‣ ୈ̒ষɹςΩετσʔλͷͨΊͷૉੑ ‣ ୈ̓ষɹࣄྫݚڀɿࣗવݴޠॲཧʹ͓͚Δૉੑ w จॻ෼ྨɿݴޠಉఆ

20190407 第7章 事例研究:自然言語処理における素性

20190407 第7章 事例研究:自然言語処理における素性

More Decks by kmotohas

Other Decks in Technology

Featured

Transcript

20190407 第7章事例研究:自然言語処理における素性

20190407 第7章事例研究:自然言語処理における素性