図で理解する自然言語処理/nlp_tutorial

 図で理解する自然言語処理/nlp_tutorial

A1a9f42c83fdfddcfed0da2b981d4fea?s=128

Toshiharu Nishina

January 20, 2018
Tweet

Transcript

  1. ਔՊढ़੖ 2018/1/9 ਤͰཧղ͢Δ ॳΊͯͷࣗવݴޠॲཧ֓࿦ 

  2. εϖʔεଠ࿠ 2017/12/16 ʙ αϒλΠτϧ ʙ εϖʔεϚʔέοτ ϓϨθϯςʔγϣϯςϯϓϨʔτ ਔՊ ढ़੖(@nishina555) ΩϟϦΞ:

    
 ָఱ (2014 - 2017)
 εϖʔεϚʔέοτ (2017.6 - )
 ٕज़ελοΫ:
 Rails, React ࣗݾ঺հ 
  3. εϖʔεଠ࿠ 2017/12/16 ʙ αϒλΠτϧ ʙ εϖʔεϚʔέοτ ϓϨθϯςʔγϣϯςϯϓϨʔτ ਔՊ ढ़੖(@nishina555) ΩϟϦΞ:

    
 ָఱ (2014 - 2017)
 εϖʔεϚʔέοτ (2017.6 - )
 ٕज़ελοΫ:
 Rails, React ࣗݾ঺հ  εϖʔεΛି͍ͨ͠ਓͱआΓ͍ͨਓΛܨ͛ΔϓϥοτϑΥʔϜΛఏڙ εϖʔεϚʔέοτͷαʔϏε঺հ  ฐٕࣾज़ελοΫʹ͍ͭͯ͸ΤϯδχΞϒϩάΛࢀর͍ͩ͘͞
 http://blog.spacemarket.com/code/tech_stack_2017/
  4. ੈͷத͸ࣗવݴޠΛར༻ٕͨ͠ज़Ͱ͋;Ε͍ͯΔ ػց຋༁ ݕࡧ ࣭ٙԠ౴ ࣗવݴޠ(ςΩετσʔλͳͲ)͔Β৘ใΛநग़͠ɺΞ΢τϓοτͱͯ͠ఏڙ 

  5. ੈͷத͸ࣗવݴޠΛར༻ٕͨ͠ज़Ͱ͋;Ε͍ͯΔ ػց຋༁ ݕࡧ ࣭ٙԠ౴ ࣗવݴޠ(ςΩετσʔλͳͲ)͔Β৘ใΛநग़͠ɺΞ΢τϓοτͱͯ͠ఏڙ ࣗવݴޠॲཧ(NLP)ͱ͍͏ٕज़͕ࠜװʹ͋Δ 

  6. ࣗવݴޠॲཧͱ͸ͳΜͳͷ͔ ςΩετσʔλΛ
 ॲཧ͢Δٕज़ʁ σʔλϚΠχϯάͱ͔ͱ
 ؔ܎͢Δٕज़ʁ ۩ମతʹ͸Ͳ͏͍ͬͨ෼໺ͳͷ͔Α͘Θ͔Βͳ͍ 

  7. ࣗવݴޠॲཧͱ͸ͳΜͳͷ͔ ςΩετσʔλΛ
 ॲཧ͢Δٕज़ʁ σʔλϚΠχϯάͱ͔ͱ
 ؔ܎͢Δٕज़ʁ ࠓճ͸ࣗવݴޠॲཧͱ͍͏ݚڀ෼໺ͷ֓ཁΛ঺հ ۩ମతʹ͸Ͳ͏͍ͬͨ෼໺ͳͷ͔Α͘Θ͔Βͳ͍ 

  8. NLPͷ෼໺ͷશମ૾ 

  9. NLPͷݚڀ෼໺ͷશମ૾ ஌ࣝ৘ใ ৘ใݯ य़ͳͷͰࡩΛݟʹߦͬͨ य़ͳͷͰࡩΛݟʹߦͬͨɻ ਓ͕ͱͯ΋ͨ͘͞Μ͍ͨ ͚Ͳ៉ྷͰʜ ߏ଄Խ
 σʔλ य़ͳͷͰࡩΛݟʹߦͬͨ


    ʜ ୯ޠղੳ จղੳ จ຺ղੳ ܗଶૉղੳ ܎Γड͚ղੳ ػցֶशͳͲ ஌ࣝ֫ಘ ࡩ͸ՖͷҰछͩ य़ʹ͸ࡩ͕࡙͘ 
  10. ୯ޠղੳ 

  11. ܗଶૉղੳثΛར༻͠ɺจΛจઅ͝ͱʹ෼͚Δ ܗଶૉղੳ ୯ޠղੳͷྫ य़ͳͷͰࡩΛݟʹߦͬͨ य़ ໊ࢺ,Ұൠ,*,*,*,*,य़,ϋϧ,ϋϧ ͳ ॿಈࢺ,*,*,*,ಛघɾμ,ମݴ઀ଓ,ͩ,φ,φ ͷͰ ॿࢺ,઀ଓॿࢺ,*,*,*,*,ͷͰ,ϊσ,ϊσ

    ࡩ ໊ࢺ,Ұൠ,*,*,*,*,ࡩ,αΫϥ,αΫϥ Λ ॿࢺ,֨ॿࢺ,Ұൠ,*,*,*,Λ,Ϯ,Ϯ ݟ ಈࢺ,ཱࣗ,*,*,Ұஈ,࿈༻ܗ,ݟΔ,ϛ,ϛ ʹ ॿࢺ,֨ॿࢺ,Ұൠ,*,*,*,ʹ,χ,χ ߦͬ ಈࢺ,ཱࣗ,*,*,ޒஈɾΧߦଅԻศ,࿈༻λ઀ଓ,ߦ͘,Πο,Πο ͨ ॿಈࢺ,*,*,*,ಛघɾλ,جຊܗ,ͨ,λ,λ ղੳث: MeCab, ChaSen, JUMAN++, KyteaͳͲ 
  12. จதͷ୯ޠͷڞى(ಉ͡จͰ͋Δ୯ޠͷϖΞ͕ಉ࣌ʹग़ݱ͢Δ͜ͱ)
 Λݩʹ୯ޠΛϕΫτϧԽ(จ຺ϕΫτϧ)͢Δ ୯ޠͷྨࣅ౓Λଌఆ͢Δ͜ͱ͕Ͱ͖ɺΫϥελϦϯάͳͲʹԠ༻
 ͞ΕΔ ྨࣅ౓ଌఆ ୯ޠղੳͷྫ 

  13. य़ʹࡩΛݟͨ ࡩͷ༿͕៉ྷͩ ࡩ͕࡙͘ͷΛݟͨ จ຺ϕΫτϧʹΑΔྨࣅ౓ଌఆ ڞىճ਺ य़ കӍ ༿ ݟΔ ࡙͘

    ɾɾɾ ࡩ      ɾɾɾ 
  14. य़ʹࡩΛݟͨ ࡩͷ༿͕៉ྷͩ ࡩ͕࡙͘ͷΛݟͨ จ຺ϕΫτϧʹΑΔྨࣅ౓ଌఆ य़ കӍ ༿ ݟΔ ࡙͘ ɾɾɾ

    ࡩ      ɾɾɾ ࢵཅՖ͕࡙͍͍ͯͨ ࢵཅՖ͕࡙͖΋͏കӍͩ ࢵཅՖͷ༿͕ݟ͑Δ य़ കӍ ༿ ݟΔ ࡙͘ ɾɾɾ ࢵཅՖ      ɾɾɾ 
  15. य़ʹࡩΛݟͨ ࡩͷ༿͕៉ྷͩ ࡩ͕࡙͘ͷΛݟͨ จ຺ϕΫτϧʹΑΔྨࣅ౓ଌఆ ࢵཅՖ͕࡙͍͍ͯͨ ࢵཅՖ͕࡙͖΋͏കӍͩ ࢵཅՖͷ༿͕ݟ͑Δ ҙຯ͕ࣅ͍ͯΔ΋ͷ͸จ຺ϕΫτϧ͕ࣅ͍ͯΔ य़ കӍ

    ༿ ݟΔ ࡙͘ ɾɾɾ ࡩ      ɾɾɾ य़ കӍ ༿ ݟΔ ࡙͘ ɾɾɾ ࢵཅՖ      ɾɾɾ 
  16. จղੳ 

  17. ڞىΛखֻ͔Γʹͨ͠ղੳͷ໰୊఺ ྫ.ʮΤϯδϯΛ͔͚ͨΒΤΞίϯ͕ނোͨ͠ʯ ނোͨ͠ͷ͸ΤΞίϯͰ͋ΓɺΤϯδϯͰ͸ͳ͍ɻ
 (͔͠͠ɺނোͱΤϯδϯ͸ڞى͍ͯ͠Δ) ෳࡶͳจʹͳΔͱҙਤ͍ͯ͠ͳ͍ڞى΋Χ΢ϯτ͞ΕΔ ୯ޠղੳ͚ͩͰ͸ෆे෼ͳέʔε͕͋Δ 

  18. ୯ޠͷम০ɺඃम০Λղੳ͢Δ͜ͱɻ(ߏจղੳ) ղੳث: CaboCha, KNP, J.DepPͳͲ ܎Γड͚ղੳ จղੳͷྫ(1/3) य़ͳͷͰࡩΛݟʹߦͬͨ * 0

    3D 0/2 -1.916488 य़ ໊ࢺ,Ұൠ,*,*,*,*,य़,ϋϧ,ϋϧ ͳ ॿಈࢺ,*,*,*,ಛघɾμ,ମݴ઀ଓ,ͩ,φ,φ ͷͰ ॿࢺ,઀ଓॿࢺ,*,*,*,*,ͷͰ,ϊσ,ϊσ * 1 2D 0/1 0.936256 ࡩ ໊ࢺ,Ұൠ,*,*,*,*,ࡩ,αΫϥ,αΫϥ Λ ॿࢺ,֨ॿࢺ,Ұൠ,*,*,*,Λ,Ϯ,Ϯ * 2 3D 0/1 -1.916488 ݟ ಈࢺ,ཱࣗ,*,*,Ұஈ,࿈༻ܗ,ݟΔ,ϛ,ϛ ʹ ॿࢺ,֨ॿࢺ,Ұൠ,*,*,*,ʹ,χ,χ * 3 -1D 0/1 0.000000 ߦͬ ಈࢺ,ཱࣗ,*,*,ޒஈɾΧߦଅԻศ,࿈༻λ઀ଓ,ߦ͘,Πο,Πο ͨ ॿಈࢺ,*,*,*,ಛघɾλ,جຊܗ,ͨ,λ,λ
  19. จղੳͷྫ(2/3) य़ͳͷͰࡩΛݟʹߦͬͨ * 0 3D 0/2 -1.916488 य़ ໊ࢺ,Ұൠ,*,*,*,*,य़,ϋϧ,ϋϧ ͳ

    ॿಈࢺ,*,*,*,ಛघɾμ,ମݴ઀ଓ,ͩ,φ,φ ͷͰ ॿࢺ,઀ଓॿࢺ,*,*,*,*,ͷͰ,ϊσ,ϊσ * 1 2D 0/1 0.936256 ࡩ ໊ࢺ,Ұൠ,*,*,*,*,ࡩ,αΫϥ,αΫϥ Λ ॿࢺ,֨ॿࢺ,Ұൠ,*,*,*,Λ,Ϯ,Ϯ * 2 3D 0/1 -1.916488 ݟ ಈࢺ,ཱࣗ,*,*,Ұஈ,࿈༻ܗ,ݟΔ,ϛ,ϛ ʹ ॿࢺ,֨ॿࢺ,Ұൠ,*,*,*,ʹ,χ,χ * 3 -1D 0/1 0.000000 ߦͬ ಈࢺ,ཱࣗ,*,*,ޒஈɾΧߦଅԻศ,࿈༻λ઀ଓ,ߦ͘,Πο,Πο ͨ ॿಈࢺ,*,*,*,ಛघɾλ,جຊܗ,ͨ,λ,λ य़ͳͷͰɹࡩΛɹݟʹɹߦͬͨ 
  20. จղੳͷྫ(3/3) ΤϯδϯΛ͔͚ͨΒΤΞίϯ͕ނোͨ͠ * 0 1D 0/1 1.744298 Τϯδϯ ໊ࢺ,Ұൠ,*,*,*,*,Τϯδϯ,Τϯδϯ,Τϯδϯ Λ

    ॿࢺ,֨ॿࢺ,Ұൠ,*,*,*,Λ,Ϯ,Ϯ * 1 3D 0/1 -1.279287 ͔͚ ಈࢺ,ཱࣗ,*,*,Ұஈ,࿈༻ܗ,͔͚Δ,Χέ,Χέ ͨΒ ॿಈࢺ,*,*,*,ಛघɾλ,Ծఆܗ,ͨ,λϥ,λϥ * 2 3D 0/1 -1.279287 ΤΞίϯ ໊ࢺ,Ұൠ,*,*,*,*,ΤΞίϯ,ΤΞίϯ,ΤΞίϯ ͕ ॿࢺ,֨ॿࢺ,Ұൠ,*,*,*,͕,Ψ,Ψ * 3 -1D 1/2 0.000000 ނো ໊ࢺ,αม઀ଓ,*,*,*,*,ނো,ίγϣ΢,ίγϣʔ ͠ ಈࢺ,ཱࣗ,*,*,αมɾεϧ,࿈༻ܗ,͢Δ,γ,γ ͨ ॿಈࢺ,*,*,*,ಛघɾλ,جຊܗ,ͨ,λ,λ ΤϯδϯΛɹ͔͚ͨΒɹΤΞίϯ͕ɹނোͨ͠ ҼՌؔ܎ͳͲͷ஌ࣝ֫ಘΛߦ͏͜ͱ͕Ͱ͖Δ 
  21. จ຺ղੳ 

  22. จষͷ৘ใΛू໿͠ϕΫτϧԽ͢Δ จ຺ղੳͷྫ ػցֶशΛར༻ͨ͠จষ෼ྨ໰୊(ϥϕϦϯά)ͳͲʹԠ༻ Ֆʹؔ͢Δจষ ৐Γ෺ʹؔ͢Δจষ ɾɾɾɾɾɾ ɾɾɾɾɾɾ ֶश 

  23. จষͷ৘ใΛू໿͠ϕΫτϧԽ͢Δ จ຺ղੳͷྫ ػցֶशΛར༻ͨ͠จষ෼ྨ໰୊(ϥϕϦϯά)ͳͲʹԠ༻ Ֆʹؔ͢Δจষ ৐Γ෺ʹؔ͢Δจষ ࡩʹؔ͢Δจষ ࡩ͸Ֆͩʂ ɾɾɾɾɾɾ ɾɾɾɾɾɾ ֶश

    ൑ผ 
  24. NLPʹ͸୯ޠղੳɺจղੳɺจ຺ղੳͳͲ͕͋Δ NLPͷԠ༻ྫͱͯ͠ػց຋༁ɺݕࡧɺ࣭ٙԠ౴ͳͲ ͕͋Δ ·ͱΊ