Upgrade to Pro — share decks privately, control downloads, hide ads and more …

commons-math3 ではじめるゆるふわ統計&機械学習

commons-math3 ではじめるゆるふわ統計&機械学習

DBFlute フェス 2014 http://connpass.com/event/9544/ での発表資料です。
commons-math3 を使って基本統計量を求めたり相関係数を求めたり仮説検定してみたり、はたまた回帰モデルで予測してみたりクラスタリングする方法についてゆるふわに説明しています。

KOMIYA Atsushi

November 22, 2014
Tweet

More Decks by KOMIYA Atsushi

Other Decks in Programming

Transcript

  1. • org.apache.commons.math3 • distribution … ֬཰෼෍ • linear … ߦྻԋࢉ

    • ml … ػցֶश • cluster … ΫϥελϦϯά • neuralnet … χϡʔϥϧωοτϫʔΫ • optim … ʢઢܗܭը๏ͳͲͷʣ࠷దԽ • stat • correlation … ૬ؔ܎਺ • descriptive … هड़౷ܭ • inference … Ծઆݕఆ • regression … ճؼ ˞શύοέʔδͰ͸ͳ͘ɺҰ෦Λྻڍ
  2. distribution • ֬཰෼෍ • ͱʹ͔͘๛෋Ͱɺϝδϟʔͳ΋ͷ͸͢΂ͯ཈͑ͯ͋Δײ͡ • ਖ਼ن෼෍ • t ෼෍

    • ϙΞιϯ෼෍ • ΧΠೋ৐෼෍ • ϕʔλ෼෍ • ϫΠϒϧ෼෍ • …ͳͲͳͲ
  3. ʮ༑ୡʹ΋ΒͬͨαΠίϩ͕͋ΔΜ͚ͩ Ͳɺ͜ΕͬͯϑΣΞͳαΠίϩͳͷ͔ͳʁʯ • ʢ࿡໘ମʣαΠίϩͷ֤໨ͷग़ݱ֬཰͕౳͍͔͠Λ֬ೝ͢Δ ͨΊʹɺΧΠೋ৐ݕఆΛ࢖͍·͢ • ChiSquareTest ΫϥεΛར༻͠·͢ • ֤ࣄ৅ͷظ଴͞ΕΔ֬཰ʢ1/6ʣͱ؍ଌ݁Ռͷ౓਺ʢ࣮ࡍʹ

    αΠίϩΛৼͬͯΈͯɺͦΕͧΕͷ໨ͷग़ͨճ਺ʣɺ༗ҙਫ ४Λࢦఆͯ͠ ChiSquareTest#chiSquareTest() Λݺͼग़ ͢͜ͱͰɺݕఆ݁ՌʢؼແԾઆͷڐ༰ʗ٫Լʣ͕ಘΒΕ·͢ • ؼແԾઆ ʹ αΠίϩͷ֤໨ͷग़ݱ֬཰͸౳͍͠
  4. ʮ͓ʔ͍ɺ̋̋܅ɺ݄ผͷฏۉؾԹͱϏʔϧͷ ച্͸૬͍ؔͯ͠Δͷ͔ɺௐ΂ͯ͘Εͳ͍͔ Ͷʁʯ • ૬ؔͷ༗ແΛ֬ೝ͢ΔͨΊʹɺ૬ؔ܎਺Λ
 ࢉग़͢Δඞཁ͕͋Γ·͢ • PearsonsCorrelation ΫϥεΛ࢖͍·͢ •

    ࣄલʹɺ૬ؔ܎਺ΛٻΊ͍ͨ 2 ͭͷ਺஋ྻΛ
 ͦΕͧΕ double ഑ྻʹ͓͖ͯ͠·͢ • PearsonsCorrelation#correlation()  Ͱ
 ਺஋ྻͷ૬ؔ܎਺Λࢉग़͢Δ͜ͱ͕Ͱ͖·͢
  5. ʮԶ͞ɺΞϠϝͷ᣾΍Ֆหͷ෯ɾ௕͞Λଌఆ͢Δͷ͕झຯ Ͱଌఆ݁Ռͷσʔλ͕खݩʹ͋ΔΜ͚ͩͲɺ͜ΕΛͦͷಛ ௃͔ΒͳΜͱͳ̏ͭ͘ʹάϧʔϐϯά͍ͨ͠ΜͩΑͶ…ʯ • ΫϥελϦϯάΛ͢ΔͨΊʹɺଌఆσʔλΛ֨ೲ͢ΔΫϥεΛ࡞ Δඞཁ͕͋Γ·͢ • Clusterable ΠϯλϑΣʔεΛ࣮૷͢Δඞཁ͕͋Γ·͢ •

    ଌఆσʔλΛσʔλΫϥεͷΦϒδΣΫτʹ͠·͢ • KMeansPlusPlusClusterer ΫϥεΛར༻͠·͢ • KMeansPlusPlusClusterer#cluster()  ͰɺΫϥελϦϯά݁ ՌΛಘΔ͜ͱ͕Ͱ͖·͢ • ҰͭͷΫϥελͷ৘ใʹ૬౰͢Δ CentroidCluster ΦϒδΣ ΫτͷϦετ͕ฦ٫͞Ε·͢
  6. Ͱ΋ɺ΋͏ͪΐͬͱػցֶश͍ͨ͠… • େن໛σʔλΛѻ͍͍ͨͳΒ • ͍·΍ΔͳΒ Apache Spark ͓͢͢Ί • Hive

    ؀ڥ͕͋ΔͳΒ hivemall Ͱ΋͍͍͔΋ • Mahout ͸…… • খن໛σʔλͷ৔߹͸ • liblinear • Weka