Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文輪読会 第2回 "k-means法でエルボー法を使うのはもうやめよう"

AcademiX
February 25, 2023
610

論文輪読会 第2回 "k-means法でエルボー法を使うのはもうやめよう"

AcademiX が開催した 第2回 論文輪読会 資料

日時:2023/02/25
発表者:佐藤大地さん
論文タイトル:k-means法でエルボー法を使うのはもうやめよう

<概要>
・k-means法において最適なクラスタ数kを決める手法を比較・検討した
・エルボー法は理論的背景が乏しい上に精度が悪いので使うべきではない
・エルボー法よりも優れた手法(VRC,BIC,Gap統計量)を使うのが望ましい

AcademiX

February 25, 2023
Tweet

Transcript

  1. ॻࢽ৘ใ • ୊໊ɿStop using the elbow criterion for k-means [1]

    • ෭୊ɿand how to choose the number of clusters instead • ஶऀɿErich SchubertʢυϧτϜϯτ޻ՊେֶɺυΠπʣ • URLɿhttps://arxiv.org/abs/2212.12189 ※ ຊࢿྉʹ͓͍ͯग़యͷͳ͍ਤද͸શͯ [1] ΑΓҾ༻
  2. LNFBOT๏ͱ͸ • ࠷΋༗໊ͳΫϥελϦϯάͷख๏ • ख๏  Ϋϥελ਺ L Λࣄલʹਓ͕ܾؒΊΔ 

    ֤σʔλʹΫϥελΛϥϯμϜʹׂΓ౰ͯΔ  ֤Ϋϥελͷॏ৺Λܭࢉ  ֤σʔλΛ࠷΋͍ۙॏ৺ͷΫϥελʹׂΓ౰ͯΔ  ʙΛॏ৺͕มԽ͠ͳ͘ͳΔ·Ͱ܁Γฦ͢
  3. ΤϧϘʔ๏ͱ͸ • LNFBOT๏ͷ໰୊఺ • Ϋϥελ਺ LΛࣗ෼ͰܾΊΔඞཁ͕͋Δ • Lͷ஋ʹΑͬͯ݁Ռ͕େ͖͘ҟͳΔͨΊ ࠷దͳLͷ஋ΛٻΊΔ͜ͱ͕ॏཁ •

    ࠷దͳΫϥελ਺ LΛܾΊΔख๏ͱͯ͠ΤϧϘʔ๏͕༗໊ • ΤϧϘʔ๏͸ͭͷεςοϓͰߦ͏ʢ࣍ϖʔδҎ߱Ͱઆ໌ʣ
  4. ΤϧϘʔ๏ͱ͸  Lͷ஋Λม͑ͯLNFBOT๏Λ࣮ߦ͠ ͦΕͧΕޡࠩฏํ࿨ 44& Λܭࢉ • 44&ɿσʔλͱΫϥελͷॏ৺ͷڑ཭ͷ৐࿨ ʢ$͸Ϋϥελͷॏ৺ͷू߹ 9͸σʔλͷू߹ʣ

    SSE 𝑋, 𝐶 = ' !∈# min$∈% ||𝑥 − 𝑐||& • Ϋϥελ਺Λ૿΍͢ͱ44&͸ݮগ͢Δ 44&఺ઢͷ৐࿨ ͕̋σʔλ ˚͕ॏ৺
  5. Ϋϥελ਺ΛܾΊΔख๏ͷੑೳൺֱ ൺֱର৅ͷख๏ • ΤϧϘʔ๏ʹجͮ͘ख๏ʢδϟϯϓ๏ -๏ ,OFFEMF๏ͳͲʣ • ෼ࢄʹجͮ͘ख๏ʢ.BSSJPU 73$ ,-*OEFY

    1IBNͳͲʣ • ৘ใཧ࿦ʹجͮ͘ख๏ʢ#*$ #*$ GJYFE ʣ • ڑ཭ʹجͮ͘ख๏ʢ%VOO %# γϧΤοτ෼ੳʣ • γϛϡϨʔγϣϯʹجͮ͘ख๏ʢ(BQ౷ܭྔʣ
  6. ʲ݁Ռʳ • XFMMTFQͱPWFSMBQQJOHʹରͯ͠͸΄ͱΜͲ ͷख๏Ͱਖ਼ղ • NBOZCMPCTͱVOJGPSNͱOPSNBMʹରͯ͠͸ ख๏ʹΑͬͯ౴͕͑·ͪ·ͪ • ෼ࢄʹجͮ͘ 7BSJBODFCBTFE

    ख๏͸ VOJGPSNΛඞཁҎ্ʹ෼ׂ͢Δͱ͍͏ऑ఺͕ ͋Δ • શ໰ਖ਼ղͨ͠ͷ͸#*$ GJYFE ͷΈ • ΤϧϘʔ๏͸μϝμϝ ਅͷ஋
  7. ఏҊख๏ ຊ࿦จͰ͸ΤϧϘʔ๏ͷվળख๏ΛఏҊ͍ͯ͠Δ  44&Ͱ͸ͳ͘αϯϓϧ͋ͨΓͷ44&Λ࢖͏ɻͨͩ͠ ''( ) Ͱ͸ͳ͘ෆภ౷ܭྔ ''( )*+ ɻ

     εέʔϧͷมߋͷӨڹΛड͚ͳ͍Α͏ʹ ෼ࢄͰ͸ͳ͘ඪ४ภࠩ ''( )*+ Λ࢖͏ɻ  ϊΠζσʔλͷ44&ͷظ଴஋ 0 SSE+ ͰׂΔ͜ͱͰਖ਼نԽ͢Δ !!" #$% & !!"% #$% = ''( , ''(% 44&Ͱ͸ͳ͘ ''( , ''(% Λ࢖ͬͯ࠷దͳLΛٻΊΔ͜ͱΛఏҊ
  8. ఏҊख๏ • Lͷ஋Λม͑ͯLNFBOT๏Λߦ͍ ͦͷͱ͖ͷ44&Ͱ͸ͳ͘ ''( , ''(% Λܭࢉ͢Δ • ''(

    , ''(% ͕ΛԼճ͍ͬͯΔͱ͖͸ϊΠζσʔλΑΓ΋͏·͘44&ΛݮΒ͍ͤͯΔ ͱ͍͏͜ͱͳͷͰ ΛԼճ͍ͬͯΔ෦෼ʹண໨͢Δ • ࿦จͰ͸ ''( , ''(% ͕ • ࠷খ஋ΛऔΔLΛ࠷దͳLͱ͢Δʢ.BY SFEVDUJPOʣ • ҎԼͷ஋ΛऔΔ࠷ޙͷLΛ࠷దͳLͱ͢Δʢ-BTUSFEVDUJPOʣ ͱ͍͏ͭͷख๏ΛఏҊ