Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2つの画像が有意に異なるのか検定した話
Search
MIERUNE
PRO
May 01, 2024
0
830
2つの画像が有意に異なるのか検定した話
MIERUNE
PRO
May 01, 2024
Tweet
Share
More Decks by MIERUNE
See All by MIERUNE
Facade Patternで磨く、コードの可読性と分解力 / MIERUNE BBQ #13
mierune
PRO
0
56
ハザードマップゲームの作り方〜ハザード情報をゲームのパラメーターに落とし込む〜 / FOSS4G 2024 Japan
mierune
PRO
0
150
MIERUNEとQGIS、そしてQGIS事業のご紹介 / FOSS4G 2024 Japan
mierune
PRO
0
140
QGISで実現するもっと分かりやすい森林ゾーニング / FOSS4G 2024 Japan
mierune
PRO
0
130
君はこの色の違いを見ることができるか / MIERUNE BBQ #12
mierune
PRO
0
170
クーダでハニワ / MIERUNE BBQ #12
mierune
PRO
0
130
位置情報とオープンソースがやりたくてMIERUNEに転職した話 〜経歴、事例紹介、GISへのいざない〜 / MIERUNE JCT - Tokyo 2024
mierune
PRO
0
880
クロージング / MIERUNE JCT - Tokyo 2024
mierune
PRO
0
660
オープニング / MIERUNE JCT - Tokyo 2024
mierune
PRO
1
750
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
29
2k
Writing Fast Ruby
sferik
628
61k
The Cost Of JavaScript in 2023
addyosmani
45
7k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Bash Introduction
62gerente
608
210k
Typedesign – Prime Four
hannesfritz
40
2.4k
A Modern Web Designer's Workflow
chriscoyier
693
190k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Making Projects Easy
brettharned
116
5.9k
Transcript
2つの画像が有意に異なるのか検定した話 (トーケイのこと詳しくないけど)
自己紹介
大阪府出身 お天気の会社で環境コンサルを数年 風力発電の環境アセスでGISを使って解析したり MIERUNEには2019年11月と2023年1月に入社 何かを開発するというより、データの解析したりに興味がある X @nbayashi_n facebook 西林直哉 自己紹介
自己紹介 QGIS講習会 MIERUNEでのお仕事 QGISのプラグイン QGIS宣伝大使(自称) QiitaとかブログとかYoutubeとか
ことの発端 slackって知ってますか
ことの発端 アイコンでわかり やすい
ことの発端 ちょっとええ感じの写真を撮っても らったので、アイコンに 自分のアイコンはというと、 こんなふざけた アイコンだったのを
ことの発端 社内の他メンバーのアイコンに 似ていて紛らわしいということに・・
ことの発端 とことん似せた結果
そこまでいうなら、この二つがどれくらい似ているのか はっきりさせてやろう 確かに似てるけど、どれくらい似てるものなのか。 自信を持って2つの画像が違うものだと言いたい。 ことの発端 画像の取り扱いといえばOpenCVとか
ことの発端 OpenCVなど使えば、顔認証とか、2つの画像の特異点とか抽出できたりする(らしい)。
ことの発端 が、そんなことはしません 明確な根拠をもとに両者に差があると言いたい。 そこで 2つの画像が違うものであるかどうかを、みんな大好きな検定で試してみた 統計的に検定
「異なる2つの集団による違いが、偶然によるものであるのか、それとも何かしら意味があり必然的 に得られたものなのか」を統計的に結論付ける手法。 例えば、ある薬(例えば身長を伸ばす薬)の効果を検証するために、Aグループには実薬を、Bのグ ループには偽物の薬を与えて、両グループの伸びた身長を検証する。 この場合、AグループとBグループでそれぞれ集計したグループ内の人の伸びた身長に差があるか。 検定とは グループAの人たちの伸び た身長頻度分布 [3,4,4,5,5,5,6,6,5,7,8....] グループBの人たちの伸び
た身長頻度分布 [0,1,2,2,2,3,3,3,3,4.....] 差があるか検定
検定とは 画像のピクセル値を集計して比較すれば、 画像の違いを検定できるのでは・・・。 画像の場合
帰無仮説と対立仮説 検定の考え方 対立仮説:検定によって立証したい仮説 帰無仮説:検定によって立証したいことを否定する仮説 例えばさっきの薬の例では 「薬に効力がある」ことを立証したいので、これが対立仮説。 帰無仮説は「薬は効果がない」となる。 今回の画像の場合 「両者の画像に差がある」ということを立証したいのでこれが対立仮説 「差がない」が帰無仮説となる。
帰無仮説と対立仮説 検定の考え方 検定においてはその帰無仮説が立証される確率を求める。これをp値という。 p値が有意水準(多くの場合は5%をとることが多い。)より低いかどうかで、帰無仮説を支持するか どうかを判定する。 (この図の例は下方2.5%、上方2.5%の両側検定の場合。片側検定の場合もある)
帰無仮説と対立仮説 p値が有意水準未満(< 0.05)である場合、帰無仮説が棄却され、対立仮説が採用 される。 「薬の例なら効果がある(両者に差がある)」ということになる 有意差あり 逆にp値が有意水準以上(>= 0.05)であるとき、帰無仮説が採用される。 「効果があるとは言えない(両者に違いがあるとは言えない)ということに なる。
(有意差なし)
「有意差なし」というのは、対立仮説(差があると言うこと)を棄却するだけである。 「差がある」の反対は「差があるとは言えない」と言うこと。 「差がある」ということが言い切れないだけで、「同じもの」とは言えない (「カラスは青くない」と言っただけ、「カラスは黒い」とは限らない) = 検定を行うにあたっていくつか注意 p値>0.05 =有意差なし(帰無仮説が採用) =「両者は同じものである」と言うことではない。
検定にはさまざまな手法がある。 データの特性に合わせて適切な検定手法を用いる。 t検定:パラメトリック(標本の分布が正規分布であると仮定できる場合)に使用。 等分散であるとか、比較する2つのグループに対応関係があるかどうかで、対応のあ るt検定や2標本t検定など細かく分かれる。 分散分析(ANOVA):3群以上のグループ間を検定する マンホイットニのU検定:ノンパラメトリック(正規性がない)の場合に使用 カイ二乗検定:カテゴリカルな変数の割合を比較する際に使用 検定の種類
検定の種類 今回は、画像のピクセル値で検定を行うので以下の条件を仮定 ノンパラメトリックである(ピクセル値の頻度分布は正規分布になっていない) パラメトリック(正規分布)とは、平均値と最頻値・中央値が一致し、それを軸として左右 対称となっている頻度分布。 (自然界の多くの現象は正規分布に成り立っていることが多い。) 人間の身長、雨粒の大きさ、ある工業製品の規格誤差など・・・
検定の種類 2つのグループに対応関係はない (対応関係とは) 被験者は同じ人で、薬を投与する前のデータとした後のデータなど それぞれの集団に何かしら関わりがある状態 マンホイットニのU検定を使用することにする 今回はそれぞれ独立した画像のピクセル値 西林のアイコン 鈴木氏のアイコン
Rで実行 必要なライブラリの読み込み 画像のインポート
Rで実行 画像の色素ヒストグラムを見てみる(検定には関係ない) x,y: ピクセルの座標 cc: カラーチャンネル (1=R, 2=G, 3=B)
Rで実行 解像度の調整 元画像は512 x 512のため262,144個のサンプルが得られることになる。 サンプルサイズが大きいと有意差が出やすいため、解像度を落とす。 便宜的に1/20にする。(26 x 26 =
676この数値が得られる) 画像のプロット
Rで実行 グレースケールにする カラーだと値を[r,g,b]の3次元で扱う必要があり、ややこしくなるのでグレースケールにする ピクセル値をヒストグラムにしてみる
Rで実行 それぞれの画像のピクセル値 [1,] [2,] [3,] . . . [,1][,2][,3]....
Mann-Whitney U検定 Mann-Whitney U検定 p <0.05なので、帰無仮説は棄却される。 →対立仮説が採用され、「2つの画像は差がある」ということができる
結論 無事、両者のアイコンは 堂々と「異なるものである。」と言い張れる。
どうせならもっと似ている画像でも
どうせならもっと似ている画像でも 画像の読み込み 画像サイズを小さくする
広島東洋カープ ヒストグラム 中央大学 シンシナティ・レッズ 智弁学園和歌山高等学校野球部
検定とは 3つ以上のグループを検定する場合 クラスカル・ウォーリス検定というものもある kruskal.test(x=list(x1,x2,x3,....)) 4つのグループで有意差があるかどうかの判定であって、それ ぞれのグループ間で有意差を見るには、一つ一つ検定を行う
広島東洋カープ 中央大学 シンシナティ・ レッズ 智弁学園和歌山高等学校 野球部 広島東洋カープ 中央大学 p <0.001
シンシナティ・ レッズ p <0.001 p < 0.01 智弁学園和歌山 高等学校野球部 p <0.001 p = 0.176 p = 0.2011 Mann-Whitney U検定
広島東洋 カープ 中央大学 シンシナティ・ レッズ 広島東洋カープ 中央大学 p <0.001 シンシナティ・
レッズ p <0.001 p < 0.01 智弁学園和歌山 高等学校野球部 p <0.001 p = 0.176 p = 0.2011 Mann-Whitney U検定 広島東洋カープ 中央大学 シンシナティ・レッズ 智弁学園和歌山高等学校野球部 中央大学 シンシナティ・レッズ 智弁学園和歌山 高等学校野球部 中央大学 シンシナティ・レッズ 有意差あり 有意差あり 有意差なし
課題 Mann-Whitney U検定では2群の平均値に優位な差があるかをみる。 そのためそれぞれのピクセルの並びは考慮されていない。極端にいうと、90度回転させた画像を 比較した場合、人の目では「両者は違う」と言えるが、検定的には「有意差なし」となる
補足 今回はアブノーマルな手段で画像を比較したわけだが、 きちんとした画像の比較手法はもちろんある。 平均二乗誤差(MSE) 2つの画像の対応するピクセル値の差分をとって、その差分の二乗を合計を全ピクセル数でわる MSEが小さければ小さいほど、両者は似ているということになる。
平均二乗誤差(MSE) 両者のピクセル値の差を 二乗した値を合計 全ピクセル数でわる (両者の画像のピクセル数が同じである という前提) MSEが小さければ小さいほど、両者は似ているということになる。 (どれくらい数値が大きければ両者は違うという基準はない。)
結論 平均二乗誤差(MSE)は、画像比較の最もシンプルな方法 ただし、 ・2つの画像のピクセル数が同じである必要がある。 ・どれくらい数値が大きければ両者は違うという基準はない。 もしあなたも何かのプロフ画像で他人と被ってしまって、 「2つの画像が違うものである」 ということを言いたければ検定してみましょう
終わり