Face Recognition Check-in Mechanism

Slide 1

Slide 1 text

2019 DevDay Face Recognition Check-in Mechanism > Seungyoun Yi > NAVER AI Production Team

Slide 31

Slide 31 text

2.2.2 Performance Comparison 0.00010 0.00100 0.01000 0.10000 1.00000 10.00000 100.00000 1000.00000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 iPhone 7 Conv DWC Width Height Channel Conv DWC 4 4 4 0.00033 0.00027 4 4 8 0.00058 0.00037 4 4 16 0.00194 0.00061 4 4 32 0.00701 0.00141 4 4 64 0.02838 0.00210 8 8 4 0.00068 0.00042 8 8 8 0.00213 0.00067 8 8 16 0.00824 0.00145 8 8 32 0.03210 0.00366 8 8 64 0.12765 0.00967 16 16 4 0.00232 0.00113 16 16 8 0.00874 0.00238 16 16 16 0.03407 0.00581 16 16 32 0.13429 0.01642 16 16 64 0.53917 0.06199 32 32 4 0.00942 0.00400 32 32 8 0.03621 0.00915 32 32 16 0.14359 0.02347 32 32 32 0.57033 0.06866 32 32 64 2.26934 0.24841 64 64 4 0.03730 0.01758 64 64 8 0.14957 0.03801 64 64 16 0.59770 0.09850 64 64 32 2.29650 0.29216 64 64 64 9.22913 0.99012 128 128 4 0.16395 0.07094 128 128 8 0.62052 0.15367 128 128 16 2.43079 0.41725 128 128 32 9.83968 1.20801 128 128 64 43.26673 4.53675 256 256 4 0.63575 0.27929 256 256 8 2.43605 0.61418 256 256 16 10.07863 1.93911 256 256 32 44.37163 5.52157 256 256 64 197.65414 21.28737 1 1 Width Height Channel Conv DWC 4 4 4 0.00056 0.00089 4 4 8 0.00126 0.00100 4 4 16 0.00413 0.00139 4 4 32 0.01567 0.00167 4 4 64 0.06023 0.00303 8 8 4 0.00209 0.00146 8 8 8 0.00726 0.00211 8 8 16 0.02689 0.00310 8 8 32 0.10713 0.00579 8 8 64 0.43642 0.01254 16 16 4 0.00926 0.00454 16 16 8 0.03473 0.00685 16 16 16 0.14251 0.01274 16 16 32 0.58063 0.02516 16 16 64 2.23574 0.06161 32 32 4 0.03867 0.01509 32 32 8 0.15526 0.02587 32 32 16 0.62187 0.05456 32 32 32 2.46555 0.11272 32 32 64 9.98108 0.25675 64 64 4 0.16621 0.06130 64 64 8 0.66195 0.10723 64 64 16 2.64051 0.21645 64 64 32 10.58819 0.49159 64 64 64 42.13637 1.14665 128 128 4 0.68576 0.24418 128 128 8 2.73333 0.46256 128 128 16 10.90763 0.87343 128 128 32 43.65631 2.02102 128 128 64 181.53884 5.41057 256 256 4 2.82602 1.00030 256 256 8 11.65558 1.89273 256 256 16 45.63633 3.89032 256 256 32 182.38495 8.68091 256 256 64 718.17794 20.69565 0.00010 0.00100 0.01000 0.10000 1.00000 10.00000 100.00000 1000.00000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 i7-4770hq Conv DWC 0.00100 0.01000 0.10000 1.00000 10.00000 100.00000 1000.00000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Galaxy s7 Conv DWC 1 1 Width Height Channel Conv DWC 4 4 4 0.00424 0.00707 4 4 8 0.01458 0.01162 4 4 16 0.00899 0.01730 4 4 32 0.05309 0.02340 4 4 64 0.12638 0.02427 8 8 4 0.00830 0.00853 8 8 8 0.02690 0.01248 8 8 16 0.05422 0.01827 8 8 32 0.13496 0.03045 8 8 64 0.41399 0.07120 16 16 4 0.02392 0.01383 16 16 8 0.06420 0.02331 16 16 16 0.15563 0.04192 16 16 32 0.46971 0.08803 16 16 64 1.71633 0.18070 32 32 4 0.06783 0.03369 32 32 8 0.16102 0.05938 32 32 16 0.50996 0.10876 32 32 32 1.89805 0.23682 32 32 64 7.81756 0.63089 64 64 4 0.17441 0.09449 64 64 8 0.55505 0.15865 64 64 16 2.07405 0.34244 64 64 32 8.50137 0.86897 64 64 64 36.87440 3.00902 128 128 4 0.53880 0.23594 128 128 8 1.96343 0.45360 128 128 16 8.25908 1.31925 128 128 32 35.51822 4.09999 128 128 64 153.75306 12.80227 256 256 4 2.40637 1.06782 256 256 8 10.39279 3.11999 256 256 16 41.58188 9.03881 256 256 32 169.87069 28.01278 256 256 64 722.37550 56.06882 Lower is faster!

Slide 38

Slide 38 text

2.3.4 Compare Convolution 3x3 (Direct vs Winograd) operation speed (log scale) according to input image (Width, Height, Channel) 0.001 0.010 0.100 1.000 10.000 100.000 1000.000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 iPhone 7 Conv Winograd Log latency (ms) 0.010 0.100 1.000 10.000 100.000 1000.000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Galaxy s7 (T=1) Conv Winograd Log latency (ms) Case: [Channel > 16], [16 < Width, Height < 128] Using Winograd convolution is faster than convolution 3x3 Convolution: Direct Conv vs Winograd Conv Latency (ms) Input Input Channel Conv Winograd 4 4 16 0.002 0.025 4 4 32 0.008 0.044 4 4 64 0.029 0.114 4 4 128 0.112 0.331 8 8 16 0.008 0.020 8 8 32 0.032 0.043 8 8 64 0.127 0.099 8 8 128 0.509 0.317 16 16 16 0.034 0.078 16 16 32 0.134 0.152 16 16 64 0.534 0.360 16 16 128 2.164 1.042 32 32 16 0.142 0.141 32 32 32 0.567 0.305 32 32 64 2.257 0.748 32 32 128 9.174 2.240 64 64 16 0.592 0.656 64 64 32 2.276 1.475 64 64 64 9.111 3.724 64 64 128 39.543 10.553 96 96 16 1.356 1.606 96 96 32 5.337 3.457 96 96 64 22.859 9.319 96 96 128 99.884 26.341 118 118 16 2.057 2.244 118 118 32 8.711 5.183 118 118 64 37.518 12.870 118 118 128 158.712 37.014 Input Input Channel Conv Winograd 4 4 16 0.013 0.052 4 4 32 0.039 0.062 4 4 64 0.089 0.159 4 4 128 0.337 0.574 8 8 16 0.026 0.028 8 8 32 0.095 0.058 8 8 64 0.394 0.151 8 8 128 1.410 0.566 16 16 16 0.117 0.138 16 16 32 0.442 0.340 16 16 64 1.678 0.829 16 16 128 6.519 2.476 32 32 16 0.473 0.369 32 32 32 1.862 0.847 32 32 64 7.445 2.230 32 32 128 37.709 6.572 64 64 16 2.260 1.719 64 64 32 8.118 4.738 64 64 64 35.105 12.812 64 64 128 169.529 35.936 96 96 16 5.315 5.021 96 96 32 18.155 12.065 96 96 64 76.374 29.897 96 96 128 363.084 78.233 118 118 16 5.036 9.419 118 118 32 21.389 21.273 118 118 64 112.084 40.140 118 118 128 447.813 120.284 # of Threads = 1

Slide 40

Slide 40 text

2.3.4 Compare 1x1 Convolution: Direct Conv vs GEMM-based Conv Width Height Channel Conv GEMM 4 4 64 0.004 0.003 4 4 128 0.017 0.011 4 4 256 0.065 0.049 4 4 512 0.258 0.173 8 8 64 0.014 0.020 8 8 128 0.055 0.053 8 8 256 0.226 0.182 8 8 512 0.934 0.674 16 16 64 0.056 0.063 16 16 128 0.226 0.202 16 16 256 0.938 0.712 16 16 512 3.686 2.745 32 32 64 0.224 0.241 32 32 128 0.896 0.813 32 32 256 3.615 3.002 32 32 512 15.488 12.455 64 64 64 4.414 0.960 64 64 128 18.826 4.160 64 64 256 73.898 13.708 64 64 512 298.805 54.001 128 128 64 18.640 4.589 128 128 128 75.117 15.895 128 128 256 299.652 59.546 128 128 512 1195.597 251.955 256 256 64 66.607 19.038 256 256 128 258.776 63.814 256 256 256 1070.993 256.399 256 256 512 4381.642 1539.726 # of Threads = 1 Latency (ms) 0.001 0.010 0.100 1.000 10.000 100.000 1000.000 10000.000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 iPhone 7 Conv GEMM Log latency (ms) 0.00100 0.01000 0.10000 1.00000 10.00000 100.00000 1000.00000 10000.00000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 i7-4770hq Conv GEMM Desktop Width Height Channel Conv GEMM 4 4 64 0.017 0.004 4 4 128 0.070 0.010 4 4 256 0.243 0.045 4 4 512 0.921 0.164 8 8 64 0.029 0.011 8 8 128 0.118 0.038 8 8 256 0.502 0.147 8 8 512 1.987 0.560 16 16 64 0.143 0.048 16 16 128 0.385 0.151 16 16 256 1.516 0.591 16 16 512 7.803 2.605 32 32 64 0.378 0.227 32 32 128 1.802 0.735 32 32 256 7.572 2.596 32 32 512 34.361 11.497 64 64 64 1.777 0.947 64 64 128 8.340 3.202 64 64 256 33.438 11.721 64 64 512 202.632 49.073 128 128 64 9.975 4.405 128 128 128 54.193 13.878 128 128 256 233.069 46.819 128 128 512 1085.760 211.534 256 256 64 67.563 19.370 256 256 128 288.263 55.190 256 256 256 1021.372 191.702 256 256 512 4976.360 812.025 # of Threads = 1 Latency (ms) Case: [Channel > 64] Using GEMM-based convolution is faster than convolution 0.010 0.100 1.000 10.000 100.000 1000.000 10000.000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Galaxy s7 Conv GEMM Width Height Channel Conv GEMM 4 4 64 0.028 0.018 4 4 128 0.082 0.038 4 4 256 0.206 0.123 4 4 512 0.769 0.507 8 8 64 0.074 0.035 8 8 128 0.185 0.126 8 8 256 0.680 0.480 8 8 512 2.500 2.037 16 16 64 0.187 0.136 16 16 128 0.606 0.520 16 16 256 2.274 2.062 16 16 512 9.613 8.627 32 32 64 1.278 0.574 32 32 128 4.939 2.279 32 32 256 20.686 8.985 32 32 512 84.172 38.773 64 64 64 5.149 2.693 64 64 128 21.785 10.592 64 64 256 93.905 40.704 64 64 512 424.173 169.289 128 128 64 32.471 12.533 128 128 128 101.706 45.978 128 128 256 455.670 175.253 128 128 512 1920.443 752.894 256 256 64 132.855 50.844 256 256 128 606.822 182.193 256 256 256 2362.191 806.543 256 256 512 9522.537 3102.843 # of Threads = 1 Latency (ms) Log latency (ms) Log latency (ms)

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text