Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Contrastive Self-Supervised Learning

Contrastive Self-Supervised Learning

在中正大學、東海大學物理系的演講, 介紹自監督學習的概念, 尤其是對比學習 (Contrastive Learning)。

[email protected]

May 27, 2022
Tweet

Other Decks in Technology

Transcript

  1. Contrastive Learning 14 深度學習就是建⼀層層「隱藏層」 x1 x2 xn h1 h2 hk

    x h ℱ1 全連結層 (Dense) 卷積層 (Conv) 遞歸層 (LSTM, GRU) 銘 : DNN CNN RNN
  2. Contrastive Learning 21 ⽬標函數、loss function , , , : i

    xi yi ℓi (θ) = ∥yi − fθ (xi )∥2 ( 1/2): L(θ) = 1 2N N ∑ i=1 ∥yi − fθ (xi )∥2
  3. Contrastive Learning 22 ⽬標函數、loss function 1 2 3 [ 1

    0 0 ] [ 0 1 0 ] [ 0 0 1 ] one-hot encoding [ 1 0 0 ]
  4. Contrastive Learning 24 Softmax: 維持⼤⼩關係, 加起來等於 1 , , ,

    a, b, c α, β, γ α + β + γ = 1 0 產 a, b, c S = a + b + c , , α = a S β = b S γ = c S
  5. Contrastive Learning 25 Softmax: 維持⼤⼩關係, 加起來等於 1 , , ,

    a, b, c α, β, γ α + β + γ = 1 維 0 a, b, c , a′  = ea, b′  = eb, c′  = ec S = a′  + b′  + c′  , , α = a′  S β = b′  S γ = c′  S
  6. Contrastive Learning 26 Softmax: 維持⼤⼩關係, 加起來等於 1 , k ,

    , , , 維 : z1 , z2 , …, zk ¯ z1 , ¯ z2 , …, ¯ zk k ∑ i=1 ¯ zi = 1 ¯ zj = exp(zj ) ∑k i=1 exp(zi )
  7. Contrastive Learning 30 【監督式學習】由我們準備訓練資料 ( , " ") ( ,

    "蠎 ") , , ... x1 x2 y2 y1 x k+1 , y k+1 x k , y k x1 , y1 x n , y n , (over fi tting) !
  8. Contrastive Learning 35 Self-Supervised Learning We believe that self-supervised learning

    is one of the most promising ways to build such background knowledge and approximate a form of common sense in AI systems. “ —Yan LeCun (楊⽴昆)/Ishan Misra, 2021 ” Self-supervised Learning: The Dark Matter of Intelligence https://ai.facebook.com/blog/self-supervised- learning-the-dark-matter-of-intelligence/
  9. Contrastive Learning 54 然後 one-hot encoding! 的 一 了 是

    我 one-hot encoding! 1 2 3 4 5 1 0 0 0 0 ⋮ 0 1 0 0 0 ⋮ 0 0 1 0 0 ⋮ 0 0 0 1 0 ⋮ 0 0 0 0 1 ⋮ one-hot encoding !
  10. Contrastive Learning 55 Word2Vec 我們以著名的 Word2Vec 來看看怎麼做 word embedding? 相似的字

    會在⼀起! Google 官網: https://code.google.com/archive/p/word2vec/
  11. Contrastive Learning 56 Word2Vec T. Mikolov, K. Chen, G. Corrado,

    J. Dean. Toutanova. Efficient Estimation of Word Representations in Vector Space. Proceedings of Workshop at ICLR, 2013.. 訓練好了有很多炫炫的功能。 巴黎 法國 義⼤利 羅⾺ 國王 男⼈ 女⼈ 皇后
  12. Contrastive Learning 57 這是學了什麼函數呢? f 龍 [ 94 87] 我們當然知道,

    word embedding 就是要 學⼀個字的特徵向量, 但我們沒辦法準備 訓練資料啊!
  13. Contrastive Learning 61 記憶或理解 word 2 vec , 維 ,

    維 w11 w12 ⋯ w1N w21 w22 ⋯ w2N ⋮ ⋮ ⋮ wi1 wi2 ⋯ wiN ⋮ ⋮ ⋮ wV1 wV2 ⋯ wVN W
  14. Contrastive Learning 62 記憶或理解 h W x One-hot encoding T

    0 0 ⋮ 1 ⋮ 0 w11 w12 ⋯ w1N w21 w22 ⋯ w2N ⋮ ⋮ ⋮ wi1 wi2 ⋯ wiN ⋮ ⋮ ⋮ wV1 wV2 ⋯ wVN WTx= h word 2 vec , 維 銘 ! = h
  15. Contrastive Learning 63 傳統 Word Embedding 還是有缺點 Word Embedding 基本上固定的字

    (詞) 就有 固定代表的特徵向量。但是... 這個⼈的個性有點天天。 我天天都會喝⼀杯咖啡。 ⼀個字、⼀個詞, 在不 同的地⽅可能有不⼀ 樣的意思。
  16. Contrastive Learning 65 ELMo 開創⾃然語⾔的「芝⿇街時代」! ELMo M.E. Peters, M. Neumann,

    M. Iyyer, M. Gardner, C. Clark, K. Lee, L. Zettlemoyer. Deep contextualized word representations. NAACL 2018. arXiv preprint arXiv:1802.05365v2. AI2
  17. Contrastive Learning 66 其實就是 RNN 的 hidden states 𝐡 1

    𝐡 2 𝐡 𝑛 −1 𝐡 𝑛 <BOS> 我 天 天 啡 咖 喝 咖 我們要的 embedding 對話機器⼈的 hidden states 就是 很好的 embedding!
  18. Contrastive Learning 67 沒⼈限制我們只能有⼀層! 𝐡 1 𝐡 2 𝐡 𝑛

    −1 𝐡 𝑛 <BOS> 天 喝 咖 𝐡 1 𝐡 2 𝐡 𝑛 −1 𝐡 𝑛 LSTM1 LSTM2
  19. Contrastive Learning 68 於是我們會有更「客製化」embedding hi hi token w1 w2 w3

    + + 我們在要⽤時, 才會去學 , 成為「真 正」的 embedding。 w1 , w2 , w3 前⾯需要⼤量訓練 資料的都不⽤動哦!
  20. Contrastive Learning 69 引領⾃然語⾔新時代的 BERT BERT J. Devlin, M.W. Chang,

    K. Lee, K. Toutanova. BERT: Pre- training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805v2. Google
  21. Contrastive Learning 70 Transformer Vaswani, A., Shazeer, N., Parmar, N.,

    Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems (pp. 5998-6008). 運⽤ self-attention, 避開 RNN 的缺點!
  22. Contrastive Learning 80 如果可以找到這樣的函數... f ̂ y1 ̂ y2 ̂

    yn 於是她就有個代表向量 ̂ y = [ ̂ y1 , ̂ y2 , …, ̂ yn]
  23. Contrastive Learning 81 每個⼈就有個「代表向量」 假設 是公司內四位同仁的照片。 x1 , x2 ,

    x3 , x4 f(x1 ) f(x2 ) f(x3 ) f(x4 ) f ̂ y1 ̂ y2 ̂ yn 看和哪個 距離最⼩!
  24. Contrastive Learning 83 還有個立即的好處 我們可以規定, 什麼才叫「夠像」。就是定義⼀個數 , 如果 τ d(f(x),

    f(xi )) < τ 就判定是這個⼈。所以, 我們也可以知道, 這個⼈判斷這個⼈ 不是公司內部的⼈。
  25. Contrastive Learning 86 從⽂字的 Word Embedding 得到的靈感... CNN ̂ y1

    ̂ y2 ̂ yn Dense Output (Softmax) 砍掉最後⼀ 層就可以! 做「正常」的⼈臉辨識, 然後砍掉最後⼀層!
  26. Contrastive Learning 88 更好的是⽤ Triplet Loss CNN ̂ y1 ̂

    y2 ̂ yn CNN ̂ y1 ̂ y2 ̂ yn CNN ̂ y1 ̂ y2 ̂ yn 越近越好 越遠越好 labeling
  27. Contrastive Learning 89 更好的是⽤ Triplet Loss F. Schroff, D. Kalenichenko,

    J. Philbin (Google). FaceNet: A Unified Embedding for Face Recognition and Clustering. arXiv preprint arXiv:1503.03832. CNN ̂ y1 ̂ y2 ̂ yn CNN ̂ y1 ̂ y2 ̂ yn Positive Sample Negative Sample
  28. Contrastive Learning 91 Contrastive Learning sim(q, k) 可以是距離函 數, 甚⾄⼤家

    更常⽤內積。 ∥q − k∥2 ⟨q, k⟩ τ 1 2 例⼦
  29. Contrastive Learning 93 Augmentation: 完全不做 labeling 可能嗎? , 維 labeling

    ( 1%), 維 model , 維 labeling ? 維 , , , augmentation
  30. Contrastive Learning 94 Self-Supervised Learning Contrastive learning representation , labeling,

    labeling , , representation , , , , Yann LeCun ... self-supervised learning LeCun
  31. Contrastive Learning 95 Self-Supervised Learning We believe that self-supervised learning

    is one of the most promising ways to build such background knowledge and approximate a form of common sense in AI systems. “ —Yan LeCun (楊⽴昆)/Ishan Misra, 2021 ” Self-supervised Learning: The Dark Matter of Intelligence https://ai.facebook.com/blog/self-supervised- learning-the-dark-matter-of-intelligence/
  32. Contrastive Learning 96 Non-Contrastive Learning 產, negative samples, ( ),

    , 維 negative samples, collapse ? fθq gθk q k x x+ Pφ
  33. Contrastive Learning 105 超嚴格標準 < xt+1 < xt+2 < xt+3

    < xt+4 < xt+5 xt * : 裁 xt t 未來五天⼀路上漲 才算漲!
  34. Contrastive Learning 108 original P-adic 加強版 V1 V2 V3 V1

    V2 V3 LSTM - 71.6% 71.7% - 72.1% 69.9% SiamCL 65.6% 71.5% 71.3% 73.7% 73.8% 73.3% * precision