will be doing is visiting relatives." "next weekend what we will be is visiting relatives." • Transformerは関係なかった。GLOMに関する概説のみ • やりたいのは「階層的な知識理解」 *1 ◦ e.g. (顔->((鼻->鼻腔),目)) • NNの特性への理解が深まる ◦ 神経学的な話は出てこない。あくまでエンジニアリングの話に留めている • 個人的には以下のポイントが興味深かった ◦ GLOMは「具体的なEmbeddingの階層化」であって抽象表現ではない ◦ So you're only trying to represent one thing. You're not trying to represent some set of possible objects. If you're trying to represent some set of possible objects, you have a horrible binding problem, and you couldn't use these very vague distributions. 8. GLOM: Representing part-whole hierarchies in a neural network *1
Transformerを活用した音声のクラス分類 ◦ Vector Quantization ◦ Wavelets (追加) Recommended Readings: • Audio Transformers:Transformer Architectures For Large Scale Audio Understanding. Adieu Convolutions 10. Transformers for Applications in Audio, Speech and Music: From Language Modeling to Understanding to Synthesis (48:19)
変換層の形がある種 Window関数のように振る舞う(ように見えるらしい) *1 ◦ ただ普通にEmbedding層もあるし、推論結果が ? になってた*2 ので参考程度に 10. Transformers for Applications in Audio, Speech and Music: From Language Modeling to Understanding to Synthesis *1 *2
◦ けっこう突っ込んだ質問をしてくれるので視点が増えた ◦ 特に5.6.あたりは、スマートな回答だけでなく試行錯誤の Tipsまで提供してくれた Not Good • あくまで2021年の話。DALL-E2の話はない ◦ a few years ago はもう old technology らしいので。。。 • 内容はほぼ論文の解説。理論的な知識を得たいなら論文を読んだほうがいい ◦ どう試行錯誤したのか、どう解釈できるのかを優先して聞きたいならオススメ