Slide 46
Slide 46 text
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision
Vokenization: ⽂脈に沿った視覚的根拠に基づいたスーパービジョンによる⾔語理解の向上
No.4
⼈間は、聞く、話す、書く、読む、そしてマルチモーダルな現実世界との相互作⽤を介して⾔語を学
習する。既存の⾔語予備訓練フレームワークでは、テキストのみの⾃⼰監視の有効性が示されている
が、本論⽂では視覚監視型⾔語モデルのアイデアを探求する。その結果、視覚的に根拠のある⾔語
データと純粋な⾔語コーパスの間では、その⼤きさや分布に⼤きな乖離があることが、この研究を妨
げる主な原因であることがわかった。そこで、我々は、⾔語のみのデータを対象に、⾔語トークンと
関連する画像(これを "vokens "と呼ぶ)を⽂脈的にマッピングすることで、マルチモーダルアライ
メントを⾔語データに外挿する "vokenization "という⼿法を開発した。この "vokenizer "は⽐較的⼩
さな画像キャプションデータセットで学習され、その後、⼤規模な⾔語コーパスのためのvokenを⽣
成するために適⽤される。これらの⽂脈で⽣成されたvokensを⽤いて学習した結果、我々の視覚教
師付き⾔語モデルは、GLUE, SQuAD, SWAGなどの複数の純粋な⾔語タスクにおいて、⾃⼰教師付
きの代替モデルに⽐べて⼀貫した改善を示した。コードと事前学習済みモデルは https://github.com/
airsplay/vokenization で公開されています。