（備忘録です）

概要

Googleから出されたこの論文，zero-shot learningの精度を大幅に改善したことで話題になっています．

Zero-shot learningとは，モデルがいままで見たことのないものに対して予測を行うタスクを指します．言い換えると，推論を行うドメイン（targetドメイン）のデータを一切使わないタスクです．

例えば，猫以外の画像で構成されるデータセットで学習を行い，猫の画像に対して猫であると推定することを目的とする．．．という感じでしょうか．

人間は，今までに見てきた画像とそのラベルの知識から未知の物体（猫）に対しても，これは生物であり，哺乳類っぽい，とある程度の予測をすることができます．

しかし，機械学習のモデルにしてみればまだまだ難しい分野です． Targetドメインの画像を少ない枚数だけ使う few-shot learning と比較しても，このタスク設定はかなり難しいものであるといえます．

まずはこの論文の結果を，

ImageNetにおけるimage classificationの精度を今までのzero-shot learning手法と比較していますが，改良の度合いが凄まじいですね...

f:id:shuckle-rbtech:20211203152704p:plain

モデルのパラメータ数などが公平でないですが，zero-shotであるのに見たことのないラベルの80%程度を推定できるという結果には，目を見張るものがあります．

論文では，zero-shot image classificationに有効な表現学習を提案しています．

要約

Image-to-textタスクが，image classificationにとって良い表現学習を実現することを示した
3つのスケーリングパラメータ（モデルサイズ，バッチサイズ，データ数）を膨大な数にすることで精度が大幅に改善されることを示した
- モデルサイズ=3B，バッチサイズ=65536，データセット=6.6Bのnoisy image-textペア（めっちゃ大きい...）
大規模な学習のために，GPU消費を抑えるGradAccumをContrastive Learning用に拡張した

スケーリング則に従って，zero-shotのimage classificationでも80%以上の精度が達成されたことは素直にすごい
GradAccumを使っているがいまだ，数千Cores×Days（コア数×学習時間）かかっている（つまり1コアGPUで1000日とか）これはGoogleじゃなきゃできないので...もう少し現実的な学習方法を開発するか，主要なタスクについてはPretrainingのパラメータを公開してほしい
image-to-textによる表現学習が有用であることは実用上有効かもしれない
- 学習データセットがnoisyであるのにもかかわらず，image classificationに有用な特徴学習ができているので，SNSの投稿などの大規模データを活用できるかもしれない