輪読会「深層学習による画像認識の基礎」第６回

はじめに

こんにちは。てくますプロジェクトのYukkinです！　本記事は、てくますプロジェクトが実施している輪読会『深層学習による画像認識の基礎』の第６回活動記録です。

てくますプロジェクトでは、講座や輪読会など、さまざまな勉強会を開催しています。この記事を通して、私たちの取り組みについて少しでも興味を持っていただけたら嬉しいです！

本記事は、数学・情報・論理パズルを楽しむ Techmath Project Advent Calendar 2024 の11日目の記事でもあります。アドベントカレンダーの応援や購読をしていただけると、とても励みになります！

現在は「深層学習による画像認識の基礎」という本を読み進めています。

第６回の今回は、＜4章 Vision Transormer＞のp.112〜130まで読み進めました！

本記事では、今回の勉強会で学んだことをざっくりと紹介していきます。

前回に引き続き、ViT について学習しました。

ViT は以下の6つの要素で構成されています。

①〜②については前回学んだため、今回は③〜⑥を学びました。

自己注意機構の流れ
- ベクトル系列 $H = (h_{C L S}, h_{1}, \dots, h_{N})$ から、クエリ $Q$ 、キー $K$ 、バリュー $V$ を計算する
  - $Q = W_{Q} H$
  - $K = W_{K} H$
  - $V = W_{V} H$
- クエリ $Q$ とキー $K$ 内のすべてのベクトル間の類似度を計算する
  - $A = \frac{K^{T} Q}{\sqrt{d}}$
- ソフトマックス関数を適用し、どの箇所に注意するべきかを計算する
  - $\tilde{A} = s o f t m a x (A)$
- バリュー $V$ と注意 $\tilde{A}$ を用いて出力を計算する
  - $Q^{'} = V \tilde{A}$
上記の流れを一つの式にまとめると次のようになる
- $Q^{'} = V s o f t m a x (\frac{K^{T} Q}{\sqrt{d}})$
注意機構とは、クエリの観点から注意すべきベクトルをキーから選別し、その重要度に応じてバリューを1つのベクトルに集約する処理と言える
ViTでは、自己注意機構を複数個並列実行させたマルチヘッド注意機構を使用している
- $Q, K, V$ の各ベクトルをそれぞれブロック分割し、ブロックごとに自己注意機構を行い、最後に統合する
- 並列にすることで、ソフトマックス関数で1つの要素のみ注意されることを防ぐ