Building Blocks for a Complex-Valued Transformer Architecture

@misc{eilers2023buildingblockscomplexvaluedtransformer,
      title={Building Blocks for a Complex-Valued Transformer Architecture}, 
      author={Florian Eilers and Xiaoyi Jiang},
      year={2023},
      eprint={2306.09827},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      doi={https://doi.org/10.1109/ICASSP49357.2023.10095349},
      url={https://arxiv.org/abs/2306.09827}, 
}

BibTeX source

一言でいうと: Building Blocks for a Complex-Valued Transformer Architectureは、複素値信号をTransformerで直接扱うために、複素内積に基づくAttentionと複素値Layer Normalizationを定義する研究である。

背景と目的 (Background & Objective)

多くの深層学習パイプラインは実数値演算を前提にしている。しかし、MRI、リモートセンシング、フーリエ変換後の音声や音楽信号のように、入力が自然に複素数で表される応用は多い。

複素値信号を $R^{2}$ へ射影して実数値モデルへ入れると、複素数の積や回転不変性といった代数構造が失われる。この論文は、Transformerを複素領域へ移すために、複素値Scaled Dot-Product Attentionと複素値Layer Normalizationを設計する。

提案手法 (Proposed Method)

論文の中心は、複素内積に基づく複素値Transformerの構成要素である。実数領域では $Q K^{T}$ と内積は一致するが、複素領域では共役を伴う内積 $⟨ Q, K ⟩$ と $Q K^{T}$ は一致しない。著者らは、複素内積の実部が類似度として自然であり、対称性と回転不変性を持つと主張する。

PDFから直接抽出できる図は、複素平面上での内積と回転の関係を示すパネルである。 Transformerの全体アーキテクチャ図はPDF内でベクター描画として構成されており、画像オブジェクトとしては抽出されなかった。

提案する複素値Attentionは次で表される。

C A tt (A, B) = σ (\frac{R ⟨ Q , K ⟩}{d _{k}}) V .

比較対象として、絶対値を用いるAttention、位相を保持するAttention、実部と虚部を別々にsoftmaxするAttentionも定義される。

AA tt (A, B) = σ (\frac{∣ ⟨ Q , K ⟩ ∣ _{C}}{d _{k}}) V .

A P A tt (A, B) = σ (\frac{∣ ⟨ Q , K ⟩ ∣ _{C}}{d _{k}}) sgn (⟨ Q, K ⟩) V .

R I A tt (A, B) = (σ (\frac{R ⟨ Q , K ⟩}{d _{k}}) + iσ (\frac{I ⟨ Q , K ⟩}{d _{k}})) V .

複素値Layer Normalizationでは、実部と虚部を独立に標準化せず、2次元共分散を使って白色化する。複素ベクトル $z \in C^{n}$ の共分散は次で定義される。

C o v_{C} (z) = (V a r (R (z)) C o v (R (z), I (z)) C o v (R (z), I (z)) V a r (I (z))) .

正規化出力は、 $C o v_{C} (X)^{- 1/2}$ を用いて実部と虚部の結合分布を整える。その後、学習可能な複素シフト $β$ と正定値共分散行列 $ζ$ により、出力分布の平均と共分散を制御する。

実験と評価 (Experiments & Evaluation)

実験はMusicNetを用いる。 330曲を39,438サンプルに分割し、35,111件を訓練、2,030件を検証、3,897件をテストに使う。前処理ではフーリエ変換と既存研究に従うリサンプリングを行う。

タスクは、Transformer Encoderによる自動音楽転写分類と、Encoder-Decoderによる系列生成である。主要設定は、batch size 35、100 epochs、dropout 0.1、learning rate $1 0^{- 4}$ 、embedding dimension 320、6層、8 heads、feed-forward hidden dimension 2048である。

Architecture	Classification parameters	Sequence generation parameters
C-Transformer (ours)	14m	27m
Yang et al.	12m	20m
R-Transformer	18m	33m

Average Precisionによるテスト結果は次の通りである。

Attention	Classification Dot-Prod	Classification $Q K^{T}$	Seq. generation Dot-Prod	Seq. generation $Q K^{T}$
CAtt	0.7164	0.7142	0.3272	0.3283
APAtt	0.6965	0.6926	0.2240	0.3231
AAtt	0.7117	0.7099	0.3172	0.3271
RIAtt	0.7070	0.7059	0.3201	0.3236
Yang et al.	-	0.7088	-	0.3072
Real Transformer	0.7109	-	0.0737	-

分類では、提案する複素内積ベースのCAttが僅差で最良である。系列生成では、実数値Transformerが強く過学習し、複素値モデルが明確に優位になる。

畳み込みEncoder embeddingのアブレーションは次の通りである。

Model	Classification	Sequence generation
C-Attention without convolution	0.5240	0.1652
C-Attention with convolution	0.7164	0.3272

貢献と限界点 (Contributions & Limitations)

貢献は、複素値Attentionの複数候補を定式化し、複素内積の回転不変性をTransformerの類似度計算へ持ち込んだ点にある。また、複素値Layer NormalizationをTransformer向けに導入し、実部と虚部の共分散を保つ設計を示した。

結果は、複素値信号を実数値Transformerに単純変換するより、複素値構造を保持したほうが過学習に強いことを示す。ただし、実験はMusicNet上の2タスクに限定される。 MRI、リモートセンシング、音声認識など、他の複素値応用で同じ利点が得られるかは追加検証が必要である。

Quartz 5

Explorer

Building Blocks for a Complex-Valued Transformer Architecture

Building Blocks for a Complex-Valued Transformer Architecture

背景と目的 (Background & Objective)

提案手法 (Proposed Method)

実験と評価 (Experiments & Evaluation)

貢献と限界点 (Contributions & Limitations)

関連リンク

Graph View

Table of Contents

Backlinks