Building Blocks for a Complex-Valued Transformer Architecture

@misc{eilers2023buildingblockscomplexvaluedtransformer,
      title={Building Blocks for a Complex-Valued Transformer Architecture}, 
      author={Florian Eilers and Xiaoyi Jiang},
      year={2023},
      eprint={2306.09827},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      doi={https://doi.org/10.1109/ICASSP49357.2023.10095349},
      url={https://arxiv.org/abs/2306.09827}, 
}

BibTeX source

一言でいうと: Building Blocks for a Complex-Valued Transformer Architectureは、複素値信号をTransformerで直接扱うために、複素内積に基づくAttentionと複素値Layer Normalizationを定義する研究である。

背景と目的 (Background & Objective)

多くの深層学習パイプラインは実数値演算を前提にしている。 しかし、MRI、リモートセンシング、フーリエ変換後の音声や音楽信号のように、入力が自然に複素数で表される応用は多い。

複素値信号を へ射影して実数値モデルへ入れると、複素数の積や回転不変性といった代数構造が失われる。 この論文は、Transformerを複素領域へ移すために、複素値Scaled Dot-Product Attentionと複素値Layer Normalizationを設計する。

提案手法 (Proposed Method)

論文の中心は、複素内積に基づく複素値Transformerの構成要素である。 実数領域では と内積は一致するが、複素領域では共役を伴う内積 は一致しない。 著者らは、複素内積の実部が類似度として自然であり、対称性と回転不変性を持つと主張する。

PDFから直接抽出できる図は、複素平面上での内積と回転の関係を示すパネルである。 Transformerの全体アーキテクチャ図はPDF内でベクター描画として構成されており、画像オブジェクトとしては抽出されなかった。

提案する複素値Attentionは次で表される。

比較対象として、絶対値を用いるAttention、位相を保持するAttention、実部と虚部を別々にsoftmaxするAttentionも定義される。

複素値Layer Normalizationでは、実部と虚部を独立に標準化せず、2次元共分散を使って白色化する。 複素ベクトル の共分散は次で定義される。

正規化出力は、 を用いて実部と虚部の結合分布を整える。 その後、学習可能な複素シフト と正定値共分散行列 により、出力分布の平均と共分散を制御する。

実験と評価 (Experiments & Evaluation)

実験はMusicNetを用いる。 330曲を39,438サンプルに分割し、35,111件を訓練、2,030件を検証、3,897件をテストに使う。 前処理ではフーリエ変換と既存研究に従うリサンプリングを行う。

タスクは、Transformer Encoderによる自動音楽転写分類と、Encoder-Decoderによる系列生成である。 主要設定は、batch size 35、100 epochs、dropout 0.1、learning rate 、embedding dimension 320、6層、8 heads、feed-forward hidden dimension 2048である。

ArchitectureClassification parametersSequence generation parameters
C-Transformer (ours)14m27m
Yang et al.12m20m
R-Transformer18m33m

Average Precisionによるテスト結果は次の通りである。

AttentionClassification Dot-ProdClassification Seq. generation Dot-ProdSeq. generation
CAtt0.71640.71420.32720.3283
APAtt0.69650.69260.22400.3231
AAtt0.71170.70990.31720.3271
RIAtt0.70700.70590.32010.3236
Yang et al.-0.7088-0.3072
Real Transformer0.7109-0.0737-

分類では、提案する複素内積ベースのCAttが僅差で最良である。 系列生成では、実数値Transformerが強く過学習し、複素値モデルが明確に優位になる。

畳み込みEncoder embeddingのアブレーションは次の通りである。

ModelClassificationSequence generation
C-Attention without convolution0.52400.1652
C-Attention with convolution0.71640.3272

貢献と限界点 (Contributions & Limitations)

貢献は、複素値Attentionの複数候補を定式化し、複素内積の回転不変性をTransformerの類似度計算へ持ち込んだ点にある。 また、複素値Layer NormalizationをTransformer向けに導入し、実部と虚部の共分散を保つ設計を示した。

結果は、複素値信号を実数値Transformerに単純変換するより、複素値構造を保持したほうが過学習に強いことを示す。 ただし、実験はMusicNet上の2タスクに限定される。 MRI、リモートセンシング、音声認識など、他の複素値応用で同じ利点が得られるかは追加検証が必要である。

関連リンク