複素値Transformer

複素値Transformerは、入力、線形射影、Attention、正規化などを複素数領域で扱うTransformerである。 フーリエ変換後の音声や音楽信号、MRI、リモートセンシングなど、観測が自然に複素数となる応用に向く。

複素値Transformer構成要素では、複素値Scaled Dot-Product Attentionと複素値Layer Normalizationが提案される。 MusicNetでの実験では、実数値Transformerと同等以上の性能を保ちつつ、過学習に対して強い傾向を示した。

EuleroDec論文では、複素値畳み込み、複素正規化、時間方向・周波数方向の複素Attentionを音声コーデックへ組み込む。 Transformerそのものの提案ではないが、複素値AttentionをSTFT音声の振幅・位相結合を保つ部品として使う応用例である。

ComplexOrlicz撤回プレプリントも複素数表現を用いるが、目的はTransformerの複素値化ではなく、異分散回帰における平均・分散勾配の直交化である。 同ソースは撤回済みプレプリントであるため、関連アイデアとしてのみ扱う。

関連リンク