複素値VAE

一言でいうと: 複素値VAEは、複素スペクトルの振幅と位相を同時に潜在表現へ写すために、VAEの観測、潜在変数、分布、ネットワークを複素値に拡張した生成モデルである。

標準的なVAEは実数ベクトルを扱うため、音声の複素スペクトルを入力するときには振幅だけを使うか、実部と虚部を単純に結合することが多い。 前者は位相を失い、後者は複素平面の幾何を通常の実数チャネルとして扱ってしまう。

複素値VAE論文は、複素正規分布 を用いて観測分布と潜在分布を定義し、擬似共分散を含むKL項と複素値再パラメータ化を導入する。 これにより、音声スペクトルの位相構造をVAEの内部表現に保持する。

この考え方は、後続のGamma-VAEEuleroDecと同じく、音声表現を実数ガウス前提に押し込めない方向の研究として位置づけられる。 ただし、複素値VAEは複素スペクトルを直接扱い、Gamma-VAEは非負の振幅スペクトルをガンマ分布で扱う点が異なる。

関連リンク