Variational Autoencoder
**Variational Autoencoder (VAE)**は、潜在変数 を介して観測 を生成する深層生成モデルである。 通常は、近似事後分布 と生成分布 をニューラルネットワークでパラメータ化し、ELBOを最大化する。
標準的なVAEでは、潜在変数と観測に正規分布を仮定することが多い。 しかし、音声の振幅スペクトルのように非負値しか取らない観測では、この仮定は値域と一致しない。
HypersphericalVAEは、値域ではなく潜在空間の幾何に注目する。 標準ガウス事前分布が低次元で原点へ質量を集める問題に対し、von_Mises-Fisher分布と超球面上一様事前分布を使う超球面VAEを提案する。
複素値VAE論文は、複素スペクトルを直接扱うために、観測と潜在変数を複素正規分布で定義する。 この方向では、位相情報を捨てずにVAEの潜在表現へ入れることが目的になる。
Gamma-VAE音声表現は、この問題に対してGamma-VAEを提案する。 観測だけでなく潜在変数にもガンマ分布を仮定し、ガンマ分布に対応した再パラメータ化により逆伝播を可能にする。
EuleroDec論文は、音声コーデックとしてRVQ-VAE型の設計を用いる。 ここでの焦点は確率的生成モデルとしてのVAEではなく、複素STFT表現を低ビットレートの離散コードへ圧縮するResidual Vector Quantizationである。
PoissonVAE論文は、潜在変数をPoisson spike countsに置き換え、離散潜在変数をsoft Poisson process samplingでreparameterizeする。 線形decoderではKL項がfiring-rate penaltyになり、amortized sparse codingと対応する。