Variational Autoencoder

**Variational Autoencoder (VAE)**は、潜在変数 $z$ を介して観測 $x$ を生成する深層生成モデルである。通常は、近似事後分布 $q_{ϕ} (z ∣ x)$ と生成分布 $p_{θ} (x ∣ z)$ をニューラルネットワークでパラメータ化し、ELBOを最大化する。

標準的なVAEでは、潜在変数と観測に正規分布を仮定することが多い。しかし、音声の振幅スペクトルのように非負値しか取らない観測では、この仮定は値域と一致しない。

HypersphericalVAEは、値域ではなく潜在空間の幾何に注目する。標準ガウス事前分布が低次元で原点へ質量を集める問題に対し、von_Mises-Fisher分布と超球面上一様事前分布を使う超球面VAEを提案する。

複素値VAE論文は、複素スペクトルを直接扱うために、観測と潜在変数を複素正規分布で定義する。この方向では、位相情報を捨てずにVAEの潜在表現へ入れることが目的になる。

Gamma-VAE音声表現は、この問題に対してGamma-VAEを提案する。観測だけでなく潜在変数にもガンマ分布を仮定し、ガンマ分布に対応した再パラメータ化により逆伝播を可能にする。

EuleroDec論文は、音声コーデックとしてRVQ-VAE型の設計を用いる。ここでの焦点は確率的生成モデルとしてのVAEではなく、複素STFT表現を低ビットレートの離散コードへ圧縮するResidual Vector Quantizationである。

PoissonVAE論文は、潜在変数をPoisson spike countsに置き換え、離散潜在変数をsoft Poisson process samplingでreparameterizeする。線形decoderではKL項がfiring-rate penaltyになり、amortized sparse codingと対応する。

Quartz 5

Explorer

Variational Autoencoder

Variational Autoencoder

関連リンク

Graph View

Table of Contents

Backlinks