Gamma-VAE

Gamma-VAEは、潜在変数と観測データの両方にガンマ分布を仮定するVAEである。 音声の振幅スペクトルのように非負値を取る特徴量を、対数変換せず直接モデル化することを狙う。

エンコーダは潜在変数分布 のパラメータを出力し、デコーダは観測分布 のパラメータを出力する。 論文では、 を使う再パラメータ化により、ガンマ分布の潜在変数を逆伝播可能にした。

Gamma-VAE音声表現の音声再構成実験では、Gamma-VAEは通常VAEより高いPESQ、STOI、MOSを示した。 ただし、波形生成そのものではなく、振幅スペクトル表現の改善を主に評価している。

関連リンク