Gamma-VAE: Speech representation based on VAE assuming gamma distribution for both latent variables and observation
@inproceedings{Imaichi_2024,
title={Gamma-VAE: Speech representation based on VAE assuming gamma distribution for both latent variables and observation},
url={http://dx.doi.org/10.1109/APSIPAASC63619.2025.10848612},
DOI={10.1109/apsipaasc63619.2025.10848612},
booktitle={2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)},
publisher={IEEE},
author={Imaichi, Nanako and Nakashika, Toru},
year={2024},
month=Dec,
pages={1-6}
}一言でいうと: Gamma-VAEは、音声振幅スペクトルの非負性に合わせるために、潜在変数と観測の両方をガンマ分布で表すVAEである。
背景と目的 (Background & Objective)
VAEは、エンコーダとデコーダの分布として正規分布を仮定することが多い。 しかし、音声の振幅スペクトルはフーリエ変換の絶対値であり、常に非負である。 そのため、 を台に持つ正規分布は、振幅スペクトルの観測モデルとして不自然になる。
この論文は、潜在変数と観測データの両方にガンマ分布を仮定するGamma-VAEを提案する。 目的は、非負の音声振幅スペクトルを直接モデル化し、再構成品質を改善することである。
提案手法 (Proposed Method)
Gamma-VAEでは、エンコーダが潜在変数 のガンマ分布パラメータ を出力し、デコーダが観測 のガンマ分布パラメータ を出力する。
観測モデルは次で定義される。
各次元を独立とすると、対数尤度は次である。
潜在変数の事前分布は 、近似事後分布は とされる。 このときKL divergenceは次で導出される。
ガンマ分布に対する直接的な再パラメータ化として、、 をサンプルし、次で潜在変数を作る。
これにより となり、 への勾配を逆伝播できる。
また、-VAEと同様に、KL項へ重み を入れる。
実験と評価 (Experiments & Evaluation)
実験はATR音声コーパスで行われる。 音声から振幅スペクトルまたは対数振幅スペクトルを抽出し、再構成されたスペクトルからGriffin-Limまたは正解位相で波形を復元する。 FFT sizeは512、hop sizeは128、sampling frequencyは16 kHzである。
モデルは単純な全結合構造で、潜在次元は 、learning rateは0.001、epoch数は1,000である。 比較対象は、通常のVAE、潜在変数だけガンマ分布にするenc-Gamma-VAE、観測だけガンマ分布にするdec-Gamma-VAE、提案Gamma-VAEである。
主要な評価結果は次の通りである。
表中の amp は振幅スペクトル、log は対数振幅スペクトルを表す。
| Method | Input | PESQ Griffin-Lim | PESQ Correct phase | STOI Griffin-Lim | STOI Correct phase | UTMOS Griffin-Lim | UTMOS Correct phase | MOS Correct phase |
|---|---|---|---|---|---|---|---|---|
| VAE | amp | 2.09 | 2.47 | 0.93 | 0.95 | 1.57 | 2.87 | 2.35 |
| VAE | log | 2.96 | 3.71 | 0.91 | 0.94 | 1.67 | 3.30 | 3.59 |
| enc-Gamma-VAE | amp | 1.93 | 2.27 | 0.90 | 0.92 | 1.40 | 2.64 | 2.34 |
| enc-Gamma-VAE | log | 2.67 | 3.36 | 0.90 | 0.93 | 1.61 | 3.13 | 3.29 |
| dec-Gamma-VAE | amp | 3.42 | 4.07 | 0.96 | 0.98 | 2.31 | 3.85 | 3.79 |
| Gamma-VAE | amp | 3.58 | 4.15 | 0.96 | 0.98 | 2.26 | 3.86 | 3.89 |
| Upper bound | amp | 4.29 | 4.55 | 0.97 | 1.00 | 4.11 | - | 4.25 |
PESQ、STOI、MOSでは、Gamma-VAEが通常VAEを上回る。 主観評価では、Gamma-VAEはdec-Gamma-VAEを除く全手法に対して有意差ありと報告される。
| Original | VAE | Gamma-VAE |
|---|---|---|
![]() | ![]() | ![]() |
上のスペクトログラムはPDFから直接抽出した図であり、元音声、VAE系モデル、Gamma-VAEの再構成結果を比較するための可視化である。
ハイパーパラメータ探索では、KL項の重みは が採用された。 中間層数は、VAE、VAE(log)、Gamma-VAEでそれぞれ2、2、5が最良である。
貢献と限界点 (Contributions & Limitations)
貢献は、潜在変数と観測の両方にガンマ分布を置くVAEを定式化し、近似なしの再パラメータ化手法を示した点にある。 音声振幅スペクトルの非負性に分布仮定を合わせることで、再構成品質が改善される。
限界は、位相生成や波形生成を主目的にしていない点である。 波形復元にはGriffin-Limまたは正解位相を用いており、完全な音声生成システムとしての評価ではない。 また、モデル構造は分布仮定の比較を目的として単純な全結合ネットワークに固定されている。


