Gamma-VAE: Speech representation based on VAE assuming gamma distribution for both latent variables and observation

@inproceedings{Imaichi_2024,
  title={Gamma-VAE: Speech representation based on VAE assuming gamma distribution for both latent variables and observation},
  url={http://dx.doi.org/10.1109/APSIPAASC63619.2025.10848612},
  DOI={10.1109/apsipaasc63619.2025.10848612},
  booktitle={2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)},
  publisher={IEEE},
  author={Imaichi, Nanako and Nakashika, Toru},
  year={2024},
  month=Dec,
  pages={1-6}
}

BibTeX source

一言でいうと: Gamma-VAEは、音声振幅スペクトルの非負性に合わせるために、潜在変数と観測の両方をガンマ分布で表すVAEである。

背景と目的 (Background & Objective)

VAEは、エンコーダとデコーダの分布として正規分布を仮定することが多い。 しかし、音声の振幅スペクトルはフーリエ変換の絶対値であり、常に非負である。 そのため、 を台に持つ正規分布は、振幅スペクトルの観測モデルとして不自然になる。

この論文は、潜在変数と観測データの両方にガンマ分布を仮定するGamma-VAEを提案する。 目的は、非負の音声振幅スペクトルを直接モデル化し、再構成品質を改善することである。

提案手法 (Proposed Method)

Gamma-VAEでは、エンコーダが潜在変数 のガンマ分布パラメータ を出力し、デコーダが観測 のガンマ分布パラメータ を出力する。

観測モデルは次で定義される。

各次元を独立とすると、対数尤度は次である。

潜在変数の事前分布は 、近似事後分布は とされる。 このときKL divergenceは次で導出される。

ガンマ分布に対する直接的な再パラメータ化として、 をサンプルし、次で潜在変数を作る。

これにより となり、 への勾配を逆伝播できる。

また、-VAEと同様に、KL項へ重み を入れる。

実験と評価 (Experiments & Evaluation)

実験はATR音声コーパスで行われる。 音声から振幅スペクトルまたは対数振幅スペクトルを抽出し、再構成されたスペクトルからGriffin-Limまたは正解位相で波形を復元する。 FFT sizeは512、hop sizeは128、sampling frequencyは16 kHzである。

モデルは単純な全結合構造で、潜在次元は 、learning rateは0.001、epoch数は1,000である。 比較対象は、通常のVAE、潜在変数だけガンマ分布にするenc-Gamma-VAE、観測だけガンマ分布にするdec-Gamma-VAE、提案Gamma-VAEである。

主要な評価結果は次の通りである。 表中の amp は振幅スペクトル、log は対数振幅スペクトルを表す。

MethodInputPESQ Griffin-LimPESQ Correct phaseSTOI Griffin-LimSTOI Correct phaseUTMOS Griffin-LimUTMOS Correct phaseMOS Correct phase
VAEamp2.092.470.930.951.572.872.35
VAElog2.963.710.910.941.673.303.59
enc-Gamma-VAEamp1.932.270.900.921.402.642.34
enc-Gamma-VAElog2.673.360.900.931.613.133.29
dec-Gamma-VAEamp3.424.070.960.982.313.853.79
Gamma-VAEamp3.584.150.960.982.263.863.89
Upper boundamp4.294.550.971.004.11-4.25

PESQ、STOI、MOSでは、Gamma-VAEが通常VAEを上回る。 主観評価では、Gamma-VAEはdec-Gamma-VAEを除く全手法に対して有意差ありと報告される。

OriginalVAEGamma-VAE

上のスペクトログラムはPDFから直接抽出した図であり、元音声、VAE系モデル、Gamma-VAEの再構成結果を比較するための可視化である。

ハイパーパラメータ探索では、KL項の重みは が採用された。 中間層数は、VAE、VAE(log)、Gamma-VAEでそれぞれ2、2、5が最良である。

貢献と限界点 (Contributions & Limitations)

貢献は、潜在変数と観測の両方にガンマ分布を置くVAEを定式化し、近似なしの再パラメータ化手法を示した点にある。 音声振幅スペクトルの非負性に分布仮定を合わせることで、再構成品質が改善される。

限界は、位相生成や波形生成を主目的にしていない点である。 波形復元にはGriffin-Limまたは正解位相を用いており、完全な音声生成システムとしての評価ではない。 また、モデル構造は分布仮定の比較を目的として単純な全結合ネットワークに固定されている。

関連リンク