Gamma-VAE: Speech representation based on VAE assuming gamma distribution for both latent variables and observation

@inproceedings{Imaichi_2024,
  title={Gamma-VAE: Speech representation based on VAE assuming gamma distribution for both latent variables and observation},
  url={http://dx.doi.org/10.1109/APSIPAASC63619.2025.10848612},
  DOI={10.1109/apsipaasc63619.2025.10848612},
  booktitle={2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)},
  publisher={IEEE},
  author={Imaichi, Nanako and Nakashika, Toru},
  year={2024},
  month=Dec,
  pages={1-6}
}

BibTeX source

一言でいうと: Gamma-VAEは、音声振幅スペクトルの非負性に合わせるために、潜在変数と観測の両方をガンマ分布で表すVAEである。

背景と目的 (Background & Objective)

VAEは、エンコーダとデコーダの分布として正規分布を仮定することが多い。しかし、音声の振幅スペクトルはフーリエ変換の絶対値であり、常に非負である。そのため、 $(- \infty, + \infty)$ を台に持つ正規分布は、振幅スペクトルの観測モデルとして不自然になる。

この論文は、潜在変数と観測データの両方にガンマ分布を仮定するGamma-VAEを提案する。目的は、非負の音声振幅スペクトルを直接モデル化し、再構成品質を改善することである。

提案手法 (Proposed Method)

Gamma-VAEでは、エンコーダが潜在変数 $z \in R^{Z}$ のガンマ分布パラメータ $α_{ϕ}, β_{ϕ}$ を出力し、デコーダが観測 $x \in R^{D}$ のガンマ分布パラメータ $α_{θ}, β_{θ}$ を出力する。

観測モデルは次で定義される。

p_{θ} (x ∣ z) = G a (x; α_{θ} (z), β_{θ} (z)) .

各次元を独立とすると、対数尤度は次である。

lo g p_{θ} (x ∣ z) = d = 1 \sum D (- β_{θ d} x_{d} - lo g Γ (α_{θ d}) + α_{θ d} lo g β_{θ d} + (α_{θ d} - 1) lo g x_{d}) .

潜在変数の事前分布は $p (z) = G a (z; 1, 1)$ 、近似事後分布は $q_{ϕ} (z ∣ x) = G a (z; α_{ϕ} (x), β_{ϕ} (x))$ とされる。このときKL divergenceは次で導出される。

D_{K L} [q_{ϕ} (z ∣ x) ∣∣ p (z)] = m = 1 \sum Z (- \frac{β _{ϕ m} - 1}{β _{ϕ m}} α_{ϕ m} + lo g \frac{β _{ϕ m}}{Γ ( α _{ϕ m} )} + (α_{ϕ m} - 1) ψ (α_{ϕ m})) .

ガンマ分布に対する直接的な再パラメータ化として、 $r \sim G a (α_{ϕ} (x) + 1, 1)$ 、 $s \sim U ([0, 1])$ をサンプルし、次で潜在変数を作る。

z = \frac{1}{β _{ϕ} ( x )} \circ r \circ s^{1/ α_{ϕ} (x)} .

これにより $z \sim G a (z; α_{ϕ} (x), β_{ϕ} (x))$ となり、 $α_{ϕ}, β_{ϕ}$ への勾配を逆伝播できる。

また、 $β$ -VAEと同様に、KL項へ重み $w > 0$ を入れる。

L (x; ϕ, θ) = E [lo g p_{θ} (x ∣ z)] - w \cdot D_{K L} [q_{ϕ} (z ∣ x) ∣∣ p_{θ} (z)] .

実験と評価 (Experiments & Evaluation)

実験はATR音声コーパスで行われる。音声から振幅スペクトルまたは対数振幅スペクトルを抽出し、再構成されたスペクトルからGriffin-Limまたは正解位相で波形を復元する。 FFT sizeは512、hop sizeは128、sampling frequencyは16 kHzである。

モデルは単純な全結合構造で、潜在次元は $Z = 100$ 、learning rateは0.001、epoch数は1,000である。比較対象は、通常のVAE、潜在変数だけガンマ分布にするenc-Gamma-VAE、観測だけガンマ分布にするdec-Gamma-VAE、提案Gamma-VAEである。

主要な評価結果は次の通りである。表中の amp は振幅スペクトル、log は対数振幅スペクトルを表す。

Method	Input	PESQ Griffin-Lim	PESQ Correct phase	STOI Griffin-Lim	STOI Correct phase	UTMOS Griffin-Lim	UTMOS Correct phase	MOS Correct phase
VAE	amp	2.09	2.47	0.93	0.95	1.57	2.87	2.35
VAE	log	2.96	3.71	0.91	0.94	1.67	3.30	3.59
enc-Gamma-VAE	amp	1.93	2.27	0.90	0.92	1.40	2.64	2.34
enc-Gamma-VAE	log	2.67	3.36	0.90	0.93	1.61	3.13	3.29
dec-Gamma-VAE	amp	3.42	4.07	0.96	0.98	2.31	3.85	3.79
Gamma-VAE	amp	3.58	4.15	0.96	0.98	2.26	3.86	3.89
Upper bound	amp	4.29	4.55	0.97	1.00	4.11	-	4.25

PESQ、STOI、MOSでは、Gamma-VAEが通常VAEを上回る。主観評価では、Gamma-VAEはdec-Gamma-VAEを除く全手法に対して有意差ありと報告される。

Original	VAE	Gamma-VAE

上のスペクトログラムはPDFから直接抽出した図であり、元音声、VAE系モデル、Gamma-VAEの再構成結果を比較するための可視化である。

ハイパーパラメータ探索では、KL項の重みは $w = 0.03$ が採用された。中間層数は、VAE、VAE(log)、Gamma-VAEでそれぞれ2、2、5が最良である。

貢献と限界点 (Contributions & Limitations)

貢献は、潜在変数と観測の両方にガンマ分布を置くVAEを定式化し、近似なしの再パラメータ化手法を示した点にある。音声振幅スペクトルの非負性に分布仮定を合わせることで、再構成品質が改善される。

限界は、位相生成や波形生成を主目的にしていない点である。波形復元にはGriffin-Limまたは正解位相を用いており、完全な音声生成システムとしての評価ではない。また、モデル構造は分布仮定の比較を目的として単純な全結合ネットワークに固定されている。

Quartz 5

Explorer

Gamma-VAE: Speech representation based on VAE assuming gamma distribution for both latent variables and observation

Gamma-VAE: Speech representation based on VAE assuming gamma distribution for both latent variables and observation

背景と目的 (Background & Objective)

提案手法 (Proposed Method)

実験と評価 (Experiments & Evaluation)

貢献と限界点 (Contributions & Limitations)

関連リンク

Graph View

Table of Contents

Backlinks