Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra

@article{Nakashika_2019,
  title={Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra},
  volume={27},
  ISSN={2329-9304},
  url={http://dx.doi.org/10.1109/taslp.2018.2877465},
  DOI={10.1109/taslp.2018.2877465},
  number={2},
  journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing},
  publisher={Institute of Electrical and Electronics Engineers (IEEE)},
  author={Nakashika, Toru and Takaki, Shinji and Yamagishi, Junichi},
  year={2019},
  month=Feb,
  pages={244–254}
}

BibTeX source

一言でいうと: これは、複素音声スペクトルから位相情報を損なわずに直接特徴抽出・生成を行うために、複素数値の可視層とバイナリ値の隠れ層を持ち、同一レイヤ内の結合を排した複素制限ボルツマンマシン(CRBM)を提案し、CPCAによる次元削減、CAdamによる最適化、MLPGによる軌跡生成を組み合わせた音声パラメータ化手法である。

背景と目的 (Background & Objective)

音声認識や音声合成などの音声信号処理分野では、入力特徴量や出力生成の対象として、振幅スペクトルに基づく表現(MFCC、ケプストラム、メルケプストラムなど)が伝統的に用いられてきた。これは振幅スペクトルが人間の聴覚特性と強く関連しており扱いやすいためである。しかし、これらの表現は理論的に位相情報を欠いており、Griffin-Limアルゴリズムなどの位相復元手法を用いても、元の複素スペクトルを完全に、かつ低計算量で復元することは困難であった。

また、他分野の信号処理(fMRI画像、無線信号、音響インテンシティなど)でも複素数データを扱う必要性が高い。そのため、複素数データを直接扱えるディープラーニングモデルの開発が求められている。

既存の複素拡張モデル(例:Directional-Unit Boltzmann Machine: DUBM)は、極座標形式(振幅と位相)に基づいて複素数を表し、かつレイヤ内の接続を持つため、ギブスサンプリングやコントラスティブ・ダイバージェンス(CD)によるパラメータ推定が極めて困難であるという問題があった。

本研究は、同一レイヤ内の接続を排除する「制限付き」の構造を維持しながら、各次元における「実部と虚部の相関」をモデル化可能な**複素制限ボルツマンマシン(Complex-Valued Restricted Boltzmann Machine: CRBM)**を定義し、複素スペクトルからの直接的な音声パラメータ化を可能にすることを目的とする。

提案手法 (Proposed Method)

1. 複素制限ボルツマンマシン (CRBM)

提案モデルであるCRBMは、以下のグラフィカルモデル( 次元の複素可視ユニット 次元のバイナリ隠れユニット )で構成される。

RBMとGB-RBMの構造CRBMの構造

CRBMの同時確率分布 およびエネルギー関数 は、以下のように実数関数として定義される。

ここで、 はパラメータセットである。

  • : 可視ユニットのバイアス
  • : 隠れユニットのバイアス
  • : 可視・隠れ層間の結合重み
  • : 拡張共分散行列。同一レイヤ内の別次元間の結合を排除するために、以下のように共分散行列 と疑似共分散行列 を対角行列として設計する。

これにより、異なる可視次元間の接続は存在しないが、同じ可視次元内の「実部と虚部の結合」が疑似共分散 によって許容される。

条件付き確率は以下のように簡潔な形式で導出でき、効率的なギブスサンプリングやCDによる学習が可能である。

ここで であり、 は以下の精度パラメータである。

2. 従来の実数GB-RBMとの接続比較

実数空間における 次元の Gaussian-Bernoulli RBM (GB-RBM) で、複素ベクトル を実部・虚部の結合ベクトル として扱うモデルと比較する。

実数結合のGB-RBMとCRBMのエネルギー関数を比較すると、CRBMのエネルギー関数には実部と虚部の間に交差項 (, ただし ) が自動的に含まれる。 したがって、CRBMは各次元の実部と虚部の相関(=位相関係)をモデル内部で明示的に表現可能であり、これがより安定した収束と高い表現力に繋がる。

3. CPCA (複素主成分分析) による次元削減

音声の複素スペクトル(窓長256の場合、129次元)は次元数が大きいため、直接入力するとパラメータ数が膨大になる。そこで、複素主成分分析 (Complex Principal Component Analysis: CPCA) を用いて 次元に圧縮する。 さらに、時間的変化を捉えるために動的特徴量 を連結し、最終的に 次元の複素ベクトル をCRBMの可視入力とする。

4. MLPG (最大尤度パラメータ生成) による複素時系列生成

音声フレームを独立に復元するだけでは、隣接フレーム間の時間的相関(滑らかさ)が無視される。本研究では、静的・動的特徴量の関係性から最適な滑らかな軌跡を生成する MLPG (Maximum Likelihood Parameter Generation) を複素領域へ拡張して適用する。 復元時、エンコードされた隠れユニット系列 から、条件付き確率 を最大化する最適な複素CPCA特徴量の時系列 を、 Wirtinger微分に基づく複素勾配法(CSA)を用いて反復的に更新・推定する。

5. CAdam (複素値Adam)

Wirtinger微分(複素勾配)を用いたパラメータ更新において、実数のAdamアルゴリズムを複素数パラメータ空間へ拡張したCAdam (Complex Adam) を導入し、従来の CSA (Complex Steepest Ascent) に比べて収束速度を大幅に向上させた。

実験と評価 (Experiments & Evaluation)

1. 人工データによる評価

1次元の相関を持つ複素数値の人工データ(2000サンプル)を用いた分布表現テスト。

  • 上図(CRBM)は、元のデータ分布(黒ドット)に沿った生成サンプル(赤ドット)を生成できている。
  • 下図(従来のRBM)は、実部と虚部の相関を捉えられず、四角い等方的な領域にサンプルが拡散している。
  • これにより、CRBMが複素数データの実部・虚部間の相関を正確に学習できることが実証された。

2. 音声パラメータ化実験

  • データセット: ATR音声コーパス(女性話者「FTK」、学習用50文(約4.2分)、テスト用53文)
  • 客観評価指標: PESQ (Perceptual Evaluation of Speech Quality), PSNR (Peak Signal-to-Noise Ratio)
  • 主観評価指標: MOS (Mean Opinion Score, 5段階評価, クラウドソーシングによる95名の判定)

CPCAの次元数決定

CPCAによる圧縮次元数 を変化させた際の再構成音声の品質 (PESQ) 比較。

20406080100
PESQ3.714.464.494.504.50

結果より、 で十分な再構成品質が得られるため、以降の実験では を採用。

学習時の収束速度比較 (CAdamの効果)

CAdamを用いたCRBMの学習は、CSA(急峻上昇法)や実数Adamを用いたRBMよりも高速かつ安定して低いMSEに収束した。

音声復元品質の客観評価 (PESQ)

隠れユニット数 を変化させた場合のPESQ比較。 (+T はMLPG時系列生成あり、-GL は振幅スペクトル入力+Griffin-Limによる位相復元)

隠れユニット数 CRBM+TCRBMRBM+TRBMRBM-GL
1,0002.412.342.392.302.33
2,0002.722.602.622.542.46
4,0002.812.702.662.542.39
  • CRBMはすべての条件で従来のRBMを上回った。
  • 特に隠れユニット数が増えるほど()、CRBMはRBMに比べて性能が大きく向上した。

各種パラメータ化手法との全体比較 (客観評価)

各手法の最適条件における再構成品質(PESQ)。

手法特徴PESQ
CRBM+T (提案)複素スペクトル (CPCA) + 時系列生成2.81
CRBM複素スペクトル (CPCA)2.70
RBM+T実部虚部結合 + 時系列生成2.66
RBM実部虚部結合2.54
RBM-GL振幅 + Griffin-Lim2.46
MCEPメルケプストラム + MLSAデコーダ2.68
CEPケプストラム + LMAデコーダ2.54
WORLD音声分析合成システム (Vocoder)2.86
  • 提案手法 CRBM+T は、音声専用の高性能ボコーダである WORLD (2.86) に極めて近い品質(2.81)を達成した。
  • フレームごとの処理でも、時系列RBM(RBM+T)を上回る結果となった。

PSNRによる振幅・位相復元性能の分析

再構成スペクトルの振幅(Magnitude Spectrum: MS)と位相差(Phase Difference: PD)のPSNR [dB] 比較。

手法MS (振幅)PD (位相差)
CRBM (提案)39.8 dB7.04 dB
RBM38.8 dB6.72 dB
  • CRBMはRBMに比べ、振幅で2.58%、位相で4.76%の相対的性能改善を示した。特に位相情報において高い表現力を発揮している。

主観評価 (MOS) 結果

クラウドソーシングによる主観評価(MOS)比較(フレーム単位処理での比較)。

  • CRBM (MOS: 3.03) は、WORLD (3.58) には及ばないものの、RBM (2.47), MCEP (2.49), CEP (1.88) を統計的に有意な差で上回り、主観的にも音質の改善が確認された。

貢献と限界点 (Contributions & Limitations)

貢献

  1. 複素数データを制約なく直接入力可能な確率モデル CRBM を理論的に定義した。
  2. 同一レイヤ内の結合を排除することで、実部と虚部の相関関係を維持しつつ、ギブスサンプリングやCDによる高速なパラメータ推定を可能にした。
  3. 複素数領域への拡張として、複素主成分分析 (CPCA) による次元削減、複素MLPG による軌跡生成、および CAdam による複素最適化を統合した音声処理フレームワークを構築した。

限界点

  1. 音声専用の高品質ボコーダ(WORLD)に対しては、主観品質で一歩及ばない。
  2. 今回提案されたモデルは1層のRBMを基本としており、表現能力の限界がある。
  3. 学習時に共分散・疑似共分散の勾配が非常に大きくなりやすく、学習を安定化させるためにハイパーパラメータの調整が必要(論文では として変数変換を行い最適化を安定化させている)。

関連リンク