EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding

@INPROCEEDINGS{11460428,
  author={Cerovaz, Luca and Mancusi, Michele and Rodolà, Emanuele},
  booktitle={ICASSP 2026 - 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding}, 
  year={2026},
  volume={},
  number={},
  pages={17042-17046},
  keywords={Feeds;Antennas;Filtering;Filters;Anisotropic;Circuits and systems;Codecs;Complex networks;Protocols;Communication equipment;Neural Audio Codecs;EuleroDec;Vector-quantized variational autoencoders (VQ-VAE);Complex-Valued Neural Networks},
  doi={10.1109/ICASSP55912.2026.11460428}
}

BibTeX source

一言でいうと: EuleroDecは、STFTスペクトログラムの振幅と位相を分離して扱う音声コーデックの弱点を避けるために、解析、量子化、合成を複素値のまま行うRVQ-VAE音声コーデックである。

背景と目的 (Background & Objective)

ニューラル音声コーデックは、PCM音声を低ビットレートの離散表現へ圧縮し、音楽生成、ストリーミング、没入型メディアで使われる。 周波数領域のコーデックはSTFTにより音声を時間周波数表現へ変換するが、位相を捨てる、あるいは実部と虚部や振幅と位相を別チャネルとして処理すると、過渡音のにじみや位相感のあるアーティファクトが生じやすい。

既存の高品質コーデックは、この表現力不足を補うためにGAN型識別器、score-basedまたはflow-basedの後処理を使うことが多い。 しかし、敵対的学習は収束を遅くし、訓練安定性も悪化させる。 この論文の目的は、振幅と位相の結合を複素値演算で保ち、GANや拡散後処理なしに高品質な音声符号化を実現することである。

提案手法 (Proposed Method)

EuleroDecは、複素STFTを入力し、エンコーダ、残差ベクトル量子化器、デコーダ、ISTFTまでを複素値のまま接続する。 論文は、全層が複素値であることをアーキテクチャ図で示している。

複素値畳み込みは を複素数として畳み込み、実部と虚部を独立チャネルとしてではなく結合した線形演算として扱う。 この性質により、モデルは振幅と位相の相互作用を直接学習できる。

論文は複素値ネットワークの性質として、位相回転 に対する同変性を挙げる。

非線形には、位相を保ったまま振幅へしきい値をかけるmodReLUを用いる。

量子化部では、エンコーダ出力 の周波数方向をチャネルに畳み込み、複素線形射影でコード次元へ写す。 その後、12段のResidual Vector Quantizationを適用する。 各段では、Hermitian内積に基づくユークリッド距離で最も近い複素セントロイドを選ぶ。

コミットメント損失は次で定義される。

コードブックはEMAで更新され、30ステップのウォームアップ後にエンコーダ埋め込みから初期化される。 論文は6 kbps設定でコード利用率100%、有効perplexity 73.2%を報告している。

実験と評価 (Experiments & Evaluation)

訓練にはLibriTTStrain.clean.100、すなわち100時間の音声を用いる。 入力音声は24 kHzで、STFT設定は N_FFT=512、window長512、hop長64、Hann窓、256フレームである。 6 kbpsでは時間stride 8により約46.9 tokens/s、12 kbpsではstride 4により約93.8 tokens/sにする。

訓練目的は、multi-resolution mel L1損失、複素L1を含むmulti-resolution spectrogram損失、量子化ペナルティからなる。

評価対象はAudioDec、EnCodec、APCodecである。 EuleroDecは非因果モデルであり、ライブストリーミングには向かないが、NVIDIA RTX 3090でReal-Time Factor 0.344を報告している。

設定モデル訓練反復SI-SDR ↑PESQ ↑GDD ↓ESTOI ↑
Out-of-domain 24 kHz, 6 kbpsEuleroDec35k7.582.162700.742
Out-of-domain 24 kHz, 6 kbpsAPCodec700k0.351.915960.769
Out-of-domain 24 kHz, 6 kbpsAudioDec500k-19.571.9681960.698
Out-of-domain 24 kHz, 6 kbpsEnCodec500k5.592.696040.861
In-domain 24 kHz, 6 kbpsEuleroDec35k10.522.472640.842
In-domain 24 kHz, 6 kbpsAPCodec700k7.903.015540.908
In-domain 24 kHz, 6 kbpsAudioDec500k-14.482.0519700.771
In-domain 24 kHz, 6 kbpsEnCodec500k7.472.765900.905
Out-of-domain 24 kHz, 12 kbpsEuleroDec41k11.202.572570.819
Out-of-domain 24 kHz, 12 kbpsEnCodec500k8.273.635910.925
Out-of-domain 24 kHz, 12 kbpsAPCodec700k5.632.845790.880
In-domain 24 kHz, 12 kbpsEuleroDec41k13.672.912490.901
In-domain 24 kHz, 12 kbpsEnCodec500k10.323.775780.953
In-domain 24 kHz, 12 kbpsAPCodec700k5.933.175680.922

EuleroDecはSI-SDRとGDDで強い結果を示す。 一方で、PESQとESTOIではEnCodecやAPCodecが上回る設定があり、波形忠実度と知覚品質・明瞭度の評価が一致しない。 論文の主張は、GANや拡散後処理なし、かつ35kから41k反復という小さい訓練予算で、特にout-of-domainの位相関連品質を改善した点にある。

貢献と限界点 (Contributions & Limitations)

貢献は、複素値ニューラルネットワークの考え方を音声コーデック全体へ広げ、STFT、エンコーダ、RVQ、デコーダ、ISTFTの流れで複素値表現を保った点である。 これにより、振幅と位相の結合を保持し、敵対的識別器や拡散後処理に依存しない訓練を実現している。

限界は、非因果アーキテクチャであるためリアルタイム双方向通信やライブ配信には適さない点である。 評価もLibriTTS中心であり、音楽、環境音、多話者混合などへの一般化は本文中の結果だけでは判断できない。 PESQとESTOIでは既存コーデックが優位な設定もあるため、「全指標でSOTA」という結果ではなく、低訓練予算と位相歪み指標に強い複素値コーデックとして位置づけるのが正確である。

関連リンク