EuleroDec
EuleroDecは、Cerovaz、Mancusi、Rodolàが提案した複素値RVQ-VAE音声コーデックである。 STFTスペクトログラムを複素値のまま扱い、複素畳み込み、複素注意機構、複素RVQ、ISTFTを接続する。
主な特徴は、GAN型識別器や拡散後処理を使わずに、低い訓練反復数でLibriTTS上のSI-SDRとGroup-Delay Distortionを改善する点である。 ただし非因果モデルなので、ライブストリーミング用途には制約がある。
EuleroDecは、Cerovaz、Mancusi、Rodolàが提案した複素値RVQ-VAE音声コーデックである。 STFTスペクトログラムを複素値のまま扱い、複素畳み込み、複素注意機構、複素RVQ、ISTFTを接続する。
主な特徴は、GAN型識別器や拡散後処理を使わずに、低い訓練反復数でLibriTTS上のSI-SDRとGroup-Delay Distortionを改善する点である。 ただし非因果モデルなので、ライブストリーミング用途には制約がある。