ニューラルオーディオコーデック

一言でいうと: ニューラルオーディオコーデックは、音声を低ビットレートの離散または連続表現へ圧縮し、ニューラルデコーダで復元する音声圧縮モデルである。

音声コーデックは、通信、ストリーミング、音声生成モデルのトークン化で使われる。従来のニューラル音声コーデックは、波形領域で処理する方法と、STFTなどの周波数領域表現を処理する方法に分かれる。

周波数領域の方法では、振幅と位相の扱いが品質を左右する。位相を捨てる、または実部と虚部を独立チャネルとして扱うと、過渡音や干渉構造を復元しにくい。 EuleroDec論文はこの問題に対し、解析から合成までを複素値のまま処理するRVQ-VAE型コーデックを提案する。