Hyperspherical Variational Auto-Encoders

@inproceedings{DBLP:conf/uai/DavidsonFCKT18,
  author       = {Tim R. Davidson and
                  Luca Falorsi and
                  Nicola De Cao and
                  Thomas Kipf and
                  Jakub M. Tomczak},
  editor       = {Amir Globerson and
                  Ricardo Silva},
  title        = {Hyperspherical Variational Auto-Encoders},
  booktitle    = {Proceedings of the Thirty-Fourth Conference on Uncertainty in Artificial
                  Intelligence, {UAI} 2018, Monterey, California, USA, August 6-10,
                  2018},
  pages        = {856--865},
  publisher    = {{AUAI} Press},
  year         = {2018},
  url          = {http://auai.org/uai2018/proceedings/papers/309.pdf},
  biburl       = {https://dblp.org/rec/conf/uai/DavidsonFCKT18.bib},
  bibsource    = {dblp computer science bibliography, https://dblp.org}
}

BibTeX source

一言でいうと: Hyperspherical VAEは、標準VAEのガウス潜在空間が低次元で原点へ引っ張られる問題を避けるために、von Mises-Fisher分布と超球面上一様分布で潜在空間を構成するVAEである。

背景と目的 (Background & Objective)

標準的なVAEは、潜在変数の事前分布と近似事後分布にガウス分布を使う。この選択は再パラメータ化が簡単で扱いやすいが、潜在構造が円や球面のような超球面上にあるデータには合わない。

低次元の標準ガウス分布は原点周辺に質量を集中させる。そのため、複数クラスタを分離したい潜在表現でも、KL項が各クラスタを原点へ寄せる。高次元では標準ガウス分布の質量が薄い球殻へ集まるため、ガウス潜在空間は結果的に超球面に似た振る舞いを示すが、これは明示的な球面モデルではない。

この論文の目的は、潜在空間をユークリッド空間ではなく超球面 $S^{m - 1}$ 上に置き、真に一様な事前分布を使えるVAEを構成することである。著者らはこのモデルを Hyperspherical VAE または S-VAE と呼ぶ。

提案手法 (Proposed Method)

S-VAEは、ガウス近似事後分布の代わりにvon Mises-Fisher分布を使う。 vMF分布は超球面上の単位ベクトル $z \in S^{m - 1}$ に対する分布であり、平均方向 $μ$ と集中度 $κ$ を持つ。

q (z ∣ μ, κ) = C_{m} (κ) exp (κ μ^{T} z),

C_{m} (κ) = \frac{κ ^{m /2 - 1}}{( 2 π ) ^{m /2} I _{m /2 - 1} ( κ )} .

$∥ μ ∥_{2} = 1$ であり、 $I_{v}$ は第一種変形Bessel関数である。 $κ = 0$ のとき、vMF分布は超球面上一様分布になる。この性質により、S-VAEは事前分布として $U (S^{m - 1})$ を置ける。

vMF近似事後分布と一様事前分布のKL項は閉形式で書ける。

D_{KL} (vMF (μ, κ) ∥ U (S^{m - 1})) = κ \frac{I _{m /2} ( κ )}{I _{m /2 - 1} ( κ )} + lo g C_{m} (κ) - lo g (\frac{2 π ^{m /2}}{Γ ( m /2 )})^{- 1} .

このKL項は $μ$ に依存しない。したがって、平均方向は再構成項で学習され、集中度 $κ$ がKL項を通じて正則化される。

サンプリングはUlrichのvMFサンプリングに従う。まず $e_{1} = (1, 0, \dots, 0)$ を平均方向に持つvMFからサンプルを作り、Householder変換で平均方向 $μ$ へ回転する。中心となる一次元変数 $ω$ は次の密度から棄却サンプリングで得る。

g (ω ∣ κ, m) \propto exp (κω) (1 - ω^{2})^{(m - 3) /2}, ω \in [- 1, 1] .

論文の技術的な工夫は、棄却サンプリングを含むvMFサンプリングに対して再パラメータ化勾配を通す点である。 Naessethらのacceptance-rejection reparameterizationを拡張し、棄却後に追加の一様球面サンプルとHouseholder変換を適用する場合にも勾配推定が成り立つことを示す。

実験と評価 (Experiments & Evaluation)

超球面構造の回復

合成実験では、円 $S^{1}$ 上の3つのvMF混合からサンプルを作り、高次元空間へ写したデータを用いる。通常のオートエンコーダは円構造を回復するが、N-VAEはKL項により点を原点へ潰しやすい。一方、S-VAEは元の円構造をほぼ回復する。

Original	Autoencoder	N-VAE	N-VAE, $β = 0.1$	S-VAE

MNISTの教師なし学習

MNISTでは、動的二値化画像を使い、N-VAEとS-VAEを潜在次元ごとに比較する。 S-VAEは低次元でlog likelihoodが高く、再構成項でも全次元でN-VAEを上回る。ただし、高次元ではガウス事後分布の分散パラメータの多さが効き、N-VAEとの差が縮まる。

潜在次元	N-VAE LL	S-VAE LL	N-VAE RE	S-VAE RE	傾向
$d = 2$	$- 135.73 \pm .83$	$- 132.50 \pm .73$	$- 129.84 \pm .91$	$- 126.43 \pm .91$	S-VAEが優位
$d = 5$	$- 110.21 \pm .21$	$- 108.43 \pm .09$	$- 100.16 \pm .22$	$- 97.84 \pm .13$	S-VAEが優位
$d = 10$	$- 93.84 \pm .30$	$- 93.16 \pm .31$	$- 78.93 \pm .30$	$- 77.03 \pm .39$	S-VAEがやや優位
$d = 20$	$- 88.90 \pm .26$	$- 89.02 \pm .31$	$- 71.29 \pm .45$	$- 67.65 \pm .43$	LLは同程度、再構成はS-VAEが優位
$d = 40$	$- 88.93 \pm .30$	$- 90.87 \pm .34$	$- 71.14 \pm .56$	$- 67.75 \pm .70$	N-VAEがLLで優位

2次元潜在空間の可視化では、N-VAEが原点付近へ質量を集めるのに対し、S-VAEは球面全体を使ってクラスを分離している。

半教師あり分類

MNISTで、学習済み潜在表現にK-NNを適用する半教師あり実験では、S-VAEが多くの設定でN-VAEを上回る。特にラベル数が少ないほど差が大きい。

潜在次元	100 labels N-VAE	100 labels S-VAE	600 labels N-VAE	600 labels S-VAE	1000 labels N-VAE	1000 labels S-VAE
$d = 2$	$72.6 \pm 2.1$	$77.9 \pm 1.6$	$80.8 \pm 0.5$	$84.9 \pm 0.6$	$81.7 \pm 0.5$	$85.6 \pm 0.5$
$d = 5$	$81.8 \pm 2.0$	$87.5 \pm 1.0$	$90.9 \pm 0.4$	$92.8 \pm 0.3$	$92.0 \pm 0.2$	$93.4 \pm 0.2$
$d = 10$	$75.7 \pm 1.8$	$80.6 \pm 1.3$	$88.4 \pm 0.5$	$91.2 \pm 0.4$	$90.2 \pm 0.4$	$92.8 \pm 0.3$
$d = 20$	$71.3 \pm 1.9$	$72.8 \pm 1.6$	$88.3 \pm 0.5$	$89.1 \pm 0.6$	$90.1 \pm 0.4$	$91.1 \pm 0.3$
$d = 40$	$72.3 \pm 1.6$	$67.7 \pm 2.3$	$88.0 \pm 0.5$	$87.4 \pm 0.7$	$90.3 \pm 0.5$	$90.4 \pm 0.4$

引用ネットワークのリンク予測

Cora、Citeseer、Pubmedでは、Variational Graph Auto-Encoderのガウス潜在空間を超球面潜在空間へ置き換える。 CoraとCiteseerではS-VGAEがN-VGAEを上回り、PubmedではN-VGAEが上回る。

データセット	指標	N-VGAE	S-VGAE
Cora	AUC	$92.7 \pm .2$	$94.1 \pm .1$
Cora	AP	$93.2 \pm .4$	$94.1 \pm .3$
Citeseer	AUC	$90.3 \pm .5$	$94.7 \pm .2$
Citeseer	AP	$91.5 \pm .5$	$95.2 \pm .2$
Pubmed	AUC	$97.1 \pm .0$	$96.0 \pm .1$
Pubmed	AP	$97.1 \pm .0$	$96.0 \pm .1$

貢献と限界点 (Contributions & Limitations)

主な貢献は、VAEの潜在空間を超球面として定義し、vMF近似事後分布と超球面上一様事前分布を標準VAEのガウス分布の代替として使えることを示した点である。棄却サンプリングを含むvMFサンプリングに勾配を通すための再パラメータ化も、S-VAEを学習可能にするための技術的貢献である。

この手法は、低次元の潜在空間でガウス事前分布が原点へ引っ張る問題を避け、クラスタ分離やリンク予測を改善しやすい。一方で、高次元では超球面の表面積が実質的に扱いにくくなり、vMF分布の表現力もガウス事後分布より制限される。 Pubmedのような大規模で複雑なグラフでは、超球面が常に最適な幾何とは限らない。

Quartz 5

Explorer

Hyperspherical Variational Auto-Encoders

Hyperspherical Variational Auto-Encoders

背景と目的 (Background & Objective)

提案手法 (Proposed Method)

実験と評価 (Experiments & Evaluation)

超球面構造の回復

MNISTの教師なし学習

半教師あり分類

引用ネットワークのリンク予測

貢献と限界点 (Contributions & Limitations)

関連リンク

Graph View

Table of Contents

Backlinks