たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

論文解説: Speech Resynthesis from Discrete Disentangled Self-Supervised Representations

ニューラルな音響特徴量(content, fo, speaker)からneural vocoder音声合成/変換/圧縮できるかなチャレンジ.

表現学習とボコーダ学習は完全分離 (表現モデルをpretraining -> fix). fixされたモデル出力からボコーダ学習.
content表現モデルはCPC, HuBERT, VQ-VAEの3つを試してる.

フォーマルまとめ

Acoustic Unitを入力とする音声合成(unit-to-speech)、話者変換、圧縮が可能であることを示した.
制御性を重視し、3つの個別Acoustic Unit (content, fo unit, speaker) を入力とし、韻律制御時にはfo unitを、VC時には speaker Identityを操作してHifiGANによる音声合成をおこなった.

デモ

link

背景

Acoustic Unitの評価はASRベースがほとんど.
デモとして音声再合成が示されてはいるが、unitの特性(含まれている情報 (e.g. phoneme・fo・speaker) 、disentanglement、合成精度への貢献など)は研究が進んでいない.

やったこと

複数のAUD手法を再合成/韻律操作/VCの観点で評価.
Acoustic Unitのサイズの観点から符号化への適用を検討.

S2u

  • content encoder Ec: waveform::RT -> discrete representation seq::Rn*T'
    • PCP | HuBERT | VQ-VAE
    • units zc::{0, 1, ..., K}L: k-means from continuous Ec output or direct discrete Ec output
  • Fo encoder EFo: waveform -> Fo -> discrete representation
  • speaker identity encoder Espk: ? -> single global representation::R256: d-vector

u2S

ベースモデル: HiFi-GAN

  • G
    • inputs: (zc, zFo, zspk)
    • step1: discrete_AU zc | prosody zFo => (LUTc | LUTFo) => embedding_vector
    • step2: [upsampling & transform] x5?
      • ConvT, then DilatedConv in ResBlock (HiFi-GAN way)
  • D: MPD (5 sub Ds, period=2|3|5|7|11) & MSD (3 sub Ds, scale=x1|x2|x4 downsampled)
    • Spectrogrm loss is used

Experiments

VCTK 16kHz

CPC

  • model: CPC2
  • dataset: 6k subset of LibriLight

We follow the same setup as in [GSLM].
For CPC, we used the model from [Riviere2020towards], which was trained on a “clean” 6k hour sub-sample of the LibriLight dataset [45, 44].

k-mean dim: 100

結果

VQVAEと比較してCPCとHuBERTはdisentangleなcontentになってる.

再構成タスクだと自然性MOSに顕著な差がない.
要素ごとに見ていくとVQ-VAEはcontent精度が微妙な代わりにFoの精度が非常に高い.
CPCとHuBERTは各指標についてHuBERTの方がデータセットによってはちょっといい、という感じ

変換タスクだと顕著な差が出る.
VC時にはVQVAEのMOSが3以下にまで落ち、content精度も低い.
Fo変換では逆に変換がほとんどかからず、content representationにFoがentangleされていることが伺える.
CPCとHuBERTはHuBERTの方が優勢といった感じ.

Original Paper

Paper

@misc{2104.00355,
Author = {Adam Polyak and Yossi Adi and Jade Copet and Eugene Kharitonov and Kushal Lakhotia and Wei-Ning Hsu and Abdelrahman Mohamed and Emmanuel Dupoux},
Title = {Speech Resynthesis from Discrete Disentangled Self-Supervised Representations},
Year = {2021},
Eprint = {arXiv:2104.00355},
}