たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

CycleGAN-VC2

CycleGAN-VCの改良版。
Discriminatorの追加、2D-1D-2D Conv Generator、Patch Discriminatorが変更点。

情報

論文:
デモ:
コード:

詳細

背景

RBMやVAEじゃない理由: over-smoothing through statistical averaging
統計モデル(生成モデル。確率分布を考えるもの)の一般的問題

改良点

  • objective (two-step adversarial losses): G(G(source))に対するDを新たに用意
  • generator (2-1-2D CNN)
  • discriminator (PatchGAN)

実験

データセット

検証データセット: VCC2018 spoke (SF3, SM3, TF1, TM1, 81:35=train:eval, S&M is non-parallel)

preprocessing

down to 22.05 kHz
wave to (34MCEPs, logFo, APs) per 5msec with WORLD
MCEP normalization: μ=0, σ=1 on Source|Target trainings
Random clop 128 frames

conversion

MCEPs変換
inter-gender: Vocoder-based (WORLD synth)
LogFo: logarithm Gaussian normalized transform
APs: no conversion

intra-gender: Vocoder-free (DIFFVC)

Network & Training 詳細

基本はCycleGAN-VCと一緒。
LadvはLeast Square
Adam, β1=0.5
Nbatch = 1
Niteration = 2 * 105
LR: G/0.0002, D/0.0001
Lidは最初の104iterationのみ
λcycle=10, λId=5

評価

客観評価指標

  • global structures: Mel-cepstral distortion
  • local structures: modulation spectra distance

主観評価

  • naturalness: MOS
  • similarity: XAB (reference -> baseline | proposed -> the other, then A|B|fair)

読破状況

4: conversion processのところ、わからない点複数
5: 終わり