CycleGAN-VCの改良版。
Discriminatorの追加、2D-1D-2D Conv Generator、Patch Discriminatorが変更点。
情報
論文:
デモ:
コード:
詳細
背景
RBMやVAEじゃない理由: over-smoothing through statistical averaging
統計モデル(生成モデル。確率分布を考えるもの)の一般的問題
改良点
- objective (two-step adversarial losses): G(G(source))に対するDを新たに用意
- generator (2-1-2D CNN)
- discriminator (PatchGAN)
実験
検証データセット: VCC2018 spoke (SF3, SM3, TF1, TM1, 81:35=train:eval, S&M is non-parallel)
preprocessing
down to 22.05 kHz
wave to (34MCEPs, logFo, APs) per 5msec with WORLD
MCEP normalization: μ=0, σ=1 on Source|Target trainings
Random clop 128 frames
conversion
MCEPs変換
inter-gender: Vocoder-based (WORLD synth)
LogFo: logarithm Gaussian normalized transform
APs: no conversion
intra-gender: Vocoder-free (DIFFVC)
Network & Training 詳細
基本はCycleGAN-VCと一緒。
LadvはLeast Square
Adam, β1=0.5
Nbatch = 1
Niteration = 2 * 105
LR: G/0.0002, D/0.0001
Lidは最初の104iterationのみ
λcycle=10, λId=5
評価
客観評価指標
- global structures: Mel-cepstral distortion
- local structures: modulation spectra distance
主観評価
- naturalness: MOS
- similarity: XAB (reference -> baseline | proposed -> the other, then A|B|fair)
読破状況
4: conversion processのところ、わからない点複数
5: 終わり