VCC2020 T10モデル1 (top score). ASRベースのrec-synでMOS 4.0 & similarity 3.6 を達成.
SI-ASR (N10と一緒?)
Conversion model
Encoder-Decoderモデル (≠S2S).
LSTM -> 2x time-compressing concat2 -> LSTM
Attention付きAR-RNN | Attention無し
1 stepにつき2frame出力3で同じ長さの信号を再構成4.
Similarity↑ 希望 => 話速が違う話者間は補正しないとsimilarity ↓5 => 推論時にad hocでcontent feature長補正6
モデル学習とは独立しているので、職人の耳で聞きながら調整 (データセット平均で粗い推定7 -> 数字変えながら学習済みモデルで生成、聞いて微調整8).
(Naturalnessが上がるのは興味深い. 入力分布が学習時に似るから?)
