MelGANに対してモデル・Lossの最適化をした上で、最終出力チャネルを複数にしてそれぞれサブバンドを予測.
通称 MB-MelGAN
モデル
MelGANベース、すなわちConvT1dベース.
ResBlock導入やDilatedConvによる受容野拡大により、フルバンドモデルそのものをまず改変.
Multi-band
CNN最終出力のチャネル数をバンド数分にしただけ.
DFBにはSynthフィルター出力たるフルバンド信号を、DSBiには該当するサブバンド信号を入れて判定.
フィルタの可微分を生かしてFB lossを用意しているのは自然なアイデア.
Multi-bandと音質
Multi-band化による悪影響無し (STFT2wave MOS: FB 4.35 vs MB 4.34)
モデルサイズはむしろ小型化したがそれでもOK.
Original Paper
@misc{2005.05106, Author = {Geng Yang and Shan Yang and Kai Liu and Peng Fang and Wei Chen and Lei Xie}, Title = {Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech}, Year = {2020}, Eprint = {arXiv:2005.05106}, }