たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

論文解説: Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech

Audio AI 科学

MelGANに対してモデル・Lossの最適化をした上で、最終出力チャネルを複数にしてそれぞれサブバンドを予測.
通称 MB-MelGAN

モデル

MelGANベース、すなわちConvT1dベース.
ResBlock導入やDilatedConvによる受容野拡大により、フルバンドモデルそのものをまず改変.

Multi-band

CNN最終出力のチャネル数をバンド数分にしただけ.
D_FBにはSynthフィルター出力たるフルバンド信号を、D_{SB_i}には該当するサブバンド信号を入れて判定.
フィルタの可微分を生かしてFB lossを用意しているのは自然なアイデア.

Multi-bandと音質

Multi-band化による悪影響無し (STFT2wave MOS: FB 4.35 vs MB 4.34)
モデルサイズはむしろ小型化したがそれでもOK.

Original Paper

@misc{2005.05106,
Author = {Geng Yang and Shan Yang and Kai Liu and Peng Fang and Wei Chen and Lei Xie},
Title = {Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech},
Year = {2020},
Eprint = {arXiv:2005.05106},
}