論文解説: Wang (2021) fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit

Audio AI 研究 paper

様々な音声合成の公開実装と評価をしました論文 by Fairseqチーム1。文字/音素/Unit-to-MelとvocoderでSpeech Synthesisをして、Fairseqお得意の指標群で客観評価。 Models models Implemented by Fairseq S2 Text-to-Mel: Tacotron 2, Transformer TTS, Fa…

2022-06-10

論文解説: Tian (2020) FeatherWave: An efficient high-fidelity neural vocoder with multi-band linear prediction

研究 AI Audio paper

提案モデル: mel-spec input (pitch-less), multiband LPCNet1 デモ中国語デモ wavecoder.github.io ConditioningNetwork 入力にmel-specをそのまま利用2, 3, 4（pitch無し5, 80 dim6）。 Mel2LPcoeff LP係数はmel-specから計算7。各バンドではmel-specのう…

2022-06-10

論文解説: Valin (2022) Neural Speech Synthesis on a Shoestring: Improving the Efficiency of LPCNet

研究 AI Audio paper

LPCNet、効率化しました (x2.5~)。背景 - ボトルネックはわかっている、観念しろ LPCNetはモバイルCPUリアルタイム推論ができるほど速い。巨大化すれば品質も良い。しかし速度制約を満たす中での品質には改善の余地があり1、一層の効率化が求められている…

2021-11-06

論文解説: Rivière (2020) Unsupervised pretraining transfers well across languages

Audio AI 研究 paper

多言語ASRの事前学習にCPCを利用、既存の教師ありモデルと同等以上の性能を発揮. 背景小データの時どうするか => 近いドメインの大データでpre-training & Transfer learning ASRは音素っぽいものを事前学習できればわりと共用できそう => CPC 手法 CPCの教…

2021-10-10

論文解説: Multiband-WaveRNN

Audio AI paper

Multiband-WaveRNN は「WaveRNNは表現力を余らせてる」という仮説の下で、サイズを変えていないWaveRNNへサブバンドN個の同時予測を課したモデル1. なんと実際にMOS差無しでNバンド予測に成功. 動作周波数を1/NにできるのでRTFが大幅に改善. 背景・モデル Wa…

2021-09-16

論文解説: Polyak (2021) Speech Resynthesis from Discrete Disentangled Self-Supervised Representations

Audio AI 研究 paper

ニューラルな音響特徴量（content, fo, speaker）からneural vocoderで音声合成/変換/圧縮できるかなチャレンジ. 表現学習とボコーダ学習は完全分離 (表現モデルをpretraining -> fix). fixされたモデル出力からボコーダ学習. content表現モデルはCPC, HuBER…

2021-05-28

論文解説: Valin (2018) LPCNet: Improving Neural Speech Synthesis Through Linear Prediction

研究 AI Audio paper

LPCNet: 線形予測ボコーダーにexcitation/残差予測のWaveRNNを組み合わせ1、 full neural Vocoders より省パラメータで同精度スパース化やノイズあり学習、全結合層の工夫など色々最適化してそんな強くないCPUでもリアルタイム合成に成功. speech synthesis…

たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

paper

論文解説: Wang (2021) fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit

論文解説: Tian (2020) FeatherWave: An efficient high-fidelity neural vocoder with multi-band linear prediction

論文解説: Valin (2022) Neural Speech Synthesis on a Shoestring: Improving the Efficiency of LPCNet

論文解説: Rivière (2020) Unsupervised pretraining transfers well across languages

論文解説: Multiband-WaveRNN

論文解説: Polyak (2021) Speech Resynthesis from Discrete Disentangled Self-Supervised Representations

論文解説: Valin (2018) LPCNet: Improving Neural Speech Synthesis Through Linear Prediction