音声合成器と特性: タスクごとに要件は違う

特性一覧

文章や補助入力を考えながら打って「よしこれで合成、どうなる？」なタスク.
latencyが命、RTF==1が目標. これならポチっで即座に音声が流れ、最後まで通しで聞ける.
RTFが1で済むのは、再生の裏で生成を続ければいいから. 早送りチェックとか考えだすとRTF要件が厳しくなるが、例外的.

音声の確認はその場でせず、とりあえず全体の合成をするタスク.
RTFが命. 秒で合成して次ステップへGo! latencyはほぼ問題にならない.

マイク入力を音声変換して自分や他の人に聞かせる.
latencyが命、RTF==1が目標.
声を入力したそばからチェックするようなものなので、音声素材検証と要件が酷似.

音声合成の結果を同時に動いているほかのサービスへ即時引き渡し.
performanceへの配慮が必要.

パソコン（常識的なresource）で一定のqualityが出せるモデルに関して

	latency	RTF
seq2seq (CNN)	△	◎
sequential (RNN)	○	✖~○