たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

音声合成器と特性: タスクごとに要件は違う

特性一覧

  • quality
  • latency
    • ↓ stream latency: サンプル出力時 - サンプル受信時
  • ↓ realtime factor; RTF: 処理時間/信号長
  • ↓ performance: リソース要求量/使用量
    • CPU/GPU/メモリ

タスクと特性; 要件

音声素材検証

文章や補助入力を考えながら打って「よしこれで合成、どうなる?」なタスク.
latencyが命、RTF==1が目標. これならポチっで即座に音声が流れ、最後まで通しで聞ける.
RTFが1で済むのは、再生の裏で生成を続ければいいから. 早送りチェックとか考えだすとRTF要件が厳しくなるが、例外的.

音声素材一括生成

音声の確認はその場でせず、とりあえず全体の合成をするタスク.
RTFが命. 秒で合成して次ステップへGo! latencyはほぼ問題にならない.

ボイスチェンジャー

マイク入力を音声変換して自分や他の人に聞かせる.
latencyが命、RTF==1が目標.
声を入力したそばからチェックするようなものなので、音声素材検証と要件が酷似.

マルチタスク

音声合成の結果を同時に動いているほかのサービスへ即時引き渡し.
performanceへの配慮が必要.

アーキテクチャと特性

パソコン(常識的なresource)で一定のqualityが出せるモデルに関して

latency RTF
seq2seq (CNN)
sequential (RNN) ✖~○