特性一覧
- quality
- latency
- ↓ stream latency: サンプル出力時 - サンプル受信時
- ↓ realtime factor; RTF: 処理時間/信号長
- ↓ performance: リソース要求量/使用量
- CPU/GPU/メモリ
タスクと特性; 要件
音声素材検証
文章や補助入力を考えながら打って「よしこれで合成、どうなる?」なタスク.
latencyが命、RTF==1が目標. これならポチっで即座に音声が流れ、最後まで通しで聞ける.
RTFが1で済むのは、再生の裏で生成を続ければいいから. 早送りチェックとか考えだすとRTF要件が厳しくなるが、例外的.
音声素材一括生成
音声の確認はその場でせず、とりあえず全体の合成をするタスク.
RTFが命. 秒で合成して次ステップへGo! latencyはほぼ問題にならない.
ボイスチェンジャー
マイク入力を音声変換して自分や他の人に聞かせる.
latencyが命、RTF==1が目標.
声を入力したそばからチェックするようなものなので、音声素材検証と要件が酷似.
マルチタスク
音声合成の結果を同時に動いているほかのサービスへ即時引き渡し.
performanceへの配慮が必要.
アーキテクチャと特性
パソコン(常識的なresource)で一定のqualityが出せるモデルに関して
latency | RTF | |
---|---|---|
seq2seq (CNN) | △ | ◎ |
sequential (RNN) | ○ | ✖~○ |