声質変換(こえしつへんかん、せいしつへんかん1)とは、声がもつ意味を変えずに質感のみを変えること。正確には、「入力音声に対して, 発話内容を保持しつつ, 他の所望の情報を意図的に変換する処理」2のこと。
英語では「Voice Conversion」や「Voice Transformation」と呼ばれる [^1] 。
話者質感変換 (例. 男声から女声)は一般にボイスチェンジ(ボイチェン)と言われる場合が多い。
概要
声質変換とは、音声の持つ言葉の意味を保持しながら、話者情報・声に乗る感情・イントネーションなどを意図的に変換する処理である。
いわゆる「ボイチェン」は話者情報変換であり、声質変換の一種と言える。
声質変換は音響変換(Audio Transformation)の一種であり、様々な技術・知識の融合である。
原理
声質変換では、音声がもつ言語情報成分を保ちながら非言語情報成分を変換するという原理に基づいている。
音声は言語情報 (linguistic)、パラ言語情報 (para-linguistic)、非言語情報 (non-linguistic)を含むと考えられている。
これらを含む音声 (波形) は、sequential structuresとhierarchical structuresを有している。
voiced/unvoiced segments, phonemes/morphemes
技術・手法
音響学、信号処理技術、統計処理技術p.9などに基づいて様々な手法が提案されているが、決定的な手法は未だ存在しない (完全に自由な声質変換は実現していない。)
- 信号処理
- 統計モデル statistical model
- GMM
- neural network
- restricted Bolzmann machine (RBM)
- FFNN
- RNN
- CNN
- exemplar-based methods
- non-negative matrix factorization (NMF)
not enough
- simple conversion function (for modifying the spectral envelope)
- global linear transformation
- frequency warping with a constant warping rate
データの種類
- source-domainデータの関係
- parallel: basically needs alignment
- non-parallel
- システム構成
- w/ extra data
- transcripts
- reference speech
- w/ modules
- ASR
- non-parallelでも対応frameを見つけられる。問題としてverbal info以外を落とす、ASR精度がつきまとう.
- w/o extra data
しばしば発生する問題:
* over-smoothing:
+ explicit density estimation
統計モデルにおけるデータ処理
- 生の音声波形を統計モデルで直接変換する方法 (end2end, wave2wave)
- 人間が設計した音響特徴量へ (信号処理で) 変換しこれを統計モデルで変換する方法 (Vocoder)
に大別される
評価手法
最終的には人の感覚によるものになるが、効率よく客観的に声質変換を評価するための指標がさまざま提案されている。
- Mel-cepstral distortion
- global variance (GV)
- d modulation spectra (MS)
ライブラリ
手法
- CVAE-VC
- VAE-GAN
- CycleGAN-VC
- StarGAN-VC
- VQ-VAE
入力に入力のlabelは必要か
利用
声質変換は様々な目的に利用できる。
- エンターテインメント、身体拡張
- 医療
- ユーティリティ
歴史
少なくとも1980年代後半から研究が行われてきた3。元々は、TTS結果への話者特性付与、特に翻訳目的のTTSでsource言語話者の声をtarget言語へ付与するために研究が進んだ4。
社団法人 日本音響学会 -- The Acoustical Society of Japan --
参考文献
関連項目
後日まとめること
?
vocoder-free VC
K. Kobayashi, T. Toda, and S. Nakamura, “F0 transformation techniques for statistical
voice conversion with direct waveform modification with spectral differential,”
in Proc. SLT, 2016, pp. 693–700.
?
adaptation techniques
incorporating pre-constructed speaker space
-> needs parallel data among reference speakers
low-dimensional embeddings
contextual information
揺らぎ成分
音韻依存要因、声質依存要因
知覚特性
Vocoderの影響について書いてあるref