声質変換（こえしつへんかん、せいしつへんかん¹）とは、声がもつ意味を変えずに質感のみを変えること。正確には、「入力音声に対して, 発話内容を保持しつつ, 他の所望の情報を意図的に変換する処理」²のこと。
英語では「Voice Conversion」や「Voice Transformation」と呼ばれる [^1] 。
話者質感変換 (例. 男声から女声)は一般にボイスチェンジ（ボイチェン）と言われる場合が多い。

概要

声質変換とは、音声の持つ言葉の意味を保持しながら、話者情報・声に乗る感情・イントネーションなどを意図的に変換する処理である。
いわゆる「ボイチェン」は話者情報変換であり、声質変換の一種と言える。
声質変換は音響変換(Audio Transformation)の一種であり、様々な技術・知識の融合である。

原理

声質変換では、音声がもつ言語情報成分を保ちながら非言語情報成分を変換するという原理に基づいている。
音声は言語情報 (linguistic)、パラ言語情報 (para-linguistic)、非言語情報 (non-linguistic)を含むと考えられている。
これらを含む音声 (波形) は、sequential structuresとhierarchical structuresを有している。
voiced/unvoiced segments, phonemes/morphemes

技術・手法

音響学、信号処理技術、統計処理技術^p.9などに基づいて様々な手法が提案されているが、決定的な手法は未だ存在しない (完全に自由な声質変換は実現していない。)

信号処理
- ピッチ・フォルマント変換
  - 手法例: 恋声
統計モデル statistical model
- GMM
- neural network
  - restricted Bolzmann machine (RBM)
  - FFNN
  - RNN
  - CNN
  - exemplar-based methods
    - non-negative matrix factorization (NMF)

not enough

simple conversion function (for modifying the spectral envelope)
- global linear transformation
- frequency warping with a constant warping rate

データの種類

source-domainデータの関係
- parallel: basically needs alignment
- non-parallel
システム構成
- w/ extra data
  - transcripts
  - reference speech
- w/ modules
  - ASR
    - non-parallelでも対応frameを見つけられる。問題としてverbal info以外を落とす、ASR精度がつきまとう.
- w/o extra data

しばしば発生する問題:
* over-smoothing:
+ explicit density estimation

統計モデルにおけるデータ処理

生の音声波形を統計モデルで直接変換する方法 (end2end, wave2wave)
人間が設計した音響特徴量へ (信号処理で) 変換しこれを統計モデルで変換する方法 (Vocoder)

に大別される

音響特徴量への変換 (Vocoder)

vocoder
- WORLD
- STFT
- WaveNet Vocoder

評価手法

最終的には人の感覚によるものになるが、効率よく客観的に声質変換を評価するための指標がさまざま提案されている。

Mel-cepstral distortion
global variance (GV)
d modulation spectra (MS)

ライブラリ

sprocketGitHub Hands on

手法

CVAE-VC
VAE-GAN
CycleGAN-VC
StarGAN-VC
VQ-VAE

入力に入力のlabelは必要か

利用

声質変換は様々な目的に利用できる。

エンターテインメント、身体拡張
- 声優
- ボイチェン, バ美肉
医療
- 発話補助 (先天的・後天的声帯機能不全)
ユーティリティ
- 音量非依存発話 (ささやき声を大きな声へ)

歴史

少なくとも1980年代後半から研究が行われてきた³。元々は、TTS結果への話者特性付与、特に翻訳目的のTTSでsource言語話者の声をtarget言語へ付与するために研究が進んだ⁴。

著作権

社団法人日本音響学会 -- The Acoustical Society of Japan --

参考文献

後日まとめること

?
vocoder-free VC
K. Kobayashi, T. Toda, and S. Nakamura, “F0 transformation techniques for statistical voice conversion with direct waveform modification with spectral differential,” in Proc. SLT, 2016, pp. 693–700.

? adaptation techniques
incorporating pre-constructed speaker space
-> needs parallel data among reference speakers

low-dimensional embeddings

contextual information

揺らぎ成分
音韻依存要因、声質依存要因
知覚特性

Vocoderの影響について書いてあるref

戸田智基. 日本音響学会誌 72 巻 6 号（2016），pp. 324–331 ↩
戸田智基. 2017年度人工知能学会全国大会 ↩
> VC research has a relatively long history from the late 1980s onwards (VCC2016 paper)↩
Originally it was studied to achieve speaker conversion to make it possible to synthesize various speakers’ voices in a TTS system, in particular focusing on cross-language VC enabling a user to produce his/her own voice in a different language for speech-to-speech translation (VCC2016 paper)↩

たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

声質変換 (Voice Conversion, ボイチェン) とは

概要

原理