たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

VCC2016データセット

Voice Conversion Challenge 2016(VCC 2016) データセットは、音声処理に有用な、パラレル音源データセットを提供してくれる。その特性をまとめる。

基本情報

10話者のパラレル発話1162+54センテンス2を含むデータセット.

  • S: Source
  • T: Target
  • M: male
  • F: female

を意味しており3、SF1 ~ SF3, SM1 & SM2, TF1 ~ TF3, TM1 & TM2の10話者データがある。
同じファイル名 (100001.wavなど) は同じ内容の発話 4
16 kHz5, 16-bit6, RIFF/WAVE format7の形式。 and 54 utterances for evaluation from each of 5 source and 5 target speakers, ref

ダウンロード

ここ
VCC training data: training data released to participants during the challenge (23.30Mb)には10話者各162発話の (challenge時にtrainingとして使われた) データがある。
evaluationがなんか歯抜けで入っており、よくわからない

url_prefix = 'https://datashare.is.ed.ac.uk/bitstream/handle/10283/2211/'
data_files = ['vcc2016_training.zip', 'evaluation_all.zip']

このリンクを使ってダウンロードすると全部取ってこれるのだが…なんなんだ?

1~6の引用元はここ
ref


  1. > Each speaker utters the same sentence

  2. > a common dataset consisting of 162 utterances for training

  3. > ’S' denotes ‘source’, ’T' denotes ‘target’, while ’M' and ‘F’ for ‘male’ and ‘female’, respectively.

  4. > The same file name means the same linguistic content

  5. > The sampling rate is 16 kHz

  6. > stored in 16-bit format.

  7. > The waveforms in the directory are in RIFF/WAVE format.