たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

コーパス: Libri-light

Libri-lightLibriVox から生成されたコーパス1. なので LibriSpeech の親戚2.

  • Unlabelled Speech Training Set
    • unlab-60k
    • unlab-6k
    • unlab-600
  • Dev and Test Set (totally same as LibriSpeech3)
    • dev-clean: 5.4 hours
    • dev-other: 5.3 hours
    • test-clean: 5.4 hours
    • test-other: 5.1 hours

Trainにはdev/testの話者が含まれないよう除外済み4.

相当にデカいコーパスで、データは比較的綺麗だけど無音区間とかは普通に残ってる.

Riviere-2020-Toward 論文でノイズとASRの関係が探られていて、その際にコーパスのクリーニングが行われている.
unlab-60k から選別かけて6kと600を作り直しており、LL6k-e-loCTC / LL600-e-loCTC と名付けられている (unlab-60k は実質的な発声長さが4.7kくらいぽい).


  1. “This dataset was obtained by extracting audio files for English speech from the LibriVox repository”

  2. “LibriSpeech is … derived from read audiobooks from the LibriVox project”

  3. “The dev and test sets are the same as that of LibriSpeech”

  4. “We then removed … speakers appearing in LibriSpeech dev and test sets.”