Libri-light は LibriVox から生成されたコーパス1. なので LibriSpeech の親戚2.
- Unlabelled Speech Training Set
- unlab-60k
- unlab-6k
- unlab-600
- Dev and Test Set (totally same as LibriSpeech3)
- dev-clean: 5.4 hours
- dev-other: 5.3 hours
- test-clean: 5.4 hours
- test-other: 5.1 hours
Trainにはdev/testの話者が含まれないよう除外済み4.
相当にデカいコーパスで、データは比較的綺麗だけど無音区間とかは普通に残ってる.
Riviere-2020-Toward 論文でノイズとASRの関係が探られていて、その際にコーパスのクリーニングが行われている.
unlab-60k から選別かけて6kと600を作り直しており、LL6k-e-loCTC / LL600-e-loCTC と名付けられている (unlab-60k は実質的な発声長さが4.7kくらいぽい).
-
“This dataset was obtained by extracting audio files for English speech from the LibriVox repository”↩
-
“LibriSpeech is … derived from read audiobooks from the LibriVox project”↩
-
“The dev and test sets are the same as that of LibriSpeech”↩
-
“We then removed … speakers appearing in LibriSpeech dev and test sets.”↩