多言語ASRの事前学習にCPCを利用、既存の教師ありモデルと同等以上の性能を発揮.
背景
小データの時どうするか => 近いドメインの大データでpre-training & Transfer learning
ASRは音素っぽいものを事前学習できればわりと共用できそう => CPC
手法
CPCの教師なし学習を英語/LibriSpeechでやってAcoustic Unitを見つけ出し、小データ言語 from CommonVoice で転移学習.
CPCの不安定性と更なる性能向上 => modified CPC考案
Transfer時にはCPC Encoderをfreeze、その上に線形分類器を乗せて学習.
実験
データ
LibriSpeech 100h or 360h
教師ありでは LS100のラベルを利用.
Modified CPC
- Batch-Norm => Channel-Norm
- linear classifier => 1-layer Transformer
- Conv512 => Conv256 (Lighter model, same performance)
- GRU => LSTM
- dropout (-) => (+)
わかったこと
教師ありと同等レベルで上手くいくよ、モデル改変は良く効いたよ、デカいデータセットで性能さらに上がるよ.
Original Paper
@article{2002.02848, Author = {Morgane Rivière and Armand Joulin and Pierre-Emmanuel Mazaré and Emmanuel Dupoux}, Title = {Unsupervised pretraining transfers well across languages}, Year = {2020}, Eprint = {arXiv:2002.02848}, Howpublished = {ICASSP 2020}, }
Official Implementation
Config色々対応、original CPCも学習可.