たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

論文解説: Rivière (2020) Unsupervised pretraining transfers well across languages

多言語ASRの事前学習にCPCを利用、既存の教師ありモデルと同等以上の性能を発揮.

背景

小データの時どうするか => 近いドメインの大データでpre-training & Transfer learning
ASRは音素っぽいものを事前学習できればわりと共用できそう => CPC

手法

CPCの教師なし学習を英語/LibriSpeechでやってAcoustic Unitを見つけ出し、小データ言語 from CommonVoice で転移学習.
CPCの不安定性と更なる性能向上 => modified CPC考案
Transfer時にはCPC Encoderをfreeze、その上に線形分類器を乗せて学習.

実験

データ

LibriSpeech 100h or 360h
教師ありでは LS100のラベルを利用.

Modified CPC

  • Batch-Norm => Channel-Norm
  • linear classifier => 1-layer Transformer
  • Conv512 => Conv256 (Lighter model, same performance)
  • GRU => LSTM
  • dropout (-) => (+)

わかったこと

教師ありと同等レベルで上手くいくよ、モデル改変は良く効いたよ、デカいデータセットで性能さらに上がるよ.

Original Paper

Paper

@article{2002.02848,
Author = {Morgane Rivière and Armand Joulin and Pierre-Emmanuel Mazaré and Emmanuel Dupoux},
Title = {Unsupervised pretraining transfers well across languages},
Year = {2020},
Eprint = {arXiv:2002.02848},
Howpublished = {ICASSP 2020},
}

Official Implementation

Generic badge

Config色々対応、original CPCも学習可.