たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

FairSeqのGSLMレポ解析

  • gslm/speech2unit: Speech-to-連続unit-to-離散unit. モデルと学習済みパラメータが配布.
    • /pretrained: Speech-to-連続unitの部分
      • /cpc_feature_reader.py: PCP Speech-to-unitモデルの色々
        • CPCEncoder: [Conv-CN-ReLU]x5だけ. 超シンプル.
        • CPCAR: ただのLSTM. hiddenが取り出せるようになってる.
        • CPCModel: フルモデル. 抽出する特徴量の切り替え(Genc出力かGar出力か)と正規化を備えてる
        • load_cpc_model: モデルload
        • CpcFeatureReader: ユーティリティクラス. 音声ファイル読み込みからアサーション、コンフィグ周りなど諸々.
    • /clustering: k-mean周り
      • [/quantize_with_kmeans.py]: Speech-to-離散unit & (pre-extracted)連続特徴量-to-離散特徴量の実行ファイル
        • Speech-to-連続unitはget_features関数経由
        • k-mean実行は kmeans_model = joblib.load(open(args.kmeans_model_path, "rb")) からの pred = kmeans_model.predict(feats)
          • scikit-learnで学習したモデルを丸ごとdumpしてあって、joblib.loadしたらそのまま動く

S2u 推論 with Pretrained model: My Notebook