たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

FairSeqのGSLMレポ解析

AI プログラミング

gslm/speech2unit: Speech-to-連続unit-to-離散unit. モデルと学習済みパラメータが配布.
- /pretrained: Speech-to-連続unitの部分
  - /cpc_feature_reader.py: PCP Speech-to-unitモデルの色々
    - CPCEncoder: [Conv-CN-ReLU]x5だけ. 超シンプル.
    - CPCAR: ただのLSTM. hiddenが取り出せるようになってる.
    - CPCModel: フルモデル. 抽出する特徴量の切り替え（G_enc出力かG_ar出力か）と正規化を備えてる
    - load_cpc_model: モデルload
    - CpcFeatureReader: ユーティリティクラス. 音声ファイル読み込みからアサーション、コンフィグ周りなど諸々.
- /clustering: k-mean周り
  - [/quantize_with_kmeans.py]: Speech-to-離散unit & (pre-extracted)連続特徴量-to-離散特徴量の実行ファイル
    - Speech-to-連続unitはget_features関数経由
    - k-mean実行は kmeans_model = joblib.load(open(args.kmeans_model_path, "rb")) からの pred = kmeans_model.predict(feats)
      - scikit-learnで学習したモデルを丸ごとdumpしてあって、joblib.loadしたらそのまま動く

S2u 推論 with Pretrained model: My Notebook