- gslm/speech2unit: Speech-to-連続unit-to-離散unit. モデルと学習済みパラメータが配布.
- /pretrained: Speech-to-連続unitの部分
- /cpc_feature_reader.py: PCP Speech-to-unitモデルの色々
- CPCEncoder: [Conv-CN-ReLU]x5だけ. 超シンプル.
- CPCAR: ただのLSTM. hiddenが取り出せるようになってる.
- CPCModel: フルモデル. 抽出する特徴量の切り替え(Genc出力かGar出力か)と正規化を備えてる
- load_cpc_model: モデルload
- CpcFeatureReader: ユーティリティクラス. 音声ファイル読み込みからアサーション、コンフィグ周りなど諸々.
- /cpc_feature_reader.py: PCP Speech-to-unitモデルの色々
- /clustering: k-mean周り
- [/quantize_with_kmeans.py]: Speech-to-離散unit & (pre-extracted)連続特徴量-to-離散特徴量の実行ファイル
- Speech-to-連続unitは
get_features
関数経由 - k-mean実行は
kmeans_model = joblib.load(open(args.kmeans_model_path, "rb"))
からのpred = kmeans_model.predict(feats)
- scikit-learnで学習したモデルを丸ごとdumpしてあって、joblib.loadしたらそのまま動く
- Speech-to-連続unitは
- [/quantize_with_kmeans.py]: Speech-to-離散unit & (pre-extracted)連続特徴量-to-離散特徴量の実行ファイル
- /pretrained: Speech-to-連続unitの部分
S2u 推論 with Pretrained model: My Notebook