たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

2021-11-10から1日間の記事一覧

論文解説: FastPitch: Parallel Text-to-speech with Pitch Prediction

Audio AI 科学

FastSpeechにピッチ推定も兼ねてみました論文. Durationと同じくphoneme単位でPitchPredictorを学習. Scalar予測した値をlatentと同じFeature次元に変換したのち、なんとただsum（segFCでFeature次元に飛ばしているので学習可になり、その辺で音高次元でも暗…

論文解説: Ren (2019) FastSpeech: Fast, Robust and Controllable Text to Speech

Audio AI 科学

速い、巧い、（安いかは微妙）FastSpeech 概要 Transformerで音素列を系列変換、動的にアップサンプリング、Transformerで↑系列をmel-specへ変換. 以上. 動的アップサンプリングは LengthRegulator で実行され、音素ごとの倍率が DurationPredictior で動的…

意図した中間表現の学習

AI 科学

モデルが中間表現として特定の値を取るように学習してほしい. A: モデルバイアスで自然とそう学習するように祈る B: モデル分割をして個別学習 C: その中間表現に対してLossを設定 D: Lossを設定したうえで次の層へは教師データを渡す（teacher forcing的） …

multi-resolution Conv

違うカーネルサイズのConvを並列に並べるパターン. チャネルごとにカーネルサイズが違うと見做すこともできる. 出力次元はstrideとchannel数で決まるのでmulti-resolutionにするかどうかとは無関係. ちょこちょこ色んなとこで再開発されてるイメージ. Tacotr…