ParselMouth: ピッチ操作

Audio

manipulation = call(sound, "To Manipulation", 0.01, 75, 600) pitch_tier = call(manipulation, "Extract pitch tier") call(pitch_tier, "Multiply frequencies", sound.xmin, sound.xmax, 2) call([pitch_tier, manipulation], "Replace pitch tier") s…

2021-11-13

論文紹介: Liu (2020) Non-Parallel Voice Conversion with Autoregressive Conversion Model and Duration Adjustment

Audio AI 科学

VCC2020 T10モデル1 (top score). ASRベースのrec-synでMOS 4.0 & similarity 3.6 を達成. Models ASR SI-ASR (N10と一緒?) Conversion model Encoder-Decoderモデル (≠S2S). Encoder LSTM -> 2x time-compressing concat2 -> LSTM Decoder Attention付きAR-…

2021-11-11

徹底解説！non-local operations / self-attention

AI 科学

Non-local Neural Networks (2018) モジュールのお気持ち「私が欲しいものだけぜーんぶください」 FC: とにかく全要素を取りこむ Conv: 決め打ちで局所だけ取りこむ RNN: hiddent-1だけ直接取りこむ => 現在値に基づいて動的に、全長から欲しい要素だけ、取…

2021-11-10

論文解説: FastPitch: Parallel Text-to-speech with Pitch Prediction

Audio AI 科学

FastSpeechにピッチ推定も兼ねてみました論文. Durationと同じくphoneme単位でPitchPredictorを学習. Scalar予測した値をlatentと同じFeature次元に変換したのち、なんとただsum（segFCでFeature次元に飛ばしているので学習可になり、その辺で音高次元でも暗…

2021-11-10

論文解説: Ren (2019) FastSpeech: Fast, Robust and Controllable Text to Speech

Audio AI 科学

速い、巧い、（安いかは微妙）FastSpeech 概要 Transformerで音素列を系列変換、動的にアップサンプリング、Transformerで↑系列をmel-specへ変換. 以上. 動的アップサンプリングは LengthRegulator で実行され、音素ごとの倍率が DurationPredictior で動的…

2021-11-10

意図した中間表現の学習

AI 科学

モデルが中間表現として特定の値を取るように学習してほしい. A: モデルバイアスで自然とそう学習するように祈る B: モデル分割をして個別学習 C: その中間表現に対してLossを設定 D: Lossを設定したうえで次の層へは教師データを渡す（teacher forcing的） …

2021-11-10

multi-resolution Conv

違うカーネルサイズのConvを並列に並べるパターン. チャネルごとにカーネルサイズが違うと見做すこともできる. 出力次元はstrideとchannel数で決まるのでmulti-resolutionにするかどうかとは無関係. ちょこちょこ色んなとこで再開発されてるイメージ. Tacotr…

2021-11-09

Tacotron 2

Audio AI 科学

主張「TTSしたいならWaveNetを複雑な特徴量で直接条件付けるより "良いchar2specモデル+spec2wave WaveNet" がいいぜ」概要 Attention Seq-to-Seq で文字列からメルスペクトログラムを生成、WaveNetで波形生成. LSTM Encoderが文章を丸呑み、最終出力をzと…

2021-11-08

Vの3Dは「欠かすことのできない」ではない

3DはVTuberにとって「あれば活かしうる素晴らしいオプション」だが、必要条件ではない. もし3Dこそが本質ならば、論理的にYouTuberに勝てない. なぜなら物理的な人間の3D度は究極に高いから. そして実際、VTuberは3Dにこだわらない領域へも爆発的に浸透して…

2021-11-06

論文解説: Rivière (2020) Unsupervised pretraining transfers well across languages

Audio AI 研究 paper

多言語ASRの事前学習にCPCを利用、既存の教師ありモデルと同等以上の性能を発揮. 背景小データの時どうするか => 近いドメインの大データでpre-training & Transfer learning ASRは音素っぽいものを事前学習できればわりと共用できそう => CPC 手法 CPCの教…