たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

2018-10-01から1ヶ月間の記事一覧

VCC2016データセット

Voice Conversion Challenge 2016(VCC 2016) データセットは、音声処理に有用な、パラレル音源データセットを提供してくれる。その特性をまとめる。 基本情報 10話者のパラレル発話1162+54センテンス2を含むデータセット. S: Source T: Target M: male F: fe…

Rainbowgramsで音を可視化

レインボーグラム (Rainbowgrams) とは、音声を構成する周波数成分の強さおよび位相変化率を時間ごとに可視化した図である。正確には、音声の周波数領域時系列がもつ強度およびInstantaneous frequency (IF) を可視化した図である。 レインボーグラムは、強…

声質変換 (Voice Conversion, ボイチェン) とは

声質変換(こえしつへんかん、せいしつへんかん1)とは、声がもつ意味を変えずに質感のみを変えること。正確には、「入力音声に対して, 発話内容を保持しつつ, 他の所望の情報を意図的に変換する処理」2のこと。 英語では「Voice Conversion」や「Voice Tran…

PyTorchのnn.Moduleを読み解く

レイヤーをattributeとして設定する必要がある理由 __setattr__でフック掛けて処理をしているから フック内ではattribute valueの種類に基づいて内部登録がなされる. module.parameters()ではparamsのみではなくmodulesへも再帰的にアクセスしてparamsを拾っ…

PyTorchのLearningRate Scheduler

PyTorchではoptimizerの学習率 (Learning Rate) を動的に変更するUtilityがある。 このUtilityはSchedulerと呼ばれ、Class名では○○LRと名付けられている. Schedulerのタイプ 更新の仕方によって以下のように分類される。 LambdaLR: StepLR: x epochごとにlr…

mnet基本思想

ネットワークはネットワーク ネットワークの本質はネットワーク構造にある。 学習は別物。 同じネットワーク構造に異なる学習 (Backprop+optim vs non-BP手法) を行うことが可能。 そもそも推論だけしたい人には学習周りは不要. PyTorchそのものがネットワー…

瞬間周波数

瞬間周波数 (Instantaneous frequency) Instantaneous frequencyは位相を時間で微分したものである1。 * (Boashash, 1992) * Abe, Toshihiko, Takao Kobayashi, and Satoshi Imai. “Harmonics tracking and pitch extraction based on instantaneous frequen…

Pythonモジュール/パッケージの闇にのまれないために

module resolution (モジュール解決) find build-in module find from sys.path directory list sys.pathのデフォルトlistは 実行スクリプトの場所 || cd PYTHONPATH インストールごとのデフォルト (?) パッケージ / package Python用語. モジュールの詰め合…

Windows Insider Previewでの遊び方

Windows OSは開発途上のプレビュー版 (オープンベータ版) をWindows Insider Programとして公開している。 新機能がもりもりで楽しく遊ぶことができる。 ただし、安易な火遊びは怪我の元。いくつか注意事項がある。 アップデート直後なら引き返せる バージョ…

徹底解説!CycleGANで声質変換 (voice conversion, ボイチェン)

AI

CycleGANの声質変換における利用を調べ、技術的詳細を徹底解説する。 CycleGAN-VCとは CycleGANを話者変換 (声質変換, Voice Conversion, VC) に用いたもの。 CycleGANは2つのGeneratorが2つのドメインを相互変換するモデルであり、ドメイン対でペアデータが…