たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

Audio

Libri-light

Libri-light: LibriVoxのサブセット. 16kHz, En speech. This dataset was obtained by extracting audio files for English speech from the LibriVox repository Kahn, et al. (2019-2020). LIBRI-LIGHT: A BENCHMARK FOR ASR WITH LIMITED OR NO SUPERVIS…

解説: LPCNet

LPCNet: 線形予測ボコーダーのうちexcitation予測部をAR-RNN化、WaveRNN (full neural Vocoders) より省パラメータで同精度 スパース化やノイズあり学習、全結合層の工夫など色々最適化してそんな強くないCPUでもリアルタイム合成に成功. Abstract Paper: LP…

音声帯域・フルバンド

含まれている周波数成分の幅が帯域/バンド. 可聴域を全て含んでいればフルバンド, 可聴上限が20kHz成分とされているのでサンプリング周波数44.1kHzや48kHzが対応. フルバンドのCodecが20kHzでローパスフィルタかけたりしてるのは可聴域に由来. それ以上あっ…

Windows AudioGraph

オーディオの入出力・ルーティング・処理を担うWinRT高レベルAPIs1. 入出力のマイク・ファイル指定、合成音の入力化などが可能. UnityやWebにあるノードベースオーディオとだいたい同じ機能を提供. 音響効果の差し込みも可能. Audio graphs - UWP applicatio…

NeuralArticulatorySynthesis

Welcome to the NeuralArticulatorySynthesis wiki! Past researches before Deep learning Robust Articulatory Speech Synthesis using Deep Neural Networks for BCI Applications (2014) Data driven articulatory synthesis with deep neural networks …

VQ-VAE audio (Oord, 2017)

4.3節がaudio. official samples Encorder: dilated conv, similar to WaveNet dilated convolutional architecture similar to WaveNet decoder Results Because the dimensionality of the discrete representation is 64 times smaller, the original sam…

librosaのリサンプリング

[resampy] kaiser_best: default filter [resampy] kaiser_fast: faster filter [scipy.signal.resample] [scipy.signal.resample_poly]: polyphase filtering1 Resample x along the given axis using polyphase filtering. docs↩

Parallel WaveGAN

TTS Transformer-based parameter estimator + Parallel WaveGAN vocoder ref: Transformer TTS & FastSpeech Base: FastSpeech i/o: phoneme sequences + accent -> mel-spectrograms model: a six-layer encoder and a six-layer decoder (each was based …

CycleGAN-VC2

CycleGAN-VCの改良版。 Discriminatorの追加、2D-1D-2D Conv Generator、Patch Discriminatorが変更点。 情報 論文: デモ: コード: 詳細 背景 RBMやVAEじゃない理由: over-smoothing through statistical averaging 統計モデル(生成モデル。確率分布を考える…

音響特徴量は、特徴を捉えているか

音響特徴量とは、生の音声波形を加工したものである。 加工前の音がもつ特徴を捉えた指標だと期待されている. 既知の音響特徴量に基づいた音声認識・合成・変換は、いまやデータに基づく特徴量を用いた、あるいはE2Eの方法に追いつかれつつある。 本当に、音…