Audio
ヒトの声を如何にモデル化するか、そのモデルが何を再現出来て何を切り捨てているのか。 その際のかなり基本的な観点として「ヒトの声はmonophonicと見做せるか」がある。 polyphonicに「聞こえる」例 異なる旋律が2つ聞こえる例としてこの動画が挙げられる…
自分のブログでまとまったらwikipediaに移管している。 音響特徴量: wikipedia/音声分析#音響特徴量
様々な音声合成の公開実装と評価をしました論文 by Fairseqチーム1。 文字/音素/Unit-to-MelとvocoderでSpeech Synthesisをして、Fairseqお得意の指標群で客観評価。 Models models Implemented by Fairseq S2 Text-to-Mel: Tacotron 2, Transformer TTS, Fa…
LPCNet系とは、線形予測にNN残差予測を組み合わせたLPCNetを起源とするモデルクラス。線形予測符号化とWaveRNNが祖先。モデル効率の良さからくる高速性とオープンソースのC実装がウリ。 要素解釈 Excitation/Residual - 単なる非線形補完 古典的ソース・フィ…
提案モデル: mel-spec input (pitch-less), multiband LPCNet1 デモ 中国語デモ wavecoder.github.io ConditioningNetwork 入力にmel-specをそのまま利用2, 3, 4(pitch無し5, 80 dim6)。 Mel2LPcoeff LP係数はmel-specから計算7。各バンドではmel-specのう…
LPCNet、効率化しました (x2.5~)。 背景 - ボトルネックはわかっている、観念しろ LPCNetはモバイルCPUリアルタイム推論ができるほど速い。 巨大化すれば品質も良い。 しかし速度制約を満たす中での品質には改善の余地があり1、一層の効率化が求められている…
librosa.amplitude_to_db の最小dBは aminパラメータで規定される. デフォルト値は amin=1e-05 、これはdBとしていくつになるか. import librosa import numpy as np mel = np.array([[1.01*10**-5, 1.0*10**-5, 1.0*10**-6]]) dB = librosa.amplitude_to_db…
librosa.amplitude_to_db は linear-amplitude spec を log-power spec へ変換する関数1. linear-ampをlog-ampにするのではない, 注意. この用途で楽をしたい場合、librosa.power_to_db へ linear-ampを突っ込めばいい. # 300/3 = 100 = 10^2 = 2B = 20dB S …
OpenVINO Model Zooにある wavernn (composite) というモデルの解説. 概要 mel2waveのWaveRNN Vocoder1. fatchordタイプ、すなわちResNetベースのPreNetをもちMoLパラメータを出力する. fatchordのLJSpeech学習済みモデル(ljspeech.wavernn.mol.800k.zip)…
WaveRNNに関する記事集
音声波形生成タスクにおいて生成された波形に対するSTFTを損失関数に使う研究のサーベイ Parallel WaveGAN NSF HiFi-GAN MultiBand-MelGAN StyleMelGAN GAN系でSoTAなvocoderはみんな採用してるイメージある. model loss name reference loss intent PWG1 mu…
manipulation = call(sound, "To Manipulation", 0.01, 75, 600) pitch_tier = call(manipulation, "Extract pitch tier") call(pitch_tier, "Multiply frequencies", sound.xmin, sound.xmax, 2) call([pitch_tier, manipulation], "Replace pitch tier") s…
VCC2020 T10モデル1 (top score). ASRベースのrec-synでMOS 4.0 & similarity 3.6 を達成. Models ASR SI-ASR (N10と一緒?) Conversion model Encoder-Decoderモデル (≠S2S). Encoder LSTM -> 2x time-compressing concat2 -> LSTM Decoder Attention付きAR-…
FastSpeechにピッチ推定も兼ねてみました論文. Durationと同じくphoneme単位でPitchPredictorを学習. Scalar予測した値をlatentと同じFeature次元に変換したのち、なんとただsum(segFCでFeature次元に飛ばしているので学習可になり、その辺で音高次元でも暗…
速い、巧い、(安いかは微妙)FastSpeech 概要 Transformerで音素列を系列変換、動的にアップサンプリング、Transformerで↑系列をmel-specへ変換. 以上. 動的アップサンプリングは LengthRegulator で実行され、音素ごとの倍率が DurationPredictior で動的…
主張「TTSしたいならWaveNetを複雑な特徴量で直接条件付けるより "良いchar2specモデル+spec2wave WaveNet" がいいぜ」 概要 Attention Seq-to-Seq で文字列からメルスペクトログラムを生成、WaveNetで波形生成. LSTM Encoderが文章を丸呑み、最終出力をzと…
多言語ASRの事前学習にCPCを利用、既存の教師ありモデルと同等以上の性能を発揮. 背景 小データの時どうするか => 近いドメインの大データでpre-training & Transfer learning ASRは音素っぽいものを事前学習できればわりと共用できそう => CPC 手法 CPCの教…
MelGANに対してモデル・Lossの最適化をした上で、最終出力チャネルを複数にしてそれぞれサブバンドを予測. 通称 MB-MelGAN モデル MelGANベース、すなわちConvT1dベース. ResBlock導入やDilatedConvによる受容野拡大により、フルバンドモデルそのものをまず…
Multiband-WaveRNN は「WaveRNNは表現力を余らせてる」という仮説の下で、サイズを変えていないWaveRNNへサブバンドN個の同時予測を課したモデル1. なんと実際にMOS差無しでNバンド予測に成功. 動作周波数を1/NにできるのでRTFが大幅に改善. 背景・モデル Wa…
ニューラルな音響特徴量(content, fo, speaker)からneural vocoderで音声合成/変換/圧縮できるかなチャレンジ. 表現学習とボコーダ学習は完全分離 (表現モデルをpretraining -> fix). fixされたモデル出力からボコーダ学習. content表現モデルはCPC, HuBER…
LPCNet: 線形予測ボコーダーにexcitation/残差予測のWaveRNNを組み合わせ1、 full neural Vocoders より省パラメータで同精度 スパース化やノイズあり学習、全結合層の工夫など色々最適化してそんな強くないCPUでもリアルタイム合成に成功. speech synthesis…
オーディオの入出力・ルーティング・処理を担うWinRT高レベルAPIs1. 入出力のマイク・ファイル指定、合成音の入力化などが可能. UnityやWebにあるノードベースオーディオとだいたい同じ機能を提供. 音響効果の差し込みも可能. Audio graphs - UWP applicatio…
Welcome to the NeuralArticulatorySynthesis wiki! Past researches before Deep learning Robust Articulatory Speech Synthesis using Deep Neural Networks for BCI Applications (2014) Data driven articulatory synthesis with deep neural networks …
4.3節がaudio. official samples Architecture Encoder [Conv1d (k4, s2)] x61 情報量: ±16msecのhalf-overlap Decoder DilatedConv, similar to WaveNet dilated convolutional architecture similar to WaveNet decoder The decoder is conditioned on bot…
[resampy] kaiser_best: default filter [resampy] kaiser_fast: faster filter [scipy.signal.resample] [scipy.signal.resample_poly]: polyphase filtering1 Resample x along the given axis using polyphase filtering. docs↩
TTS Transformer-based parameter estimator + Parallel WaveGAN vocoder ref: Transformer TTS & FastSpeech Base: FastSpeech i/o: phoneme sequences + accent -> mel-spectrograms model: a six-layer encoder and a six-layer decoder (each was based …
CycleGAN-VCの改良版。 Discriminatorの追加、2D-1D-2D Conv Generator、Patch Discriminatorが変更点。 情報 論文: デモ: コード: 詳細 背景 RBMやVAEじゃない理由: over-smoothing through statistical averaging 統計モデル(生成モデル。確率分布を考える…
音響特徴量は音がもつ特徴を捉えた指標だと期待されている. 既知の音響特徴量に基づいた音声認識・合成・変換は、いまやデータに基づく特徴量を用いた、あるいはE2Eの方法に追いつかれつつある。 本当に、音響特徴量は本質を捉えた特徴量なのか?