たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

Audio

ヒトの声はmonophonicか

ヒトの声を如何にモデル化するか、そのモデルが何を再現出来て何を切り捨てているのか。 その際のかなり基本的な観点として「ヒトの声はmonophonicと見做せるか」がある。 polyphonicに「聞こえる」例 異なる旋律が2つ聞こえる例としてこの動画が挙げられる…

音声系の知識集約場所一覧

自分のブログでまとまったらwikipediaに移管している。 音響特徴量: wikipedia/音声分析#音響特徴量

論文解説: Wang (2021) fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit

様々な音声合成の公開実装と評価をしました論文 by Fairseqチーム1。 文字/音素/Unit-to-MelとvocoderでSpeech Synthesisをして、Fairseqお得意の指標群で客観評価。 Models models Implemented by Fairseq S2 Text-to-Mel: Tacotron 2, Transformer TTS, Fa…

モデル解説: LPCNet系

LPCNet系とは、線形予測にNN残差予測を組み合わせたLPCNetを起源とするモデルクラス。線形予測符号化とWaveRNNが祖先。モデル効率の良さからくる高速性とオープンソースのC実装がウリ。 要素解釈 Excitation/Residual - 単なる非線形補完 古典的ソース・フィ…

論文解説: Tian (2020) FeatherWave: An efficient high-fidelity neural vocoder with multi-band linear prediction

提案モデル: mel-spec input (pitch-less), multiband LPCNet1 デモ 中国語デモ wavecoder.github.io ConditioningNetwork 入力にmel-specをそのまま利用2, 3, 4(pitch無し5, 80 dim6)。 Mel2LPcoeff LP係数はmel-specから計算7。各バンドではmel-specのう…

論文解説: Valin (2022) Neural Speech Synthesis on a Shoestring: Improving the Efficiency of LPCNet

LPCNet、効率化しました (x2.5~)。 背景 - ボトルネックはわかっている、観念しろ LPCNetはモバイルCPUリアルタイム推論ができるほど速い。 巨大化すれば品質も良い。 しかし速度制約を満たす中での品質には改善の余地があり1、一層の効率化が求められている…

librosa `amplitude_to_db` の最小dB

librosa.amplitude_to_db の最小dBは aminパラメータで規定される. デフォルト値は amin=1e-05 、これはdBとしていくつになるか. import librosa import numpy as np mel = np.array([[1.01*10**-5, 1.0*10**-5, 1.0*10**-6]]) dB = librosa.amplitude_to_db…

librosaの`amplitude_to_db`は扱い注意

librosa.amplitude_to_db は linear-amplitude spec を log-power spec へ変換する関数1. linear-ampをlog-ampにするのではない, 注意. この用途で楽をしたい場合、librosa.power_to_db へ linear-ampを突っ込めばいい. # 300/3 = 100 = 10^2 = 2B = 20dB S …

解説: OpenVINO Model Zoo WaveRNN(composite)

OpenVINO Model Zooにある wavernn (composite) というモデルの解説. 概要 mel2waveのWaveRNN Vocoder1. fatchordタイプ、すなわちResNetベースのPreNetをもちMoLパラメータを出力する. fatchordのLJSpeech学習済みモデル(ljspeech.wavernn.mol.800k.zip)…

WaveRNN系まとめ

WaveRNNに関する記事集

サーベイ: STFT損失 in 音声波形ドメイン

音声波形生成タスクにおいて生成された波形に対するSTFTを損失関数に使う研究のサーベイ Parallel WaveGAN NSF HiFi-GAN MultiBand-MelGAN StyleMelGAN GAN系でSoTAなvocoderはみんな採用してるイメージある. model loss name reference loss intent PWG1 mu…

ParselMouth: ピッチ操作

manipulation = call(sound, "To Manipulation", 0.01, 75, 600) pitch_tier = call(manipulation, "Extract pitch tier") call(pitch_tier, "Multiply frequencies", sound.xmin, sound.xmax, 2) call([pitch_tier, manipulation], "Replace pitch tier") s…

論文紹介: Liu (2020) Non-Parallel Voice Conversion with Autoregressive Conversion Model and Duration Adjustment

VCC2020 T10モデル1 (top score). ASRベースのrec-synでMOS 4.0 & similarity 3.6 を達成. Models ASR SI-ASR (N10と一緒?) Conversion model Encoder-Decoderモデル (≠S2S). Encoder LSTM -> 2x time-compressing concat2 -> LSTM Decoder Attention付きAR-…

論文解説: FastPitch: Parallel Text-to-speech with Pitch Prediction

FastSpeechにピッチ推定も兼ねてみました論文. Durationと同じくphoneme単位でPitchPredictorを学習. Scalar予測した値をlatentと同じFeature次元に変換したのち、なんとただsum(segFCでFeature次元に飛ばしているので学習可になり、その辺で音高次元でも暗…

論文解説: Ren (2019) FastSpeech: Fast, Robust and Controllable Text to Speech

速い、巧い、(安いかは微妙)FastSpeech 概要 Transformerで音素列を系列変換、動的にアップサンプリング、Transformerで↑系列をmel-specへ変換. 以上. 動的アップサンプリングは LengthRegulator で実行され、音素ごとの倍率が DurationPredictior で動的…

Tacotron 2

主張「TTSしたいならWaveNetを複雑な特徴量で直接条件付けるより "良いchar2specモデル+spec2wave WaveNet" がいいぜ」 概要 Attention Seq-to-Seq で文字列からメルスペクトログラムを生成、WaveNetで波形生成. LSTM Encoderが文章を丸呑み、最終出力をzと…

論文解説: Rivière (2020) Unsupervised pretraining transfers well across languages

多言語ASRの事前学習にCPCを利用、既存の教師ありモデルと同等以上の性能を発揮. 背景 小データの時どうするか => 近いドメインの大データでpre-training & Transfer learning ASRは音素っぽいものを事前学習できればわりと共用できそう => CPC 手法 CPCの教…

論文解説: Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech

MelGANに対してモデル・Lossの最適化をした上で、最終出力チャネルを複数にしてそれぞれサブバンドを予測. 通称 MB-MelGAN モデル MelGANベース、すなわちConvT1dベース. ResBlock導入やDilatedConvによる受容野拡大により、フルバンドモデルそのものをまず…

論文解説: Multiband-WaveRNN

Multiband-WaveRNN は「WaveRNNは表現力を余らせてる」という仮説の下で、サイズを変えていないWaveRNNへサブバンドN個の同時予測を課したモデル1. なんと実際にMOS差無しでNバンド予測に成功. 動作周波数を1/NにできるのでRTFが大幅に改善. 背景・モデル Wa…

論文解説: Polyak (2021) Speech Resynthesis from Discrete Disentangled Self-Supervised Representations

ニューラルな音響特徴量(content, fo, speaker)からneural vocoderで音声合成/変換/圧縮できるかなチャレンジ. 表現学習とボコーダ学習は完全分離 (表現モデルをpretraining -> fix). fixされたモデル出力からボコーダ学習. content表現モデルはCPC, HuBER…

論文解説: Valin (2018) LPCNet: Improving Neural Speech Synthesis Through Linear Prediction

LPCNet: 線形予測ボコーダーにexcitation/残差予測のWaveRNNを組み合わせ1、 full neural Vocoders より省パラメータで同精度 スパース化やノイズあり学習、全結合層の工夫など色々最適化してそんな強くないCPUでもリアルタイム合成に成功. speech synthesis…

Windows AudioGraph

オーディオの入出力・ルーティング・処理を担うWinRT高レベルAPIs1. 入出力のマイク・ファイル指定、合成音の入力化などが可能. UnityやWebにあるノードベースオーディオとだいたい同じ機能を提供. 音響効果の差し込みも可能. Audio graphs - UWP applicatio…

NeuralArticulatorySynthesis

Welcome to the NeuralArticulatorySynthesis wiki! Past researches before Deep learning Robust Articulatory Speech Synthesis using Deep Neural Networks for BCI Applications (2014) Data driven articulatory synthesis with deep neural networks …

VQ-VAE audio (Oord, 2017)

4.3節がaudio. official samples Architecture Encoder [Conv1d (k4, s2)] x61 情報量: ±16msecのhalf-overlap Decoder DilatedConv, similar to WaveNet dilated convolutional architecture similar to WaveNet decoder The decoder is conditioned on bot…

librosaのリサンプリング

[resampy] kaiser_best: default filter [resampy] kaiser_fast: faster filter [scipy.signal.resample] [scipy.signal.resample_poly]: polyphase filtering1 Resample x along the given axis using polyphase filtering. docs↩

Parallel WaveGAN

TTS Transformer-based parameter estimator + Parallel WaveGAN vocoder ref: Transformer TTS & FastSpeech Base: FastSpeech i/o: phoneme sequences + accent -> mel-spectrograms model: a six-layer encoder and a six-layer decoder (each was based …

CycleGAN-VC2

CycleGAN-VCの改良版。 Discriminatorの追加、2D-1D-2D Conv Generator、Patch Discriminatorが変更点。 情報 論文: デモ: コード: 詳細 背景 RBMやVAEじゃない理由: over-smoothing through statistical averaging 統計モデル(生成モデル。確率分布を考える…

音響特徴量は、特徴を捉えているか

音響特徴量は音がもつ特徴を捉えた指標だと期待されている. 既知の音響特徴量に基づいた音声認識・合成・変換は、いまやデータに基づく特徴量を用いた、あるいはE2Eの方法に追いつかれつつある。 本当に、音響特徴量は本質を捉えた特徴量なのか?