たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

音響特徴量と仲良くなる

Mel Cepstral Coefficients / MCEPs

Hamming & Hann Windows

Mel-Generalized Cepstral
MGCEP

Mel-Frequency Cepstrum Coefficients / MFCC
メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録

Cepstral Analysis

Spectrumを概形たるSpectral Envelopeと詳細たるSpectral detailsへ分割
さあどう分割するか
-> logをとったspectrumにFFTをかける (spectrumへのFFTはInverse FFTと呼ばれる)

Mel-Frequency Analysis
human perceptionに基づいたMel-Frequencyで議論しよう!という解析
Mel-Filterをかけて無事Mel-spectrumへ変換。これのSpectral Envelopeが知りたいなー
-> Mel-spectrumへCepstral Analysisするのだ!
出てきたenvelopeの係数がMel-Frequency Cepstral Coefficients / MFCC
sequence of cepstral vectorを解析に使うことが多い

http://www.speech.cs.cmu.edu/15-492/slides/03_mfcc.pdf

瞬間周波数 (Instantaneous frequency)

Instantaneous frequencyは位相を時間で微分したものである1
* (Boashash, 1992) * Abe, Toshihiko, Takao Kobayashi, and Satoshi Imai. “Harmonics tracking and pitch extraction based on instantaneous frequency.” International Conference on Acoustics, Speech, and Signal Processing, ICASSP-95., Vol. 1. IEEE, 1995.

Instantaneous phase - Wikipedia the interval (-π, π] or [0, 2π) : wrapped phase
. Otherwise : unwrapped phase, which is a continuous function of argument t, assuming sa(t) is a continuous function of t.

Related Phase Shift2とやらを利用.
深層学習による位相情報を考慮した音声合成の検討

現在では位相が及ぼす影響は少なくないことが分かっており, 雑音除去などの分野では位相情報の重要性に関して研究がなされている 3.


  1. The IF is defined as the phase derivavative(※筆者注: 微分導関数の意) with respect to time. from Abe 1995

  2. I. Saratxaga et al., “Simple representation of signal phase for harmonic speech models,” Electronics letters, vol. 45, no. 7, pp. 381–383, 2009.

  3. K.K.Paliwai et al., “The importance of phase in speech enhancement,” Speech communication, vol. 53, no. 4, pp. 465–494, 2011.