レインボーグラム (Rainbowgrams) とは、音声を構成する周波数成分の強さおよび位相変化率を時間ごとに可視化した図である。正確には、音声の周波数領域時系列がもつ強度およびInstantaneous frequency (IF) を可視化した図である。
レインボーグラムは、強度の時間変化を表現する(パワー) スペクトログラムなどの手法と比べ、音声の重要な構成要素である位相も強度と同時に可視化できる利点がある1。
横軸に時間、縦軸に周波数をとり、各点の対数パワーを輝度で2、IFを色調で3表現する。既存の音声可視化グラフと関連づけるならば、IFの色調表現を追加したスペクトログラムと言える4。
見方
暗い ~ 明るい == 強度の弱い ~ 強い
色が一定 == 位相は一定 (coherent)
色が変化 == 位相が変化
斑点状の色変化 (speckled noise) がある == discontinuities, incoherent
スペクトログラムではない理由
スペクトログラムを見て非常に似ている場合でも、対応する音声が全く異なる場合があり、それは位相の違いに起因しているから5。
位相ではなくInstantaneous freqeuncyな理由
図にしたときphaseは見た目上バラバラになるから。
周波数表現の時系列を求める際、波形は必ずframe (bin) 列へと分割されることになる (frameが一部重なることもある)。その際のframeストライド (hop size)と各成分の周期が整数倍にならない場合、frameごとに波の始まりがずれる、すなわち初期位相はずれることになる。
これを色調として表現した場合、ズレに合わせて色が変わっていくことになり、位相そのものの時系列変化がわかりづらくなる (変化する要因が2つあるから)。
幸い、このズレは線形であるから、位相に変化がなければ、位相の変化率すなわち位相の微分は一定値になるはずである (微分値がずれていれば位相変化を意味する)。
この、位相をunwrapして微分した値がInstantaneous frequencyであり、ゆえに位相変化を認知しやすいIFを位相変化の指標として色調にしている。
名前の由来
レインボーグラムという呼称は、IFを色調表現したスペクトログラム (レインボーグラム) が縦軸方向へ虹色に変化しやすいことに由来する6。
IFはfframeとfsignal componentの違いに由来する。ゆえに自然と近傍の周波数成分…ん?初期位相表現できない…?
plots of the constant-q transform (CQT) (Brown, 1991), which is useful because it is shift invariant to changes in the fundamental frequency.
位相変化実験・位相検出実験
困難さの根源
Frame-based estimation of audio waveformsの難しさ。
いくつかのサブタイプ
log(power)を輝度、IFを色調で表現するのは共通。
ただし何のpowerかはいくつか種類がありそう
NSynth: constant-q transform (CQT)7
参考文献
- NSynth paper
- 特に4. Evaluationの章
- GANSynth paper
-
As phase plays such an essential part in sample quality, we have attempted to show both magnitude and phase on the same plot. (from NSynth paper) ↩
-
The intensity of lines is proportional to the log magnitude of the power spectrum (from NSynth paper) ↩
-
the color is given by the derivative of the unrolled phase (‘instantaneous frequency’) (from NSynth paper) ↩
-
instantaneous frequency colored spectrograms (from NSynth paper) ↩
-
two spectrograms that appear very similar to the eye can correspond to audio that sound drastically different due to phase differences. ↩
-
We affectionately refer to these instantaneous frequency colored spectrograms as ”Rainbowgrams” due to their tendency to form rainbows as the instantaneous frequencies modulate up and down.↩
-
in our analysis we present examples as plots of the constant-q transform (CQT) ↩