ヒトの声はmonophonicか - たれぱんのびぼーろく

ヒトの声を如何にモデル化するか、そのモデルが何を再現出来て何を切り捨てているのか。
その際のかなり基本的な観点として「ヒトの声はmonophonicと見做せるか」がある。

polyphonicに「聞こえる」例

異なる旋律が2つ聞こえる例としてこの動画が挙げられる。視聴必須。

www.youtube.com

直観的には「ヒトという種は理論上polyphonicな発声が可能なのか」と思う。
しかしこれは錯聴である。

本動画の3:00~3:22のスペクトル解析を独自におこなった。
まず、この音声では1旋律が小さい2段階上下を繰り返しているのと同時に別の旋律が音楽を奏でている（正直耳を疑った）。
このときのSTFTを見ると、調波構造は monophonic であることが明確にわかる。

それと同時に、倍音のうち1つだけが基音よりも強く鳴っておりこれが上下とは異なる推移をしていることがわかる。
Audacity等を使って音声を聞きながらSTFTを見ていると、第2の旋律がこの特異的倍音の推移と完全にマッチしていることに気づく。
つまり、極端に強い倍音を別の旋律として錯覚していることになる。

調波構造における倍音間強弱は「音色」として基本的に認識されるはずである。
しかし自然界では「倍音とたまたま周波数が合致した別の音が同時に鳴っている」というシーンがあるため、おそらくヒトはこれを音源分離できるよう進化した。
その結果、実体として1つの音源が音色を変えただけなのに2つの音源=旋律を認識したと私は考察している。なので錯聴。

他の文献

"monophonic" 日本語限定 google検索 @2023-03-17: 解説 0件
辞書とECサイトしか出てこない。