音の生理

人は耳で音を検出します。

顔の両サイドの穴の後ろ側からグローブみたいなパーツが飛び出して音を受け取っていますが、センサー部分はその穴の奥のそのまた奥にあります。鼓膜は聴覚の重要な構成要素の一部ですが、聴覚のセンサーは実はもっと奥にあります。

また、音は、神経への刺激の大きさが電気信号に変換された物理的な刺激として脳に伝えられますが、そのままのデータが音として処理されるのではなく、編集されたデータが音として認識されています

まずは、耳の構造を見て、その後で音の処理のされ方を見ていきます。

耳の構造

下図が聴覚を発生させる耳の全体像です。

各部位は、以下のような機能を持っています。

中耳は、耳小骨と呼ばれる3つの骨で構成されています。

てこの原理で、つち骨が得た振動は3倍の大きさになってあぶみ骨から内耳に伝えらえます。

蝸牛はカギュウと読みますが、カタツムリは漢字では蝸牛と書きます。

蝸牛(カギュウ)は蝸牛(カタツムリ)と形が似ていることから蝸牛(カギュウ)と名付けられました。

また、蝸牛にある有毛細胞は、中心ほど柔らかく低い音に反応し、入り口付近ほど固く高い音に反応します。有毛細胞は固いほど劣化が早いので、加齢により高音側から聞こえにくくなっていきます。

人が音源の位置や方向をおよそ推測できるのは、右の耳と左の耳に入る音の時間差を利用していると言われています。

音源が真正面や真上にあれば左右の鼓膜が振動するタイミングは同じになります。

音源が右側にあれば、右の耳の鼓膜が左の耳の鼓膜より少しだけ早く振動し、その時間差を脳内の音声処理で距離の差に置き換えているようです。

上下方向や前後方向の位置は、左右の鼓膜に音が届くタイミングは同じになります。上下方向や前後方向の音源の推定は、経験によって脳が補完していると言われています。

音の三属性

音の大きさ

音の特徴をまとめたのが音の三属性(大きさ、高さ、音色)です。

人が聞くことのできる音の大きさは20μPa~20Paで、音圧パワーレベルでは0~120dBです。

以下は、日常的なシーンごとの音圧パワーレベルの例です。

音の高さ

音の高さがある一つの周波数のみで構成される音(単一スペクトル)は、純音と呼ばれています。

複数のスペクトル(周波数)で構成される音は、複合音とよばれています。

ちなみに、動物により可聴域は大きく異なります。例えば以下の通りです。

鳥:50Hz~8kHz

魚:50Hz~20kHz

人:20Hz~20kHz

馬:14Hz~25kHz

犬:40Hz~60kHz

猫:45Hz~64kHz

こうもり:1000Hz~100kHz

イルカ:150Hz~150kHz

蛾:1000Hz~300kHz

音色

音の三属性のうちの一つである音色は、「ねいろ」とも呼ばれますし「おんしょく」とも呼ばれています。

JISでは音色は、「聴覚に関する音の属性の一つで、物理的に異なる二つの音が、たとえ同じ音の大きさ及び高さであっても異なった感じに聞こえるとき、その相違に対応する属性」と定義されています。

同じ「ラ」の音でも、バイオリンで出す音と、ピアノで出す音は違う音として感じられます。この違いのもととなっているのが音色です。

音は様々な周波数を含んでおり、最も低い周波数が基音と呼ばれその音の高さとして聞こえています。音色は、基音以外の音の構成の違いにより作り出されているのです。

雑音・ノイズ

ある範囲のすべての周波数に成分を有する(スペクトルが連続している)音は雑音(ノイズ)と呼ばれる。

ノイズの中でも周波数全域にわたって等しい強さの成分を持つ騒音はホワイトノイズ(白色雑音)と呼ばれています。

「サーッ」という、やや軽い音です。

また、周波数が1オクターブ上昇するごとに成分の強さが3dB小さくなるようなスペクトルの騒音はピンクノイズと呼ばれています。

「ボーッ」という感じの、やや重たい音です。

等ラウドネス曲線

等ラウドネス曲線は、周波数が1kHzの純音のxdBと同じ音圧レベルになるような、様々な周波数の純音の音圧レベルを集計した図です。

一般に、1000Hzの純音の10dB, 20dB…とおよそ130dBまで10dB刻みで図が描かれています。

例えば横軸1000Hz、縦軸40dBの点を通る線は、横軸の各周波数において、1000Hz・40dBの音と同じ音圧パワーレベルになるために必要な出力を示しています。

等ラウドネス曲線に、人の音声や楽器による音の周波数と音圧レベルを重ねると、下図のようになります。

音圧レベルの値が低い範囲に、人の声を構成する周波数帯が重なっています。

もし人の声が50Hzのような低周波数であった場合、1000Hzで40dBの純音と同じ大きさの音を得るためには80dBの出力が必要であり、同じ量の情報を伝えるために消費するエネルギー量は多かったであろうことが想像できます。

また、その逆に、もし人の声が10000Hzのような高周波数であった場合であっても、1000Hzで40dBの純音と同じ大きさの音を得るためには50dBの出力が必要であり、高周波数であってもやは必用とされている音圧レベルと同じ量の情報を伝えるために消費するエネルギー量はり多かったであろうことが想像できます。

同じ量の情報を伝達するのに必要なエネルギー量が多いことは、生命の維持には不利です。

人につながるこれまでの生物の進化の過程で、声の低いあるいは高い人類はランダムに生まれてきたんだと思います。

情報伝達にその他の人よりも多くのエネルギを使っているそのような人の特徴は、人類に定着することなくその代のみで消えていったんだと思います。

マスキング

聞きたい音が、その他の音のために効きにくくなる現状をマスキングと呼びます。

例えば、下図のように、テレビを見ているときの音声(聞きたい音)が、同じ部屋の中で掃除機を使用しているときの音により聞き取りにくくなることが、このマスキングです。

マスキングには以下のような特徴があります。

カクテルパーティー効果

カクテルパーティー効果は、ノイズの中にあっても聞きたい音を優先的に情報処理する、脳の認知的な特徴のことです。

音の周波数特性である音色から聞きたい音の特徴を特定し、その音色で発せられた音を聞きたい音として聞き分けているようです。

カクテルパーティー効果は、物理的な現象ではなく、脳の認知的な情報処理特性によるものという特徴があります。

カクテルパーティー効果は、例えば以下のような場合に体験することがあります。