第7回 聴覚情報
情報デザイン概論/2022|2022.11.14
対面授業 特設演習
CONTENTS
はじめに
視覚は「空間」的な思考に、聴覚は「時間」的な思考に関係します。私たちの脳は一般に視覚優位の情報処理を行っているようですが、映像に音楽を付けるとその見え方が一変するように、「音」は重要な情報デザインの要素です。
「耳を傾ける」という言葉のとおり、他者の苦悩、環境の悲鳴・・様々な「変化」に気づくためにも聴覚的・時間的な思考が必要です。今回の講義では、聴覚情報について、様々な観点からお話します。
耳の構造
「人」の聴覚の受容器は、外耳・中耳・内耳の3つで構成されますが、外耳と中耳は音響振動の伝達を、内耳は感覚細胞をもち、刺激による興奮を起こします。
図の出典:File:Anatomy of the Human Ear ja.svg
外耳
まず外耳ですが、これは耳介・耳殻・外耳道からなり、外耳道の終端には鼓膜があって、これが空気中の粗密波を最初に体内へ伝える役割を担います。耳介が 3kHz付近、耳殻が 5kHz 付近、外耳道が 2.5kHz 付近にそれぞれ共振点をもち、これと頭全体や胸・肩等の共振もわずかに関与して、鼓膜の付近では 2〜6kHz の帯域で約10dBほど音圧が上がっているといわれています。この帯域はすなわち人の音声の、音素識別や話者識別にもっとも重要な領域であり、これは「同種間のコミュニケーションに対する優位性」を物語っています。
中耳
中耳は鼓膜の振動を内耳の前庭窓に伝える役割を担います。その中空を鼓室といいますが、そこには3つの耳小骨があって、空気の「大きな振幅・小さな圧」を体内の「小さな振幅・大きな圧」へ変換する「てこ」の役割を担っています。すなわちここでは、空気と水のインピーダンス*1整合が行われています(ちなみに、水中に生活する生物の場合は「水の振動」→「体(水と同じ)の振動」で音が伝わるため、この仕組みは不要です。したがって魚やイルカなどでは、内耳が直接頭部に埋ったような状態になっています)。
内耳
内耳は三半規管・前庭・蝸牛で構成されますが、聴覚に関係するのは蝸牛で、その螺旋状の管を2分する基底膜と呼ばれる膜の上に音の感覚細胞が配列されています。直線的な配列です。ベケシー(1943)の観察によれば、鼓膜から伝達されてくる振動は蝸牛内で進行波をなし、この進行波は周波数の高い音では蝸牛の入り口に近いところ、低い音では奥のほうでその振幅が最大になるといいます。この基底膜のふるまいによって、私たちは入力された音の高低を感じ取っているということになります。
さて、その基底膜上には音の感覚受容器であるコルチ器官がのっているのですが、それを構成する有毛細胞は、ゆれによって電位を発生し、それが聴神経(第1次ニューロン)に伝達され、あとは2次、3次とシナプスを介して中継されて4次で大脳皮質の聴覚領に至ります。
1次ニューロンは基底膜上のいずれかの位置の興奮を伝達しており、その位置によって、各ニューロンは特徴周波数(最大感度を示す周波数)をもつことになりますが、その上位では多数の入力に対して1つの出力というかたちで神経回路網をなしていきます。興奮は単純に聴覚領へ上向するだけでなく、遠心性(上から下ってくる)のニューロンのフィードバックが干渉するなどして、複雑な機能が実現されていることになり、この回路網全体でおこっている興奮の空間的・時間的パターンが、我々の音の聴こえ方を決定づけています。
最終的には、大脳皮質の側頭葉にある聴覚領が情報処理をおこなっており、ここは音の感覚という単純なレベルの問題ではなく、空間や時間の知覚に関わる高度な情報処理機能を実現しています。
- MEMO:耳介について
耳介は正面向きに優位な形状をしており、そのために、音の聴こえ方(周波数特性)は方向によって変化します。人間はこれを利用して、音が前方から聴こえているか後方から聴こえているかを知ることができます。ちなみに、左右に関しては、両耳が捉える音量の差や位相差がヒントになっています。
- MEMO:気導音と骨導音
空気の振動として伝わる音を気導音、物体の振動として直接骨を伝わる音を骨導音といいます。インナーイヤ型のヘッドホンなどでは、低域が骨導音として伝わるために、小さな幕面にも関わらず、低域から高域まで、バランス良く伝わります。ちなみに、蛇は骨導音で周囲の音をとらえています。
- MEMO:超音波を利用する生物
コウモリやイルカなどの生物では、自らの発する超音波の反射音の時間遅れパターンを情報として利用していて、かなりの精度で空間把握ができるといわれます。例えばコウモリは1㎜の針金を2mの距離で認知できます。
可聴周波数 / 可聴域 / 弁別閾
可聴周波数
人の音波に対する可聴周波数範囲は、ほぼ 20Hz から 20,000Hz で、音楽の話で言うと10オクターブ(1,000倍 ≒ 2の10乗)に相当します。内耳の特性に限って言えば 100kHz程度までは感じるらしいのですが、伝達系である中耳の限界で上限が決まります。これは構造・サイズの異なる聴覚器をもつ生物では異なるもので、例えば犬は上限が 50kHzとなります(調教用の犬笛はこの帯域を利用しています。人間にはかすれた音にしか聴こえません)。
- MEMO:波長 = 音速 / 周波数
- 音速:331.45m/s
- 可聴範囲の周波数は、波長に置き換えると、約17mm - 17m
- MEMO:聴覚の限界 > 10オクターブ
ピアノは88の鍵盤を持ちますが、これは、88÷12=7オクターブ強です。「鍵盤を増やせば表現の幅が広がる」ようにも思えますが、10オクターブを超える拡張は(可聴周波数を超えるので)意味が無いということになります。
参考:GoogleImage:楽器 音域
- MEMO:超高周波
聴覚が捉えているのは20kHzまでですが、皮膚はそれを超える高周波を聞いている(感覚として捉えている)ようです。超高周波を含む音楽と含まない音楽には感覚的な差異があって、前者の方がより心地よく感じる・・。川のせせらぎ、雨の音、鳥の声、生楽器の演奏など、自然な空気の振動は超高周波を含むのが普通ですが、一般的なマイク、スピーカー、またデジタルサンプリングなど、音を機械的に再現するシステムは可聴範囲の音を扱うことを前提にできているので、それらは伝わりません。「肌にも感じる生の音」と「耳を対象として機械的に再現された音」は違って当然と言えます。
参考:Google:皮膚 超高周波 Google:超高周波 ホーミー
最小可聴限
最小可聴音圧(P0 と表記します)は、最も感度の高い 3〜4kHz 付近での値で、
2x10-5 pa = 20×10−6 Pa = 20 µPa(マイクロパスカル)
とされています。
最小可聴域が 20 μPa に対して、耳が痛くなって耐えられなくなる音圧、すなわち最大可聴域(痛覚域)は、20 Pa 程度。この差は 100万倍(120dBに相当)になります。
弁別閾
音の高さ(周波数)や強さ(音圧)の差をどの程度まで細かく区別できるか(弁別能力)については、この分解能を示す値を弁別閾(difference threshold)といという値が用いられます。
一般に「弁別閾の値は刺激のレベルに比例する(弁別閾/刺激量=定数)」というウェーバーの法則があてはまります。ここで定数とは、感覚の種類によって異なるものでウェーバー比とも呼ばれます。この法則は刺激のレベルがある程度以上大きくないと成立しませんが、周波数、強さ、音の持続時間などあらゆる感覚刺激についてあてはまります。
聴野
視覚には視野というものが存在し、自分の位置を中心とした世界の一部の情報が読み取られていますが、聴覚の場合、基本的にはすべての方向の音が耳にはいっており、その点が視覚と大きく異なっています。耳は開閉しないので、常に(時間的にも)あらゆる方向からの(空間的にも)情報に対して「待ち受け」の状態にあります。「呼びかけ」や「警告」、「目覚まし」が視覚ではなく聴覚に訴えるのはそのためです。
もちろん、外耳の構造から言っても後方よりは前方に対して感度が高くなることは言うまでもなく、また耳が2つあることから音源の方向をある程度特定する能力があるわけで、私たちの聴覚は完全なる無指向性ではありません。
- MEMO:聴覚の奥行き知覚
- 音による空間把握には、左右の音量差と位相差が使われています。
- 人間の耳に届く音の状態を再現する録音方法として、バイノーラル録音という手法があります。
音の心理
視覚心理の分野では「色彩」がもたらす様々な心理的効果が知られていますが、聴覚の領域でそれに相当する音程や音色についても同様の心理的効果が考えられるのでしょうか。空間を基軸とする色彩と時間を基軸とする音とでは何を何に対応づけるかということ自体が難しい問題なのですが、可能な範囲で考察してみたいと思います。
音の三属性
音には三つの属性があり、それぞれ音の強さ・高さ・音色といいます。「強さ」は振動の振幅の大きさ、「高さ」は振動の基本周波数、そして「音色」は主に波形(あるいはスペクトル分布)としてとらえることができるものです。
- 音の強さ
音の強さの単位にはdB SPL(Sound Pressure Level:音圧レベル)が用いられますが、これは基準の音圧 P0 と 比較する音圧 P との比の対数の 20 倍・・
20 log 10 ( P / P0 ) dB という式で定義されています。
詳細は>Sound
10dB 聴こえる事の出来る限界 呼吸音 20dB 寝息 木の葉のふれあう音 置時計の秒針の音 30dB 郊外の深夜 夜の住宅街 洋服を着る音 ささやき声 40dB 市内の深夜 昼の住宅街 図書館 鼻息 小雨の音 換気扇 50dB 静かな公園 静かな事務所 小さな声 エアコンの音 60dB 学校の授業 銀行内の音 一般的な家庭の朝 普通の会話 テレビ(小) 70dB レストラン 工場 乗用車 騒々しい街頭 掃除機 テレビ(中) 80dB ボーリング場 機械工場 大型幹線道路 地下鉄の車内 ピアノ 90dB パチンコ店内 カラオケ店内 騒々しい工場の中 犬の鳴き声 100dB 地下繁華街の音 電車が通るときのガード下 110dB 自動車のクラクション 120dB オーケストラの演奏 新幹線鉄橋通過 130dB 飛行機のエンジンの音 落雷
- 音の高さ
音高(おんこう)、あるいはピッチと言われるもので、振動の基本周波数を指していいます。音楽の世界では、基準となるピッチが 440Hz(ピアノ鍵盤のラの音)と決まっていて、 "A = 440 Hz"、"A440" などと記されます。
- 音色
音色は時間軸上にグラフ化すれば「波形」として、周波数を軸としてグラフ化すれば、スペクトルパターンとして物理的に捉えることができるものです。
我々の耳が聴き分ける楽器の音色というものは、基本周波数とその倍音列(Overtone Series)の強度分布によって特徴づけられているのです。電子楽器がピアノに似た音やギターに似た音を生成する場合も、この倍音の分布パターンを様々な方法 でコントロールすることによってそれが実現されます。
- 補足:倍音について
音程のある「楽音」は通常、基本周波数の振動と、その2倍の周波数、4倍の周波数など、整数倍の周波数の振動が重なっています。つまり、同じラ(a3)の音といっても、具体的な楽器の音では、440Hz, 880Hz, 1760Hz・・と複数の振動の組み合わせになっていて、我々の耳は、その各成分の強さの分布の違いを聞き分けることで、それがピアノの音かバイオリンの音かを識別しています。
音嗜好
色彩の場合は、波長の違いである色相に対して各々の文化的背景も絡めた嗜好が見られますが、音の場合は波長の違いとしての音程(大半の人には相対的なもの)に嗜好があるとは考えられません。つまり「私はレの音よりソの音が好き」とか「高い音が好き」とかいった嗜好があるとは考えられません。
それよりも音色(これは倍音の構成比の問題で視覚の領域では「色の濁りぐあい・色調」とでもいうべきもの)のほうが明確で、「ピアノの音が好き」とか「歪んだギターの音が好き」とかいった話はありえます。しかし、これも個人的なものであったり、その時の状況に応じて変化したりするもので、一般的な傾向があるとは考えにくい。あえて言えば「爪で黒板を引っ掻く音」のような高周波を多く含む非楽音については、大半の人が不快に感じるという点で一致しているぐらいでしょうか。
感情効果
音程や音色が感情と結びつくかというと、これも嗜好の問題と同様で、音程よりも音色のほうがその関係は緊密です。「ファットな音/やせた音」「メロウな音/ブライトな音」などいずれも音色に関する言葉で、倍音の含まれかたや時間経過パターンが聴く者の感情と無関係ではないことがわかります。音楽情報の場合は、リズム・メロディー・和声が強く感情と結びついており、したがって楽曲の主旋律を行く楽器(音色)が適切に選択された場合、その伝えは最も効果的になります。
誘耳性
色彩の心理では誘目性という言葉がありますが、誘耳性という言葉はありません。ただ、明らかに「全体の中で目立つ音」というのは存在します。例えば声に関して言えば、大衆の中で「よく通る声」や「マイクにのりやすい声」が存在するし、音楽の演奏の場合にも、主旋律を演奏するのに向いている楽器というのがあって、バイオリン・ギター・サキソフォンなど、「目立つ音」は、いずれも「高い音程域で豊かな倍音を含む」という特徴をもっています。
音程の調和
これは視覚でいう色調和の問題で、一般には耳に心地よく響く音程の組み合わせ、すなわち「和声」の問題になります。和声というものは、実は物理的に簡単に説明できるもので、例えば最もよく用いられる3度の和声は、その周波数比が 4 対 5、あるいはトライアド(3和音)の機軸である5度の音程は周波数比 2 対 3 というぐあいに、周波数が簡単な整数比で表わされる複数の音は、物理的に馴染みやすくなります*2。これは例えばド(1度)の3倍音がソ(5度)の2倍音と等しいというふうに、それぞれの音の整数次倍音が共鳴するためです。このような物理的整合性の理由から、主要な3和音や4和音は、原則として3度間隔の積み重ねで成立し、逆にそれ以外の音程の組み合わせを用いると、不協和で緊張感のある和音となるのです。
錯聴
視覚に「錯視」があるのと同様、聴覚にも「錯聴(auditory illusion)」という現象がみられます。高い音が低く聞こえる、右の音が左に聞こえる、同じ音に対する聞こえが変化する、実際には鳴っていない音が聞こえるなど、様々です。我々の聴覚は、聞きたい音を効率よく聞き取るための巧妙なしくみを持っていて、結果的にこの仕組みが様々な錯聴をもたらすとも言えます。音は耳だけで聞いているわけではなく、脳における情報処理が大きく影響しています。左右2つの音源だけで、現場の臨場感が作り出せるのもある意味では、耳の錯覚を利用したものと言えます。
- MEMO:参考サイト > Illusion Forum|錯聴
- MEMO:錯語
視覚には錯覚という現象がありますが、聴覚の場合は錯語ということが起こります。これは音節の識別に混乱が生じた場合と、聴き手のトップダウンの作用で日頃使い慣れた音節列として聴いてしまう場合がありますが、一般的に「耳慣れない単語」というものは何度も聴き返さないと正確に音節を拾いきれないものです。
音の識別
音の種類について、それらを区別し言葉で言い当てる能力を識別能力といいますが、「人」の聴覚には絶対音の識別、音声の識別、話者の識別、和音・音程の識別など、様々な能力があります。私たちは通常こうした能力をあたりまえのものと感じていますが、その大半が生後の学習により修得されるものであることを考えると、開発の可能性のある能力として、非常に興味ある問題を提供してくれます。
絶対音の識別
まず絶対音感ですが、これはある音を単独で聴いてその音名を言い当てるという能力で、周波数分析器などの機械にとっては簡単なことですが、「人」の聴覚の場合には、臨界期の間(8歳ごろまで)に適切な訓練を受けた者のみが持ちうる能力です。音楽に携わる者にとっては有利な面も多いのですが、逆に「どんな音を聴いてもいちいち音名が浮かんでしまう、中途半端な音程だと不快に感じてしまう、音楽が純粋に楽しめない」といったマイナスの面もあり、その能力を修得させるべきかどうかについては音楽関係者の間でも賛否両論あります。
音声の識別
音声の識別能力は、我々が皆持っているもので、「ア・イ・ウ‥」という音節を聴き分ける能力、言語によるコミュニケーションを成立させる基盤となる能力です。これもやはり後天的な(臨界期はもちろんある)もので、日本で生まれ育った者には日本語の音節(約百種)を聴き分ける能力、英語圏で生まれ育てば英語の音節(3千種以上)を聴き分ける能力が身についています(脳の聴覚領に組織化されています)。音声識別の手がかりとなるのは、音節の短い時間内でのスペクトルパターンとその時間経過パターンという2つの物理的パラメータで、例えば母音を特徴づけるホルマントというものも、すでに述べた通り、音を構成する周波数成分の問題です。
さらに言えば、この場合最も重要なのは「ア」の物理パラメータというより、「ア」と「イ」の物理パラメータの「関係」であす。私たちは「ア」の音だけを聴いて「ア」の識別能力を修得したのではなく、日本語のあらゆる音節を聴くなかで「ア」の立場を覚えたのです。したがって機械に音声識別をさせる場合も、単に入力音に関する物理パラメータのボトムアップのみでなく、音節のデータベースからのトップダウンを用いることで、識別はよりスムーズなものになります。
日本語の5母音のフォルマント、すなわち音を特徴付ける周波数成分は以下のとおりです。参考:GoogleImage:母音 フォルマント
第1フォルマント | 第2フォルマント | 第3フォルマント | ||
ア | 700Hz | 1,200Hz | 2,900Hz | |
イ | 300Hz | ー | 2,700Hz | |
ウ | 390Hz | 1,200Hz | 2,500Hz | |
エ | 450Hz | 1,750Hz | 2,750Hz | |
オ | 460Hz | 880Hz | 2,800Hz |
(単位 Hz)
話者の識別
また話者の識別についてですが、これは声の質に関する識別で、子供の声・大人の声・男声・女声・誰々の声などと聴き分ける能力です。楽器の種類を識別する能力も同様で、やはり学習によって修得される能力です。
和音や音程などの識別は、音楽的な訓練をある程度受ければ比較的簡単に持つことのできる能力です。これは絶対音感のように周波数に相当する物理的絶対値を言い当てるものではなく、あくまで音の高さの相対的な関係を問題とします。その修得訓練は臨界期以降でも遅くはなく、また能力の修得がマイナスに作用することもありません。
言葉・メロディーの認知
音を識別するというレベルの問題に加えて、その情報内容を読み取って記憶するというレベルの問題にも簡単に触れておきましょう。
まず、言葉の認知ついてですが、それも知覚の問題である以上、重要なのは言語要素間の関係・構造です。言葉を介したコミュニケーションでは、同じ内容を「話し手を変えて・大きな・高い声で・ゆっくり話す」というように変化させても、伝わる内容には(美的な側面を除けば)変化はありません。私たちが「言葉」を思い浮かべるという場合も、確かに音が付随するのですが、その際それが「常に誰某の声で思い浮かぶ」というような具体性はありません。これは視覚の場合で言うと、読んだ内容は覚えているが文字がどんな書体であったかは覚えていないということと同じです。言葉は美的な表現の場合を除いて、常に音そのものの具体的な側面を欠く音列のパターンとして読み取られているのです。
メロディーの場合も同様に構造をもったものであり、我々のメロディー認知にはそのかたち(ゲシュタルト)が重要です。すなわち、音の刺激情報について重要なのは、各音の音程関係とその時系列パターンであり、音の絶対的周波数ではありません。したがって言葉の場合同様、メロディーの再生の際に「楽器を変えて・音量を変えて・移調して・テンポを変えて」という操作をしても、我々はそのメロディーを同一のものとして認知することができるのです。アレンジに大幅な変更を加えても、その中から主旋律を聴き分け、メロディーを認知し、曲名を言い当てることができるというのは、「人」の聴覚の能力の強みです。
APPENDIX
参考書籍 等
- 大串 健吾, 音響聴覚心理学, 2019, 誠信書房
- 齋藤 寛, 心を動かす音の心理学, 2011, ヤマハミュージックメディア
- 川人 光男他, 岩波講座 認知科学〈3〉視覚と聴覚, 1994, 岩波書店