LogoMark.png

情報デザイン概論/2022/1114

第7回 聴覚情報

情報デザイン概論/20222022.11.14  

対面授業 特設演習


CONTENTS


はじめに

視覚は「空間」的な思考に、聴覚は「時間」的な思考に関係します。私たちの脳は一般に視覚優位の情報処理を行っているようですが、映像に音楽を付けるとその見え方が一変するように、「音」は重要な情報デザインの要素です。

「耳を傾ける」という言葉のとおり、他者の苦悩、環境の悲鳴・・様々な「変化」に気づくためにも聴覚的・時間的な思考が必要です。今回の講義では、聴覚情報について、様々な観点からお話します。




耳の構造

Human_Ear.png

「人」の聴覚の受容器は、外耳・中耳・内耳の3つで構成されますが、外耳と中耳は音響振動の伝達を、内耳は感覚細胞をもち、刺激による興奮を起こします。

図の出典:File:Anatomy of the Human Ear ja.svg

外耳

まず外耳ですが、これは耳介・耳殻・外耳道からなり、外耳道の終端には鼓膜があって、これが空気中の粗密波を最初に体内へ伝える役割を担います。耳介が 3kHz付近、耳殻が 5kHz 付近、外耳道が 2.5kHz 付近にそれぞれ共振点をもち、これと頭全体や胸・肩等の共振もわずかに関与して、鼓膜の付近では 2〜6kHz の帯域で約10dBほど音圧が上がっているといわれています。この帯域はすなわち人の音声の、音素識別や話者識別にもっとも重要な領域であり、これは「同種間のコミュニケーションに対する優位性」を物語っています。

中耳

中耳は鼓膜の振動を内耳の前庭窓に伝える役割を担います。その中空を鼓室といいますが、そこには3つの耳小骨があって、空気の「大きな振幅・小さな圧」を体内の「小さな振幅・大きな圧」へ変換する「てこ」の役割を担っています。すなわちここでは、空気と水のインピーダンス*1整合が行われています(ちなみに、水中に生活する生物の場合は「水の振動」→「体(水と同じ)の振動」で音が伝わるため、この仕組みは不要です。したがって魚やイルカなどでは、内耳が直接頭部に埋ったような状態になっています)。

内耳

内耳は三半規管・前庭・蝸牛で構成されますが、聴覚に関係するのは蝸牛で、その螺旋状の管を2分する基底膜と呼ばれる膜の上に音の感覚細胞が配列されています。直線的な配列です。ベケシー(1943)の観察によれば、鼓膜から伝達されてくる振動は蝸牛内で進行波をなし、この進行波は周波数の高い音では蝸牛の入り口に近いところ、低い音では奥のほうでその振幅が最大になるといいます。この基底膜のふるまいによって、私たちは入力された音の高低を感じ取っているということになります。

さて、その基底膜上には音の感覚受容器であるコルチ器官がのっているのですが、それを構成する有毛細胞は、ゆれによって電位を発生し、それが聴神経(第1次ニューロン)に伝達され、あとは2次、3次とシナプスを介して中継されて4次で大脳皮質の聴覚領に至ります。

1次ニューロンは基底膜上のいずれかの位置の興奮を伝達しており、その位置によって、各ニューロンは特徴周波数(最大感度を示す周波数)をもつことになりますが、その上位では多数の入力に対して1つの出力というかたちで神経回路網をなしていきます。興奮は単純に聴覚領へ上向するだけでなく、遠心性(上から下ってくる)のニューロンのフィードバックが干渉するなどして、複雑な機能が実現されていることになり、この回路網全体でおこっている興奮の空間的・時間的パターンが、我々の音の聴こえ方を決定づけています。

最終的には、大脳皮質の側頭葉にある聴覚領が情報処理をおこなっており、ここは音の感覚という単純なレベルの問題ではなく、空間や時間の知覚に関わる高度な情報処理機能を実現しています。




可聴周波数 / 可聴域 / 弁別閾

可聴周波数

人の音波に対する可聴周波数範囲は、ほぼ 20Hz から 20,000Hz で、音楽の話で言うと10オクターブ(1,000倍 ≒ 2の10乗)に相当します。内耳の特性に限って言えば 100kHz程度までは感じるらしいのですが、伝達系である中耳の限界で上限が決まります。これは構造・サイズの異なる聴覚器をもつ生物では異なるもので、例えば犬は上限が 50kHzとなります(調教用の犬笛はこの帯域を利用しています。人間にはかすれた音にしか聴こえません)。

最小可聴限

最小可聴音圧(P0 と表記します)は、最も感度の高い 3〜4kHz 付近での値で、
2x10-5 pa = 20×10−6 Pa = 20 µPa(マイクロパスカル)
とされています。 

最小可聴域が 20 μPa に対して、耳が痛くなって耐えられなくなる音圧、すなわち最大可聴域(痛覚域)は、20 Pa 程度。この差は 100万倍(120dBに相当)になります。


弁別閾

音の高さ(周波数)や強さ(音圧)の差をどの程度まで細かく区別できるか(弁別能力)については、この分解能を示す値を弁別閾(difference threshold)といという値が用いられます。

一般に「弁別閾の値は刺激のレベルに比例する(弁別閾/刺激量=定数)」というウェーバーの法則があてはまります。ここで定数とは、感覚の種類によって異なるものでウェーバー比とも呼ばれます。この法則は刺激のレベルがある程度以上大きくないと成立しませんが、周波数、強さ、音の持続時間などあらゆる感覚刺激についてあてはまります。




聴野

視覚には視野というものが存在し、自分の位置を中心とした世界の一部の情報が読み取られていますが、聴覚の場合、基本的にはすべての方向の音が耳にはいっており、その点が視覚と大きく異なっています。耳は開閉しないので、常に(時間的にも)あらゆる方向からの(空間的にも)情報に対して「待ち受け」の状態にあります。「呼びかけ」や「警告」、「目覚まし」が視覚ではなく聴覚に訴えるのはそのためです。

もちろん、外耳の構造から言っても後方よりは前方に対して感度が高くなることは言うまでもなく、また耳が2つあることから音源の方向をある程度特定する能力があるわけで、私たちの聴覚は完全なる無指向性ではありません。




音の心理

視覚心理の分野では「色彩」がもたらす様々な心理的効果が知られていますが、聴覚の領域でそれに相当する音程や音色についても同様の心理的効果が考えられるのでしょうか。空間を基軸とする色彩と時間を基軸とする音とでは何を何に対応づけるかということ自体が難しい問題なのですが、可能な範囲で考察してみたいと思います。

音の三属性

音には三つの属性があり、それぞれ音の強さ・高さ・音色といいます。「強さ」は振動の振幅の大きさ、「高さ」は振動の基本周波数、そして「音色」は主に波形(あるいはスペクトル分布)としてとらえることができるものです。

音嗜好

色彩の場合は、波長の違いである色相に対して各々の文化的背景も絡めた嗜好が見られますが、音の場合は波長の違いとしての音程(大半の人には相対的なもの)に嗜好があるとは考えられません。つまり「私はレの音よりソの音が好き」とか「高い音が好き」とかいった嗜好があるとは考えられません。

それよりも音色(これは倍音の構成比の問題で視覚の領域では「色の濁りぐあい・色調」とでもいうべきもの)のほうが明確で、「ピアノの音が好き」とか「歪んだギターの音が好き」とかいった話はありえます。しかし、これも個人的なものであったり、その時の状況に応じて変化したりするもので、一般的な傾向があるとは考えにくい。あえて言えば「爪で黒板を引っ掻く音」のような高周波を多く含む非楽音については、大半の人が不快に感じるという点で一致しているぐらいでしょうか。

感情効果

音程や音色が感情と結びつくかというと、これも嗜好の問題と同様で、音程よりも音色のほうがその関係は緊密です。「ファットな音/やせた音」「メロウな音/ブライトな音」などいずれも音色に関する言葉で、倍音の含まれかたや時間経過パターンが聴く者の感情と無関係ではないことがわかります。音楽情報の場合は、リズム・メロディー・和声が強く感情と結びついており、したがって楽曲の主旋律を行く楽器(音色)が適切に選択された場合、その伝えは最も効果的になります。

誘耳性

色彩の心理では誘目性という言葉がありますが、誘耳性という言葉はありません。ただ、明らかに「全体の中で目立つ音」というのは存在します。例えば声に関して言えば、大衆の中で「よく通る声」や「マイクにのりやすい声」が存在するし、音楽の演奏の場合にも、主旋律を演奏するのに向いている楽器というのがあって、バイオリン・ギター・サキソフォンなど、「目立つ音」は、いずれも「高い音程域で豊かな倍音を含む」という特徴をもっています。

音程の調和

これは視覚でいう色調和の問題で、一般には耳に心地よく響く音程の組み合わせ、すなわち「和声」の問題になります。和声というものは、実は物理的に簡単に説明できるもので、例えば最もよく用いられる3度の和声は、その周波数比が 4 対 5、あるいはトライアド(3和音)の機軸である5度の音程は周波数比 2 対 3 というぐあいに、周波数が簡単な整数比で表わされる複数の音は、物理的に馴染みやすくなります*2。これは例えばド(1度)の3倍音がソ(5度)の2倍音と等しいというふうに、それぞれの音の整数次倍音が共鳴するためです。このような物理的整合性の理由から、主要な3和音や4和音は、原則として3度間隔の積み重ねで成立し、逆にそれ以外の音程の組み合わせを用いると、不協和で緊張感のある和音となるのです。



錯聴

視覚に「錯視」があるのと同様、聴覚にも「錯聴(auditory illusion)」という現象がみられます。高い音が低く聞こえる、右の音が左に聞こえる、同じ音に対する聞こえが変化する、実際には鳴っていない音が聞こえるなど、様々です。我々の聴覚は、聞きたい音を効率よく聞き取るための巧妙なしくみを持っていて、結果的にこの仕組みが様々な錯聴をもたらすとも言えます。音は耳だけで聞いているわけではなく、脳における情報処理が大きく影響しています。左右2つの音源だけで、現場の臨場感が作り出せるのもある意味では、耳の錯覚を利用したものと言えます。

音の識別

音の種類について、それらを区別し言葉で言い当てる能力を識別能力といいますが、「人」の聴覚には絶対音の識別、音声の識別、話者の識別、和音・音程の識別など、様々な能力があります。私たちは通常こうした能力をあたりまえのものと感じていますが、その大半が生後の学習により修得されるものであることを考えると、開発の可能性のある能力として、非常に興味ある問題を提供してくれます。

絶対音の識別

まず絶対音感ですが、これはある音を単独で聴いてその音名を言い当てるという能力で、周波数分析器などの機械にとっては簡単なことですが、「人」の聴覚の場合には、臨界期の間(8歳ごろまで)に適切な訓練を受けた者のみが持ちうる能力です。音楽に携わる者にとっては有利な面も多いのですが、逆に「どんな音を聴いてもいちいち音名が浮かんでしまう、中途半端な音程だと不快に感じてしまう、音楽が純粋に楽しめない」といったマイナスの面もあり、その能力を修得させるべきかどうかについては音楽関係者の間でも賛否両論あります。

音声の識別

音声の識別能力は、我々が皆持っているもので、「ア・イ・ウ‥」という音節を聴き分ける能力、言語によるコミュニケーションを成立させる基盤となる能力です。これもやはり後天的な(臨界期はもちろんある)もので、日本で生まれ育った者には日本語の音節(約百種)を聴き分ける能力、英語圏で生まれ育てば英語の音節(3千種以上)を聴き分ける能力が身についています(脳の聴覚領に組織化されています)。音声識別の手がかりとなるのは、音節の短い時間内でのスペクトルパターンとその時間経過パターンという2つの物理的パラメータで、例えば母音を特徴づけるホルマントというものも、すでに述べた通り、音を構成する周波数成分の問題です。

さらに言えば、この場合最も重要なのは「ア」の物理パラメータというより、「ア」と「イ」の物理パラメータの「関係」であす。私たちは「ア」の音だけを聴いて「ア」の識別能力を修得したのではなく、日本語のあらゆる音節を聴くなかで「ア」の立場を覚えたのです。したがって機械に音声識別をさせる場合も、単に入力音に関する物理パラメータのボトムアップのみでなく、音節のデータベースからのトップダウンを用いることで、識別はよりスムーズなものになります。

日本語の5母音のフォルマント、すなわち音を特徴付ける周波数成分は以下のとおりです。参考:GoogleImage:母音 フォルマント

第1フォルマント第2フォルマント第3フォルマント
700Hz1,200Hz2,900Hz
300Hz2,700Hz
390Hz1,200Hz2,500Hz
450Hz1,750Hz2,750Hz
460Hz880Hz2,800Hz

(単位 Hz)


話者の識別

また話者の識別についてですが、これは声の質に関する識別で、子供の声・大人の声・男声・女声・誰々の声などと聴き分ける能力です。楽器の種類を識別する能力も同様で、やはり学習によって修得される能力です。

和音や音程などの識別は、音楽的な訓練をある程度受ければ比較的簡単に持つことのできる能力です。これは絶対音感のように周波数に相当する物理的絶対値を言い当てるものではなく、あくまで音の高さの相対的な関係を問題とします。その修得訓練は臨界期以降でも遅くはなく、また能力の修得がマイナスに作用することもありません。



言葉・メロディーの認知

音を識別するというレベルの問題に加えて、その情報内容を読み取って記憶するというレベルの問題にも簡単に触れておきましょう。

まず、言葉の認知ついてですが、それも知覚の問題である以上、重要なのは言語要素間の関係・構造です。言葉を介したコミュニケーションでは、同じ内容を「話し手を変えて・大きな・高い声で・ゆっくり話す」というように変化させても、伝わる内容には(美的な側面を除けば)変化はありません。私たちが「言葉」を思い浮かべるという場合も、確かに音が付随するのですが、その際それが「常に誰某の声で思い浮かぶ」というような具体性はありません。これは視覚の場合で言うと、読んだ内容は覚えているが文字がどんな書体であったかは覚えていないということと同じです。言葉は美的な表現の場合を除いて、常に音そのものの具体的な側面を欠く音列のパターンとして読み取られているのです。

メロディーの場合も同様に構造をもったものであり、我々のメロディー認知にはそのかたち(ゲシュタルト)が重要です。すなわち、音の刺激情報について重要なのは、各音の音程関係とその時系列パターンであり、音の絶対的周波数ではありません。したがって言葉の場合同様、メロディーの再生の際に「楽器を変えて・音量を変えて・移調して・テンポを変えて」という操作をしても、我々はそのメロディーを同一のものとして認知することができるのです。アレンジに大幅な変更を加えても、その中から主旋律を聴き分け、メロディーを認知し、曲名を言い当てることができるというのは、「人」の聴覚の能力の強みです。



APPENDIX

参考書籍 等

関連リンク

PAGES

GUIDE

TOOL

DATA


*1 正弦波状に変化する入力量に対する正弦波状に変化する出力量の比のことで、簡単に言うと「抵抗」。
*2 ただし現代の楽器で主流の平均律ではこの比は完全ではありません
Last-modified: 2022-11-14 (月) 17:08:03