聴覚の心理
聴覚が捉える音は、自然環境のものと社会環境のものとに分類できるといわれます。前者は自然界や異種の生物を情報源とする音で、障害物や餌、外敵に関わるものであり、後者は同種の生物同士でのコミュニケーションに関わる音です。もちろんここでの関心事は、コミュニケーションに関わる音の方であり、聴覚に関する心理学的基礎をふまえながら、人間が音声や音楽といった情報をどのように処理しているのかを考えてみたいと思います。
ページ内目次
耳の構造
「人」の聴覚の受容器は、外耳・中耳・内耳の3つで構成されますが、外耳と中耳は音響振動の伝達を、内耳は感覚細胞をもち、刺激による興奮を起こします。
図の出典:File:Anatomy of the Human Ear ja.svg
外耳
まず外耳ですが、これは耳介・耳殻・外耳道からなり、外耳道の終端には鼓膜があって、これが空気中の粗密波を最初に体内へ伝える役割を担います。耳介が 3kHz付近、耳殻が 5kHz 付近、外耳道が 2.5kHz 付近にそれぞれ共振点をもち、これと頭全体や胸・肩等の共振もわずかに関与して、鼓膜の付近では 2〜6kHz の帯域で約10dBほど音圧が上がっているといわれています。この帯域はすなわち人の音声の、音素識別や話者識別にもっとも重要な領域であり、これは「同種間のコミュニケーションに対する優位性」を物語っています。
中耳
中耳は鼓膜の振動を内耳の前庭窓に伝える役割を担います。その中空を鼓室といいますが、そこには3つの耳小骨があって、空気の「大きな振幅・小さな圧」を体内の「小さな振幅・大きな圧」へ変換する「てこ」の役割を担っています。すなわちここでは、空気と水のインピーダンス*1整合が行われています(ちなみに、水中に生活する生物の場合は「水の振動」→「体(水と同じ)の振動」で音が伝わるため、この仕組みは不要です。したがって魚やイルカなどでは、内耳が直接頭部に埋ったような状態になっています)。
内耳
内耳は三半規管・前庭・蝸牛で構成されますが、聴覚に関係するのは蝸牛で、その螺旋状の管を2分する基底膜と呼ばれる膜の上に音の感覚細胞が配列されています。直線的な配列です。ベケシー(1943)の観察によれば、鼓膜から伝達されてくる振動は蝸牛内で進行波をなし、この進行波は周波数の高い音では蝸牛の入り口に近いところ、低い音では奥のほうでその振幅が最大になるといいます。この基底膜のふるまいによって、私たちは入力された音の高低を感じ取っているということになります。
さて、その基底膜上には音の感覚受容器であるコルチ器官がのっているのですが、それを構成する有毛細胞は、ゆれによって電位を発生し、それが聴神経(第1次ニューロン)に伝達され、あとは2次、3次とシナプスを介して中継されて4次で大脳皮質の聴覚領に至ります。
1次ニューロンは基底膜上のいずれかの位置の興奮を伝達しており、その位置によって、各ニューロンは特徴周波数(最大感度を示す周波数)をもつことになりますが、その上位では多数の入力に対して1つの出力というかたちで神経回路網をなしていきます。興奮は単純に聴覚領へ上向するだけでなく、遠心性(上から下ってくる)のニューロンのフィードバックが干渉するなどして、複雑な機能が実現されていることになり、この回路網全体でおこっている興奮の空間的・時間的パターンが、我々の音の聴こえ方を決定づけています。
最終的には、大脳皮質の側頭葉にある聴覚領が情報処理をおこなっており、ここは音の感覚という単純なレベルの問題ではなく、空間や時間の知覚に関わる高度な情報処理機能を実現しています。
- MEMO:耳介について
耳介は正面向きに優位な形状をしており、そのために、音の聴こえ方(周波数特性)は方向によって変化します。人間はこれを利用して、音が前方から聴こえているか後方から聴こえているかを知ることができます。ちなみに、左右に関しては、両耳が捉える音量の差や位相差がヒントになっています。
- MEMO:気導音と骨導音
空気の振動として伝わる音を気導音、物体の振動として直接骨を伝わる音を骨導音といいます。インナーイヤ型のヘッドホンなどでは、低域が骨導音として伝わるために、小さな幕面にも関わらず、低域から高域まで、バランス良く伝わります。ちなみに、蛇は骨導音で周囲の音をとらえています。
- MEMO:超音波を利用する生物
コウモリやイルカなどの生物では、自らの発する超音波の反射音の時間遅れパターンを情報として利用していて、かなりの精度で空間把握ができるといわれます。例えばコウモリは1㎜の針金を2mの距離で認知できます。
可聴周波数 / 可聴域 / 弁別閾
可聴周波数
人の音波に対する可聴周波数範囲は、ほぼ 20Hz から 20,000Hz で、音楽の話で言うと10オクターブ(1,000倍 ≒ 2の10乗)に相当します。内耳の特性に限って言えば 100kHz程度までは感じるらしいのですが、伝達系である中耳の限界で上限が決まります。これは構造・サイズの異なる聴覚器をもつ生物では異なるもので、例えば犬は上限が 50kHzとなります(調教用の犬笛はこの帯域を利用しています。人間にはかすれた音にしか聴こえません)。
- MEMO:波長 = 音速 / 周波数
- 音速:331.45m/s
- 可聴範囲の周波数は、波長に置き換えると、約17mm - 17m
- MEMO:聴覚の限界 > 10オクターブ
ピアノは88の鍵盤を持ちますが、これは、88÷12=7オクターブ強です。「鍵盤を増やせば表現の幅が広がる」ようにも思えますが、10オクターブを超える拡張は(可聴周波数を超えるので)意味が無いということになります。
参考:GoogleImage:楽器 音域
- MEMO:超高周波
聴覚が捉えているのは20kHzまでですが、皮膚はそれを超える高周波を聞いている(感覚として捉えている)ようです。超高周波を含む音楽と含まない音楽には感覚的な差異があって、前者の方がより心地よく感じる・・。川のせせらぎ、雨の音、鳥の声、生楽器の演奏など、自然な空気の振動は超高周波を含むのが普通ですが、一般的なマイク、スピーカー、またデジタルサンプリングなど、音を機械的に再現するシステムは可聴範囲の音を扱うことを前提にできているので、それらは伝わりません。「肌にも感じる生の音」と「耳を対象として機械的に再現された音」は違って当然と言えます。
参考:Google:皮膚 超高周波 Google:超高周波 ホーミー
最小可聴限
最小可聴音圧 P0 は、最も感度の高い 3〜4kHz 付近での値で、
2x10-5 pa = 20×10−6 Pa = 20 µPa(マイクロパスカル)
とされています。
最小可聴域が 20 μPa に対して、耳が痛くなって耐えられなくなる音圧、すなわち最大可聴域(痛覚域)は、20 Pa 程度。この差は 100万倍(120dBに相当)になります。
参考:最小可聴値(MAP)
弁別閾
音の高さ(周波数)や強さ(音圧)の差をどの程度まで細かく区別できるか(弁別能力)については、この分解能を示す値を弁別閾(difference threshold)といという値が用いられます。
一般に「弁別閾の値は刺激のレベルに比例する(弁別閾/刺激量=定数)」というウェーバーの法則があてはまります。ここで定数とは、感覚の種類によって異なるものでウェーバー比とも呼ばれます。この法則は刺激のレベルがある程度以上大きくないと成立しませんが、周波数、強さ、音の持続時間などあらゆる感覚刺激についてあてはまります。
マスキング現象
妨害音によって最小可聴値が上昇する(要するに聴こえなくなる)現象をマスキングといいます。一般に「妨害音のレベルが上がればマスキング量は増える」、「マスキング量は妨害音の周波数に接近するほど大きくなる」、「低音は高音をマスクするが高音は低音をマスクしない」などのことがわかっています。
聴覚野
視覚には視野というものが存在し、自分の位置を中心とした世界の一部の情報が読み取られていますが、聴覚の場合、基本的にはすべての方向の音が耳にはいっており、その点が視覚と大きく異なっています。耳は開閉しないので、常に(時間的にも)あらゆる方向からの(空間的にも)情報に対して「待ち受け」の状態にあります。「呼びかけ」や「警告」、「目覚まし」が視覚ではなく聴覚に訴えるのはそのためです。
もちろん、外耳の構造から言っても後方よりは前方に対して感度が高くなることは言うまでもなく、また耳が2つあることから音源の方向をある程度特定する能力があるわけで、私たちの聴覚は完全なる無指向性ではありません。
音の心理
視覚心理の分野では色彩がもたらす様々な心理的効果が知られていますが、聴覚の領域でそれに相当する音程や音色についても同様の心理的効果が考えられるのでしょうか。空間を基軸とする色彩と時間を基軸とする音とでは何を何に対応づけるかということ自体が難しい問題なのですが、可能な範囲で考察してみたいと思います。
音の三属性
音には三つの属性があり、それぞれ音の強さ・高さ・音色といいます。
> Sound
> Sound/Waveform
音嗜好
色彩の場合は、波長の違いである色相に対して各々の文化的背景も絡めた嗜好が見られますが、音の場合は波長の違いとしての音程(大半の人には相対的なもの)に嗜好があるとは考えられません。つまり「私はレの音よりソの音が好き」とか「高い音が好き」とかいった嗜好があるとは考えられません。それよりも音色(これは倍音の構成比の問題で視覚の領域では「色の濁りぐあい・色調」とでもいうべきもの)のほうが明確で、「ピアノの音が好き」とか「歪んだギターの音が好き」とかいった話はありえます。しかし、これは個人的なものであったり、その時の状況に応じて変化したりするもので、一般的な傾向があるとは思えません。あえて言えば「爪で黒板を引っ掻く音」のような高周波を多く含む非楽音については、大半の人が「不快である」という点で一致しているぐらいでしょう。
感情効果
音程や音色が感情と結びつくかというと、これも嗜好の問題と同様で、音程よりも音色のほうがその関係は緊密です。「ファットな音/やせた音」「メロウな音/ブライトな音」などいずれも音色に関する言葉で、倍音の含まれかたや時間経過パターンが聴く者の感情と無関係ではないことがわかります。音楽情報の場合は、リズム・メロディー・和声が強く感情と結びついており、したがって楽曲の主旋律を行く楽器(音色)が適切に選択された場合、その伝えは最も効果的になります。
誘耳性
色彩の心理では誘目性という言葉がありますが、誘耳性という言葉はありません。ただ、明らかに「全体の中で目立つ音」というのは存在します。例えば声に関して言えば、大衆の中で「よく通る声」や「マイクにのりやすい声」が存在するし、音楽の演奏の場合にも、主旋律を演奏するのに向いている楽器というのがあって、バイオリン・ギター・サキソフォンなど、いずれも「高い音程域で豊かな倍音を含む」という特徴をもっています。
音程の調和
これは視覚でいう色調和の問題で、一般には耳に心地よく響く音程の組み合わせ、すなわち「和声」の問題になります。和声というものは、実は物理的に簡単に説明できるもので、例えば最もよく用いられる3度の和声は、その周波数比が4対5、あるいはトライアド(3和音)の機軸である5度の音程は周波数比2対3というように、周波数が簡単な整数比で表わされる複数の音は馴染みやすくなります(ただし現在主流の平均律ではこの比は完全ではありません)。これは例えばド(1度)の3倍音がソ(5度)の2倍音と等しいというふうに、それぞれの音の整数次倍音が共鳴するためです。このような物理的整合性の理由から、主要な3和音や4和音は、原則として3度間隔の積み重ねで成立し、逆にそれ以外の音程の組み合わせを用いると、不協和で緊張感のある和音となるのです。
錯聴
視覚に「錯視」があるのと同様、聴覚にも「錯聴(auditory illusion)」という現象がみられます。高い音が低く聞こえる、右の音が左に聞こえる、同じ音に対する聞こえが変化する、実際には鳴っていない音が聞こえるなど、様々です。我々の聴覚は、聞きたい音を効率よく聞き取るための巧妙なしくみを持っていて、結果的にこの仕組みが様々な錯聴をもたらすとも言えます。音は耳だけで聞いているわけではなく、脳における情報処理が大きく影響しています。左右2つの音源だけで、現場の臨場感が作り出せるのもある意味では、耳の錯覚を利用したものと言えます。
錯語
視覚には錯覚という現象がありますが、聴覚の場合は錯語ということが起こります。これは音節の識別に混乱が生じた場合と、聴き手のトップダウンの作用で日頃使い慣れた音節列として聴いてしまう場合がありますが、一般的に「耳慣れない単語」というものは何度も聴き返さないと正確に音節を拾いきれないものです。
音の識別
音の種類について、それらを区別し言葉で言い当てる能力を識別能力といいますが、「人」の聴覚には絶対音の識別、音声の識別、話者の識別、和音・音程の識別など、様々な能力があります。私たちは通常こうした能力をあたりまえのものと感じていますが、その大半が生後の学習により修得されるものであることを考えると、開発の可能性のある能力として、非常に興味ある問題を提供してくれます。
絶対音の識別
まず絶対音感ですが、これはある音を単独で聴いてその音名を言い当てるという能力で、周波数分析器などの機械にとっては簡単なことですが、「人」の聴覚の場合には、臨界期の間(8歳ごろまで)に適切な訓練を受けた者のみが持ちうる能力です。音楽に携わる者にとっては有利な面も多いのですが、逆に「どんな音を聴いてもいちいち音名が浮かんでしまう、中途半端な音程だと不快に感じてしまう、音楽が純粋に楽しめない」といったマイナスの面もあり、その能力を修得させるべきかどうかについては音楽関係者の間でも賛否両論あります。
音声の識別
音声の識別能力は、我々が皆持っているもので、「ア・イ・ウ‥」という音節を聴き分ける能力、言語によるコミュニケーションを成立させる基盤となる能力です。これもやはり後天的な(臨界期はもちろんある)もので、日本で生まれ育った者には日本語の音節(約百種)を聴き分ける能力、英語圏で生まれ育てば英語の音節(3千種以上)を聴き分ける能力が身についています(脳の聴覚領に組織化されています)。音声識別の手がかりとなるのは、音節の短い時間内でのスペクトルパターンとその時間経過パターンという2つの物理的パラメータで、例えば母音を特徴づけるホルマントというものも、すでに述べた通り、音を構成する周波数成分の問題です。
さらに言えば、この場合最も重要なのは「ア」の物理パラメータというより、「ア」と「イ」の物理パラメータの「関係」であす。私たちは「ア」の音だけを聴いて「ア」の識別能力を修得したのではなく、日本語のあらゆる音節を聴くなかで「ア」の立場を覚えたのです。したがって機械に音声識別をさせる場合も、単に入力音に関する物理パラメータのボトムアップのみでなく、音節のデータベースからのトップダウンを用いることで、識別はよりスムーズなものになります。
日本語の5母音のフォルマント、すなわち音を特徴付ける周波数成分は以下のとおりです。参考:GoogleImage:母音 フォルマント
第1フォルマント | 第2フォルマント | 第3フォルマント | ||
ア | 700Hz | 1,200Hz | 2,900Hz | |
イ | 300Hz | ー | 2,700Hz | |
ウ | 390Hz | 1,200Hz | 2,500Hz | |
エ | 450Hz | 1,750Hz | 2,750Hz | |
オ | 460Hz | 880Hz | 2,800Hz |
(単位 Hz)
話者の識別
また話者の識別についてですが、これは声の質に関する識別で、子供の声・大人の声・男声・女声・誰々の声などと聴き分ける能力です。楽器の種類を識別する能力も同様で、やはり学習によって修得される能力です。
和音や音程などの識別は、音楽的な訓練をある程度受ければ比較的簡単に持つことのできる能力です。これは絶対音感のように周波数に相当する物理的絶対値を言い当てるものではなく、あくまで音の高さの相対的な関係を問題とします。その修得訓練は臨界期以降でも遅くはなく、また能力の修得がマイナスに作用することもありません。
言葉・メロディーの認知
音を識別するというレベルの問題に加えて、その情報内容を読み取って記憶するというレベルの問題にも簡単に触れておきましょう。
まず、言葉の認知ついてですが、それも知覚の問題である以上、重要なのは言語要素間の関係・構造です。言葉を介したコミュニケーションでは、同じ内容を「話し手を変えて・大きな・高い声で・ゆっくり話す」というように変化させても、伝わる内容には(美的な側面を除けば)変化はありません。私たちが「言葉」を思い浮かべるという場合も、確かに音が付随するのですが、その際それが「常に誰某の声で思い浮かぶ」というような具体性はありません。これは視覚の場合で言うと、読んだ内容は覚えているが文字がどんな書体であったかは覚えていないということと同じです。言葉は美的な表現の場合を除いて、常に音そのものの具体的な側面を欠く音列のパターンとして読み取られているのです。
メロディーの場合も同様に構造をもったものであり、我々のメロディー認知にはそのかたち(ゲシュタルト)が重要です。すなわち、音の刺激情報について重要なのは、各音の音程関係とその時系列パターンであり、音の絶対的周波数ではありません。したがって言葉の場合同様、メロディーの再生の際に「楽器を変えて・音量を変えて・移調して・テンポを変えて」という操作をしても、我々はそのメロディーを同一のものとして認知することができるのです。アレンジに大幅な変更を加えても、その中から主旋律を聴き分け、メロディーを認知し、曲名を言い当てることができるというのは、「人」の聴覚の能力の強みです。
聴覚のフレーム・オブ・リファレンス
フレーム・オブ・リファレンス(frame of reference)という言葉があります。日本語では「参照枠」あるいは「関係づけの枠」などと訳されますが、これは我々の視聴覚情報の認知を理解する上で重要な概念です。すでに述べたとおり、人は言葉にせよ音楽にせよ、その音そのものを直接処理するというより、それらをある観点から自分の知識ベースへ位置づけるかたちで認知します。その際に有効になっている意識の構えなり知識ベースの構造なりが、フレーム・オブ・リファレンスに相当します。聴覚に関するフレーム・オブ・リファレンスは、物音・言葉・音楽とあらゆる情報の認知において機能するもので、逆にこれが十分に機能しないような状況では、我々の聴覚は情報の読み取りに失敗したり、あるいはストレスを感じたりします。
物音のフレーム・オブ・リファレンス
まず物音の場合は、人の頭の中の言葉の辞書がフレーム・オブ・リファレンスとなります。これはいわゆる「カテゴリー態度」という人特有の態度すなわち、すべての刺激情報に対してそれをカテゴライズし言語的に了解しようとする態度に由来するもので、耳に入る物音は無意識のうちに「○○の音」と了解されています。逆に名付け得ぬ音に対しては、「何の音?」「誰の声?」と緊張が生じ、通常とは異なるボトムアップに集中する聴覚態度が生じることになります。
言葉のフレーム・オブ・リファレンス
次に言葉に関して言えば、頭の中の「単語辞書と文法構造」や「聴き慣れた表現構造」というものがフレーム・オブ・リファレンスとなります。「単語辞書と文法構造」は、人にとってはあらゆる情報処理の基底に位置するものであり、そこに位置付けられない言葉は一般的なコミュニケーションを成立させません(それはいわゆる「詩的な表現」の部類に入ります)。また、「聴き慣れた表現構造」ということに関して言えば、例えば「日常会話での言葉使い」や「小説の文体」といったものがそれにあたります。初めて読む作家の小説に、はじめのうちは読み辛さを感じるのもそのためです。ほとんどの場合、それを読み続けていると、作家の言い回しや文章運びのテンポのようなものが、読む人の認知的なフレームを形成し、以後それが参照枠となることでスムーズな読み取りが可能になります。慣れ親しんだフレームが有効に機能すれば、我々は情報の読み取りを失敗なくスムーズに行うことができるのです。
聴き慣れない表現構造が、情報の読み取り能力を下げる例を示しましょう。
ジュウ、キュウ、ハチ、シチ、ナナ、ロク、ゴ、ヨン、サン、ニイ、イチ
指を折って数えると11あります。数を降順に数えることに慣れていない我々の聴覚は、この間違い(7がダブっていること)に気付きにくいのです。
音楽のフレーム・オブ・リファレンス
さて、最後に音楽についてですが、音楽の場合、曲の鳴りはじめのフレーズから了解されるその曲のキーとスケール(音階のセット)が、その曲を聴いている間のフレーム・オブ・リファレンスとなります。ただしこの場合、キーやスケールは言語的にハ長調とかイ短調などと了解されるわけではありません(もちろん絶対音感のある人は別ですが)。そして一般にはキーはその音楽が鳴っている間は有効ですが、曲が鳴り止むと消滅する性質のもので、例えば数分後に同じ曲を口ずさもうとしても、メロディー(ゲシュタルト)は思い出せてもキーは正確ではなくなります。またスケールに関して言えば、我々は一般的な西洋音階に慣れているため、西洋音楽に関しては曲を聴いている間は長調や短調といったフレームが有効になって、音楽の聴き取りはスムーズになり、音の間違いに気付いたり、次にくるフレーズがある程度予測できたりしますが、聴き慣れない音階を用いた曲の場合は耳が慣れる(頭の中にスケールのフレーム・オブ・リファレンスができる)までは聴き取りがうまくいかず、例えば音がはずれても気付きにくいのです。とくに現代音楽などでクロマチックスケール(すべて半音間隔で12種類の音を使用するものでカテゴリー数が7±2を超えている)などが使用されると、そのメロディーはなかなか了解できないものとなります。当然記憶もできません。
このように、フレーム・オブ・リファレンスとは我々の音の聴き取りに際して重要な役割を果たしているのですが、言語のように長い時間をかけて成立したものもあれば、音楽のキー・スケールのように短時間で成立して一時的に機能するものもあり、そのふるまいは音情報の設計にとって忘れてはならないものといえます。
聴覚の人工現実
人工現実は一般に2つに分類され、一つは仮想現実(Virtual Reality)、もうひとつは遠隔臨場感覚あるいは遠隔現実(Tele Reality)と呼ばれます。
仮想現実は、アミューズメントや芸術の領域で話題となるもので、今ここに実際には存在しない架空の世界を出現させる技術が必要になります。音の仮想現実ではスピーカが主たる情報発生源になるのですが、視覚情報の場合のディスプレイとは異なり、今聴いている音が本当の音か、スピーカから出ている音かについての物理的な差異がほとんどない点で、それは比較的簡単に実現されます。よく観光地などで、スピーカからうぐいすの鳴き声が聴こえてくる場合がありますが、本物の声とだまされることもあります。これも「音源と情報源が同じ位置にある」という聴覚情報の性質によるもので、視覚情報の場合には不可能な話です。
遠隔現実は、ロボットを媒介として別の空間内へ臨場する技術を用いるものですが、具体的には人間が直接入れないような場所や危険な作業現場などにロボットを派遣し、あたかも自分がロボットになったかのごとく遠隔地からそれを操作するという場合がこれにあたります。音の遠隔現実ではヘッドホンが主たる音源となりますが、この場合はロボットの顔や耳にあたる部分の音響特性を人間のそれに近似させ、両耳に相当する位置にマイクを取り付ければ(バイノーラルヘッド)、十分な臨場感が得られることになります。ただしヘッドホンだけでは現実に存在する「体が感じる振動」が再現されないため、その点の違和感は残ります。
一般に聴覚世界の人工的構築は、視覚世界のそれと比べるとはるかに簡単で、その臨場感も現実と区別できないまでに近似させることが可能です。サウンドスケープという言葉がありますが、それは生の音に限らず、スピーカだけでも十分に音の景観を構築できるのです。
すべては、音源と情報源が同じところに位置し、生成されるものが物理的に同一の弾性波であるという聴覚情報の特性に由来します。視覚情報の場合でも、光源そのものが情報源(例えば星座やUFO)となっていれば、「スピーカのうぐいす」と同じように人を欺くことも可能でしょう。
超音波を利用する生物
コウモリやイルカなどの生物では、自らの発する超音波の反射音の時間遅れパターンを情報として利用していて、かなりの精度で空間把握ができるといわれます。例えばコウモリは1㎜の針金を2mの距離で認知できます。
臨界期
脳神経回路の基本的な組織化が完了するまでの重要な時期を臨界期といいます。人の脳は、4・5歳ごろまでにニューロンを最大に増やし、あとは必要な部分(脳が刺激を受けて組織化を行った部分)だけを残して捨てていく、という進化論的プロセスを踏みます。したがって、臨界期(脳機能ごとに異なるが、ほぼ8歳ごろまで)に刺激を受けなかった、あるいは訓練されなかった事柄に関しては、後からその処理能力を身につけようとしても間に合わないか、非常に努力を要することになります。幼少期の教育が大切なのもそのためです。
しかし、英才教育を受けなかったからといってあきらめてはいけません。人は臨界期以前に体験したことを(忘れてはいるが)それなりに身につけています。眠っている才能に気づくためにも、広い視野で自分の可能性を試してみるべきでしょう。