LogoMark.png

SoundRecording

音声・音楽の記録


ここでは、「メディアの耳」すなわち「マイクとピックアップ」の構造と機能について、入力システム(音響系)、処理システム(変換系)、記録システムと、大きく3つの枠組みで概説します。


CONTENTS




入力システム

視覚の世界のカメラに相当するものとして、聴覚の世界にはマイクロフォンとピックアップがあります。マイクロフォンは空気中の粗密波としての音をとらえるもの、ピックアップは空気以外の振動をとらえるものです。
ここでは、その構造と機能について概説します。

マイクロフォンの構造

マイクロフォンはスピーカと同様、基本的には電気音響変成器(可逆変換器)あるいは継電器(不可逆変換器)で、動電形・電磁形・静電形・圧電形・炭素形・半導体形 などがあります。特に動電形と静電形が一般的で、前者は電磁誘導すなわち、小さなマグネットのつくる磁界中で、電気導体である振動板が音波により振動する ことで起電力が生じることを利用するもので、後者はコンデンサの充放電電流を利用する、すなわち、導電性の振動板と固定極が向かい合ったコンデンサ様の構造に 直流電圧をかけておき、振動に応じた静電容量の変化から生じる充電・放電電流を得るというものです。それぞれダイナミックマイク、エレクトレットコンデンサマイクなどと呼ばれます。

また、かつての電話(黒電話)の送話器や放送用に使用された炭素形のカーボンマイクは、炭素粒の振動接触による抵抗値の変化を利用するもので、変換能率が非常によく(ただし不可逆)、イヤホン程度ならば増幅なしで直接音を再生できるという性能をもちます。

ピックアップの構造

ピックアップは、電流の変 化・磁界の変化・物体の動きなどを振動として拾う場合に利用されるもので、動電形・電磁形・半導体形などがあります。電磁気的な振動は「マグネットの芯のまわ りにコイルを巻く」という簡単な仕組で、電磁誘導による起電力を得ることができ、また物体の振動は、圧力をかけると抵抗値が変化するというピエゾ抵抗効果をもつ半導体(不可逆)を利用することで取り出すことができます。

ステレオ録音

さて、人間の聴覚が左右2つの耳から情報を入力するように、「メディアの聴覚」にも2つ (あるいはそれ以上)のマイクを用いる方法、すなわちステレオ(マルチ)録音の発想があります。セッティングの方法には、レベルや位相の差を考慮して、2 個 の単一指向性マイクを適当な間隔をあけて配置する「レベル・位相差方式」、2個の単一指向性マイクを一点に配置する「レベル方式」、多数のモノラルマイク の入力をそれぞれ適当に左右のチャンネルにふって、架空のステレオ音場をつくる「分岐方式」の3つの方式があります。2つ並べれば立体的に聴こえるという単純なものでもなく、特にマイクとマイクの距離を開ける(位相差を利用する)場合は、その距離には注意が必要です。

マイクロフォンの性能

マイクは音響を電気信号に変換する最初の砦であり、その良し悪しは後のすべての処理・記録に影響します。処理・記録系がどんなにすぐれてい ても、入力の段階で十分な素材が得られなければその先に限界を生じてしまうのです。
マイクの特性を表わす値には、感度・雑音・周波数特性・指向特性・最大無歪み音圧レベル・公称インピーダンス・共振周波数などがあります。

感度というのは聴覚で言う最小可聴値とは意味が異なり、1kHz・1μbar の平面波を正面から与えた場合に発生する電圧で、1Vを0dBとしたdB単位で表示します。通常-80dBから-45dB の間の値をとります。ただし、単に感度がよければよいというものではありません。適切な情報の記録には必要外の音を捨てるということも重要だからです。

雑音はそれ自体から発生するものを言い、音圧レベルに換算して表わします。これは当然小さな値であるほうが望ましいといえます。

周波数特性とは、周波数領域における感度分布の ことです。一般的には低中音域でバランスのとれた静電形が良く、次に動電形、その他ではいわゆる良質な録音は望めないと言われます。しかし、全体にバラン スが良いということが美的に良い音につながるとは限りません。「機械」であるマイクは、その構成のしかたで様々な帯域に対応するものが実現できるわけで、 録音する用途によって適切な帯域をもつマイクを選択するということの方がむしろが重要です。例えば、帯域の広い音楽の録音の場合は40Hz-15000Hz とほぼ可聴域全域が必要になりますが、音声の録音では100-8000Hz に重点を置くなど、必要のない帯域をカットすることがS/N比向上の点からも望ましいといえます。

指向特性とは、音源の方向と感度との関係を表すもので、無指向性・単一指向性・両指向性・ライン・放物面(パラボラ)集音な どの分類があります。無指向性は全方向について均等な感度分布をもつもの、単一指向性はマイクを向けた側の約180 度の範囲について感度が高いもの、といったぐあいで、最も指向性の強いパラボラ集音では前面20度以下で、前方の集音距離は無指向性マイクの3倍以上とな ります。

最大無歪み音圧レベルは、出力の高調波歪み率が1%以上になるときの入力音圧レベルです。人間の耳では鼓膜を破く危険があって測定できません、メ ディアの場合は「正常に機能する範囲」を示す値として測定できます。ダイナミックレンジという言葉もこれに近いもので「ノイズレベル(下限)から歪みが生 じ るレベル(上限)までの範囲」をいいます。インピーダンスとは、いわゆる交流抵抗(電圧/電流)であすが、これは機器間での接続の際に重要な値で、当然整合をとった接続にしなければ信号は回路をうまく流れません。

共振周波数は、物体としてのマイクの固有振動数で、マイク自身を叩いたときに発生する音の周波 数と考えるとよいでしょう。マイクやピックアップの「個性」を生むものであると同時に、バランスの良さを追及する場合にはやっかいな存在となります。

こうして見てく ると、マイクは「人」の聴覚とは異なり、ものによって様々な「個性」が存在するため、録音に際しては個々のマイクの特性をいかに適切に生かすかということが重要な問題となるでしょう。室内であれば残響の程度、屋外であれば風によるノイズの問題、テレビ・映画のロケではマイクの位置の制限など、状況に応じた 録音計画 が重要です。

補足になりますが、エレクトリックギターのピックアップなどは周波数特性のアンバランスさや歪み具合まで含めて楽器の個性を左右する重要な要素として位置付けられており、音を拾うというより音をつくるための要素と考えたほうがいいでしょう。分類上はたしかにピックアップであり、増幅処理を行う機器からみれば、その「聴覚」に相当するのですが、構造的にもギターの一部として音源に「寄生」している事実から、それは楽器の「声帯」として機能していると考えるべきでしょう。「メディアの耳」はその所属をかえることで「声帯」の一部にもなるということです。



変換・処理システム

A/D変換

マイクロフォンやピックアップからの入力は、その処理・記録がデジタルとなる場合はA/D変換が必要となります。俗にサンプラーと呼ばれる音声のデジタル化マシンは音楽の分野から登場しましたが、現行の大半のデジタル機器はアナログ音声入力端子を持ち、その内部でA/D変換(俗に言うキャプチャー)ができるのが一般的です。

音声のデジタル化では、原音波形をどこまで忠実に再現するか、その必要性に応じて標本化周波数と量子化数と呼ばれるパラメータを決める必要があります。

標本化(Sampling)

標本化定理(sampling theorem)によれば、標本化周波数は、信号に含まれる最高周波数の2倍以上必要です。「人」の聴覚は20,000Hz=20kHzまでの帯域をもつので、標本化周波数が40kHz以上あれば、耳には十分忠実に再現されているように聴こえる‥・ということになります。実際には 44.1kHz・22.05kHz・11.025kHzといったレートのものが一般的に採用されており、順にCD・AMラジオ放送・電話のクオリティーと考えるとよいでしょう。

量子化(Quantization)

量子化数は音の波形の振幅を何段階に分けるかに関わるもので、例えば量子化数16ビットであれば、音の強弱が216=65,536段階で表現されます。一般にCDでは16ビット、マルチメディアコンテンツでは16ビットや8ビットが採用されています。もちろん、さらにモノラルかステレオかという選択が必要で、ステレオであれば当然2倍の情報量となります。

音声認識

デジタル化された音声データから言葉を認識するには、単なる演算・分析とは異なる人工知能プロセスが不可欠で、単体デバイスにその機能を持たせるのは難しいことなのですが、近年では、ネットワークを介して音声をサーバー上で処理することが簡単になり、人工知能による音声認識が実用的なものとなりました。

音の記録

今日ある様々なメディアを見れば、音響は画像よりも簡単に扱えるような気がしますが、音響の記録は、実は画像の記録としての写真よりも歴史が浅いのです。蓄音機の発明者エジソン(1847-1931)も、彼が生まれたとき写真はすでに存在していました。映画についても始めはサイレント(無声映画)であり、いわゆるトーキーは1930年代から後のことです(トーキー第1作は、1927年アメリカ映画の『ジャズ・シンガー』)。音響は時間軸を基軸とする情報であるため、その記録再生にはリアルタイムで動作できる仕組が必要で、これはアナログにせよデジタルにせよ、高速で動作させるという技術の成熟を待たねばなりませんでした。

余談になりますが、歴史上の人物についても、写真よりも、肉声の記録の方が貴重です。我々はもともと、音声を記録するということを写真ほどには重視していないようです。

アナログの信号記録

アナログ記録の原理は文字通りアナロジカル(類似的)で、要するに空気の振動の様子を、それに似た形で、物理的・化学的・光学的・電磁気的状態に置き換えて記録します。ただ、動きを止めるわけにはいかないので、記録には必然的に回転する機構が必要となり、現に私たちが眼にするアナログ記録媒体(テープやレコード)はすべてそのようにできています。

具体的な媒体としては、(現在では一部の人にしか縁がありませんが)硬質塩化ビニルに機械的に溝を掘ったアナログレコード、映画のサウンドトラックに見られる光学録音の媒体となるフィルム、そして(これも現在では利用者が少なくなりましたが)強磁性材を塗ったテープに電気信号を磁気の変化として記録する磁気録音テープなどがある。磁気テープ媒体には、ノーマル・ハイ・メタルなどの一般的なポジション区分で呼ばれる、ガマヘマタイト系・クローム系・メタル系のものがあり、順に高域での特性がよくなります。

デジタルの信号記録

標本化・量子化によって数値データとなった音声は、0.1. に対応する2値状態で媒体に記録されます。デジタル音声情報を記録媒体は、1980年代にオーディオCD(Compact Disc)、MD(Mini Disk)・DAT(Digital Audio Tape)といった音楽情報の記録を主目的とした記録媒体としてこの世に登場しましたが、現在では、身近にあるデジタルデバイスの大半が、音声ファイルの記録メディアとして使えます。

CD以外は過去の話となりますが、音楽情報の記録が主目的である前3者について、概要を説明しておきましょう。

一方、汎用のメディアに記録される音声データについてですが、非圧縮型のものでは AU(UNIX)、WAVE(Microsoft/IBM)、AIFF(Apple)など、 また圧縮型のものでは、MP3(Fraunhofer/IIS)、 WMA(Microsoft)、ATRAC3(SONY)など、複数の形式があります。クォリティーについては、標本化周波数44.1kHz、量子化16ビットはもちろん、用途に応じて数段階の選択肢があります。



現代の聴覚

さて最後に、アナログとの決定的な違いとなる情報の質の問題に触れておきましょう。デジタル記録媒体における情報のクォリティーは、先に述べた標本化周波数・量子化数の値、および圧縮の方法とその程度によって一義的に決まるもので、記録される媒体の物理特性とは無関係です。したがって、媒体間での情報の交換や複製(著作権の問題を考慮して転送先や回数に制限がかかるものもある)を何回行っても、情報の質が落ちることはありません。この点は、音質が媒体に左右されたり、複製によって確実に音質が劣化したりするアナログ媒体とは大きく異なります。 

PCの画面で、音声ファイルを開いてみてください( 録音や編集のできるソフトで~.wav ファイルを開いて、部分を拡大するとわかりやすいでしょう)。「メディアの記憶」の中では、サウンドは、ただのギザギザの波として存在していることがわかります。意識や感情といったものとは当然無関係で、また「意味」を担うような分節が与えられることもありません。空気の弾性波を電気的に横波におきかえただけのギザギザです。

私たちは、言葉や音楽を聴くということに特に難しさを感じていませんが、この連続波形から、言葉の要素としての音や、特定の楽器の音、ましてや音楽の「美しさ」などというものを取り出すようなプログラムが記述できるでしょうか。人間の脳は、こんな状態のものを、様々なレベルの意味のあるかたちに体制化しながらそれを捉えているのです。人はなぜ音楽を聴くのか、そのまえに、そもそもこんなギザギザからなぜ言葉や音楽が聴こえてくるのか。メディアに記録された音の正体を見ると、そんな素朴な疑問も生まれてきます。



付記

位相差

波の1周期を360度として、揺れのタイミングのズレを角度で表したものを位相差と言います。例えば同じ振動数の2つの波が位相差180度で揺れていれば、一方が山の瞬間に他方は谷という関係になります。

位相差180度というのは、ステレオのスピーカの一方をプラス・マイナス逆につないでしまった場合が、それに相当します。この場合、2つのマイクを音源に対して半波長分離してステレオ録音したような、左右が分離した聴こえ方になります。

インピーダンス

振動は、つなげば伝わるというものではありません。例えば、空気と水では抵抗(インピーダンス)の違いがあるため、空気中の振動は、そのままでは水の中には伝わらず、通常は反射されてしまいます。音響機器の場合も同様で、各機器の入力と出力に明示された○○Ωの値が一致するようにつなぐ必要があります。

関連ハードウエア

PAGES

GUIDE

DATA

Last-modified: 2019-10-29 (火) 08:50:28