LogoMark.png

AudioAndVisual/SoundGeneration のバックアップ(No.1)


音・音楽の生成



人は自らに備わった音源(声帯)を利用して音声を発することができると同時に、機械的あるいは電気・電子的な手段で様々な音・音楽を生成することができます。

音声

人は声帯を振動源として(男声約110Hz〜・女声約220Hz〜)、また喉から唇までの声道を共鳴腔として、複雑な音声を構成して情報を発することができます。
声帯は声の基本周波数を決め、声道(特に口の開きぐあいと舌の位置)が共鳴の性質を決めます。例外として、ささやき声の場合は声帯は振動せず、空気の流れを雑音源として共鳴のみで音を作っています。そしてもちろんその情報の大半は、話し言葉としての言語情報です。

我々は通常、話し言葉を構成する音節を単独に生成・識別することができます。
つまり音韻的な音色についての絶対音感をもっているわけで、たとえば日本人の場合、約100種類の日本語の音節による音韻体系をもって、言語情報を生成処理しています。参考までに述べると中国では400 以上、英語だと3000 以上と言われます。

この話し言葉の単位音節の生成・識別には、特に母音のホルマント(Formant、音を特徴づける成分音)の存在が重要で、例えば「イ」の音では 300Hz と2000Hz、「エ」の音では500Hz と1700Hz の成分が特に強いというような特徴があります。歌声(Singing Voice)の場合も、この特徴成分の発振を保持すれば、音程とは無関係に「イ」・「エ」の発声ができるというしくみです。
 その意味では歌声は、一種の楽器として捉えた場合、音の出しかたの自由度が大きい、非常に可能性の大きい楽器であると言えます。

我々は、このような音韻体系を聴覚系の形成と並行して(遺伝的ではない)習得し、生後18ケ月ごろにはほぼその基礎的な生成・識別能力を獲得しています。




楽器

楽器(生楽器)は、弦振動や気柱管振動を利用して周期的な振動波を放射するものと、衝撃による自由振動波を放射するものとに分類されます。前者はいわゆる「楽音」として旋律や和声を形成するメロディー楽器群を意味し、後者は(振動に周期性がないため「音程」をもつことができない)「非楽音」を発生するリズム楽器群を意味します。

音にも色と同様に三属性があり、それぞれ音の大きさ・音程・音色といいます。
「大きさ」は、 物理的には振動の振幅の大きさであり、「音程」は振動の基本周波数のことです(例えば 440Hz は「ラ=A4」の音)。つまり、音が大きいほど波の揺れ幅が大きく、音程が高いほど、揺れの密度が細かいということです。
さて「音色」、つまり「ピアノ の音色」とか「バイオリンの音色」とか言う場合の音色ですが、これは時間軸上にグラフ化すれば「波形」として、周波数を軸としてグラフ化すれば、スペクトルパターンとして物理的に捉えることができるものです。

つまり、我々の耳が聴き分ける楽器の音色というものは、基本周波数とその倍音列(Overtone Series)*1の強度分布によって特徴づけられているのです。電子楽器がピアノに似た音やギターに似た音を生成する場合も、この倍音の分布パターンを様々な方法 でコントロールすることによってそれが実現されます。

以下、一般的な分類(管楽器・弦楽器・打楽器)にしたがって概説します*2

弦振動と打弦楽器・撥弦楽器・擦弦楽器

一般に弦の振動周波数は f = √(T/m)/(2L)で求まります。Tは張力、mは単位長さあたりの質量、L は長さです。この式の意味するところは、弦長 L が長く、また単位長さあたりの質量 m が大きい(つまり弦が太い)ほど周波数 f は低くなり、張力 T が大きいほど周波数 f が高くなるということです。身近な楽器であるギターをイメージすると理解 しやすいでしょう。弦が細いほど、弦を強く巻くほど音程は上がります。また、ギターの12フレット目は、弦の長さの半分の位置にあります。よって周波数は2倍、つまり音程が1オクターブ高くなります。

弦振動は、基本振動以外にもその2倍(中央に振動の節)、3倍(1/3のところに振動の節)‥といった倍音を含むことで様々な音色を作り出します。したがって弦楽器の音色は、振動の腹や節の位置に関わる「弦をはじく場所」や「弦に触れる場所」を変えることで様々に変化させることが可能です。

弦楽器はこのような弦振動により音を生成するのですが、弦そのものは表面積が小さい(すなわち放射抵抗が小さい)ため、直接大きな音を出すことはできません。そこで、この弦の振動を駒(ブリッジ)を介して共鳴板に伝え、この板を強制的に振動させることによって音を放射させます。
 いわゆるアコースティックな弦楽器では、この共鳴板が適当な容積をもつ箱に結合して、箱の中の空気をも共鳴させるかたちで音を放射しています。エレク トリックな弦楽器の場合は、弦と共鳴板(ソリッドボディが大半)の振動を、電磁形変換器やピエゾ抵抗変換器などで電気的な振動に変換して利用します。いずれの場合もボディの質量・形状・材質などがその音質に大きく影響します。

気柱管振動と管楽器

開管の共鳴周波数は、最も低いもの(基本周波数)が、 f = c /(2l) で、この整数倍の周波数の発振が可能です。c は音速、l は管長であり、管長が短いほど共鳴周波数は高くなります。(閉管の場合は f = c /(4l) で、この奇数倍の周波数が発振可能)。

管楽器の振動は、基本的には息を吹き込むという直流エネルギーの供給によって持続する振動で、これを自励振動といいます(自励振動は管楽器の他、バイオリンのような擦弦楽器にも見られます)。

管楽器はその大半が両端が解放された開管で、気柱の縦振動が音源となり、指孔や管端から音波を外部へ放射します。管の一端には直流のエネルギーを振動エネル ギーに変換するきっかけをつくるリード(Reed)が必要で、その種類によってエアリード楽器・ダブルリード楽器・シングルリード楽器・リップリード楽器 に分類されます(ちなみに、シングルリード楽器は閉管とほぼ同様で奇数倍音列の発振となります)。
 一般に、リップリードの楽器を金管楽器、その他を木管楽器といいます(金管と木管の区別は振動源によるもので、材質の違いではありません)。

剛体・膜の振動と打楽器

すべての「物」は力学的な衝撃を加えると振動し、音を出します。弦や管が発生する「楽音」以外のこの衝撃音はみな「非楽音」で、打楽器はこれを原理としています。一般に体鳴楽器と膜鳴楽器に分類されますが、前者の振動体は棒・板・塊、後者の振動体は膜です。それぞれ例えば、トライアングル・シンバル・鐘・カスタネット・ウッドブロック、ドラム・鼓などが、それに該当します。

この種の楽器が発生する「非楽音」は、周期性のない振動を基にしていて、音程は特定できず、スペクトルパターンも広範囲の連続的な分布かあるいは非整数倍の成分を多くもつ離散的な分布をなします。「楽音」のように整数次の倍音が並ぶものではないため、いわゆる和音も濁ったものになります。

特殊な楽器

電気楽器

楽器の作る振動を、ピックアップ等で電気信号として取り出し>処理>出力・・という仕組みを持つ楽器を「電気楽器」といいます。




電子楽器

テルミン

1919年にロシアの発明家レフ・セルゲーエヴィチ・テルミンが発明した世界初(?と言われる)の電子楽器です。2本のアンテナを利用し、空間中の手の位置によって音高と音量を調節して演奏します。僅かな静電容量の違いが反映するので、安定した演奏は難しく、一般的な音楽に利用されることは稀です。

シンセサイザー 

シンセサイザー(音を総合するという意味)は電子楽器の代表的存在で、音色を特徴付ける二つの要素、スペクトルパターンと時間経過パターンを制御することで、無限の音作りを可能にした楽器です。 音源として専用のICチップをもつものをハードウェア・シンセサイザー、特別なハードを持たず、音の波形データや、生成アルゴリズムから音を作り出すものをソフトウェア・シンセサイザーといいます。

音作りには、大きく「スペクトルパターン」と「時間経過パターン」という2つの特徴制御が必要です。以下それぞれ・・

音色は複数の倍音の分布構成(スペクトルパターン)によって特徴づけられるのですが、その生成には以下のようなものがあります。

 実際には、非整数次の倍音成分が音色を特徴付ける場合も多いため、より個性的な音作りをするには、わずかにチューニングを狂わせた倍音などを 合成する必要もあります。さらにドラムのような「非楽音」の場合は、連続スペクトル、すなわち「楽音」のように倍音が等間隔に並ぶ離散的スペクトルとは 異なる音色が必要で、その生成には発振音を変則的に変調するなどの工夫が必要です。
 一般に、発振器(Oscillator)・フィルタ(Filter)・増幅器(Amplifier)の3つのブロックがあって、発振器から出た様々な倍音を含む信号が、フィルタによって加工処理(一般的には通過制限)され、最後に増幅されて出力されるという流れになっています。

一方の「時間経過パターン」ですが、これは、音の鳴 り始めから鳴り終わりまでの音量(厳密には音程や音色も含む)の時間的な変化の問題です。音の立ち上がり、減衰の早さ、余韻の残り方などもその「音」を 特徴付ける重要な要素で、例えばピアノの音を真似ようとした場合、単に倍音構成を真似るだけでなく、特に音の立ち上がり部分の倍音構成の時間変化パターンを上手く真似ないと「ピアノらしい」音にはなりません。
 シンセサイザーの各ブロックには EG(Envelope Generator)による時間経過パターンの制御がかかります。例えば発振器にかかれば音程(Pitch)の時間変化、フィルタにかかれば波形(Wave Form)の時間変化、増幅器にかかれば音量(Amplitude)の時間変化というように音を制御できます(それぞれを PitchEG FilterEG AmplitudeEG といいます)。
 この EG は一般にADSR という四つの時間区分を用いるもので、A:Attack は立ち上がり 、D:Decay は減衰、S:Sustainは伸び、 R: Release は残響と、それぞれの設定によって、音程・波形・音量それぞれの時間経過パターンが制御されます。

さらにLFO(Low Frequency Oscillator)を各ブロックにあてることで、ヴィブラート、ワウ、トレモロに相当する効果をかけることも可能で、以上のすべての要素の総 合的な制御によって、あらゆる自然楽器のシミュレーションはもちろん、自然楽器では生成できない音も加工生成することが可能となるのです。

かつてアナログ回路しかなかった時代には、発振・フィルタリング・時間経過パターンの制御、いずれも技術的に制限があったため、音のバリエーションはそう多くはありませんでしたが、現在では原波形をサンプリングで得られることと、デジタル回路による演算加工の自由度の高さとが相まって、無限の音作りが可能になっています。

参考:ブラウザ上で扱えるシンセサイザー

補足:打楽器音の再現について
もともと周期的な振動をつくる発振回路からでは、楽音以外の音をうまくコントロールするのはむずかしいため、今日では、もっぱらサンプリング音源が利用されています。シンセサイザー等で一般のメロディー楽器とドラム音が別扱いとなる理由の一つもこの点にあります。

サンプラー

音声を録音(サンプリング)し、そのデータを利用する楽器です。いわゆるPCM音源をもつシンセサイザーは、プリセットされたサンプル音源を利用している点でその機能を含んでいると言えます。鍵盤その他のMIDIコントローラから演奏情報を受け、サンプルのピッチを変更するかたちで演奏する楽器です。

MIDI(Musical Instruments Digital Interface)

ここで補足的にMIDIにも触れておきましょう。MIDIは、シンセサイザーやPCなどのデジタル機器において音楽情報を交換するための規格(1983制定)で、これを用いると、タッチの強弱を含む発音のON/OFF・ベンド・音色切り替えなど、リアルタイムでの演奏制御が可能になります。MIDIのデータは、ステータスバイト(情報の種類)とデータバイト(内容)の二つをセットにした計2バイトが一単位で、通信速度 31,250bps で送受信されます。
 これによって、様々な電子楽器間での演奏情報のリアルタイム交換や、楽曲のデジタルファイル化などが可能になりました。楽器を直接演奏できない人にも、作曲や自動演奏を楽しむ機会が与えられることとなり、絵の苦手な人にとってのCGと同様、創作活動におけるハンディを解消するものとして、非常に意義のある存在です。その後、各種のメディアにおける演奏情報の統一の必要性が生じたことから、GM規格が制定(1991年)され、共通音源仕様(異なる機種でもほぼ同じ音色で演奏が再現される)が確立されています。
 さらに今日では、PCの処理速度の向上と音楽ソフトウエアの機能充実によって、MIDIデータ(楽譜データ)とサウンドデータ(直接的な音声波形データ)を統合して処理・演奏する環境が実現し、安価なパーソナルのDTM(Desk Top Music)機材だけでも、作曲からレコーディングまで可能になりました。伝える中身と伝え方の問題は別として、ただ単に市販品のかたちにできるかどうかというレベルでは、もはやプロとアマチュアの境界はなくなっています。

音響情報処理

アクティブノイズ制御

音で音を消す技術で、低減させたい騒音に対して別に用意した制御音源から逆位相の音を発生させることで、位相干渉を利用して消音する手法のことです。
 現在では、ダクト内の騒音制御やヘッドホンのノイズキャンセラー機能として利用されるています。

付記
アクティブノイズ制御と同じ「位相を反転して重ねる」という方法を用いると、ステレオサウンドのセンターつまり両チャンネルに同一に録音されたボーカルの音を除去することが可能です。




スピーカ

電気的な振動(交流電流)を物体の振動に変換し、最終的に空気の粗密波としての音を生成するには、スピーカ(電気音響変成器・継電器)が必要です。
 スピーカには、コイルをつけた振動板を磁場に置いて電流に応じた振動をつくるという動電型(ダイナミック型)と、電圧によって伸縮する圧電型とがあり、スピーカ・ヘッドホンの大部分は動電型、効率重視の携帯電話や薄さが必要になる壁掛けスピーカなどには圧電型が用いられています。動電型の場合、電気から音響へ、また音響から電気への相方向への変換が可能で、例えば動電型のスピーカはマイクロフォンとしても利用できます。スピーカを形状で分類すると、コーン型・ドーム型・ホーン型・リボン型などがあり、また再生帯域に関して分類すると、人間の可聴域(20Hz~20000Hz)を一つのスピーカーユニットでカバーする「フルレンジスピーカー」と、可聴域を帯域別に分けて、各帯域を専用に振動させる「スーパーウーファ(超低音用)」・「ウーファ(低音用)」・「スコーカ(中音用)」・「ツイータ(高音用)」などがあります。

再生のシステムには、モノラル・2元ステレオ(立体音響)・多元ステレオ(5.1チャンネルが主流)などがありますが、2元ステレオが最も一般的な方法です。2系統の音を2個のスピーカから出すというこの方法は「音場に立体感ができる」・「音源の移動が再現できる」などの理由で1950年代以降普及しはじめ、あらゆる音響機器もそれに伴なって2チャンネル(L⇔R)を基本とするようになりました。

音は聴覚がとらえ得る範囲の空気の振動です。この厳然たる事実がある以上、音を生成する楽器や音響機器の基本的な仕組みは変わりません。子どものころに作った糸電話を思い出してみましょう。基本に立ち返れば何か面白い発想も浮かんでくるのではないでしょうか。

補足:音再生と振動板について
音の最終的な出力に際して、アナログ信号で板を振動させるという方法は百年来変わっていなませんが、物の振動を空気の振動に変えるというのは、実は非常に変換効率が悪く(のれんに腕押しの状態)、音になるのは1%程度であると言われます。また特に小さな面積の振動板では、それを低い周波数で振動させても空気が回り込んで音にならないため、低い音を再生したければ大きな面積の振動板が必要になるのです(コントラバスのサイズが大きいのも同じ理由です)。

補足:可逆変換器について
動電型のスピーカは、そのままマイクとして使う事もできます。このような、どちらの向きにも変換できるものを可逆変換器といいます。