LogoMark.png

AudioAndVisual の変更点


#author("2020-01-22T15:15:29+09:00","default:inoue.ko","inoue.ko")
#author("2020-04-28T18:50:08+09:00;2020-01-22T15:15:29+09:00","default:inoue.ko","inoue.ko")
*音楽と映像
聴覚情報と視覚情報についての覚書  1997 - 随時更新

~

***目次
-序論
--はじめに
--[[音楽と映像の歴史>History]]
--[[人間と機械>ManAndMachine]]
-音楽
--[[音楽の起源>PrimitiveMusic]]
--[[聴覚の心理>AuditoryPsychology]]
--[[音・音楽の生成>SoundGeneration]]
--[[音・音楽の記録>SoundRecording]]
-映像
--[[映像の起源>PrimitiveImagery]]
--[[視覚の心理>VisualPsychology]]
--[[画像・映像の生成>ImageGeneration]]
--[[画像・映像の記録>ImageRecording]]
-[[過剰な脳の独り言]] 
-[[Appendix]]
~

[[&small(音楽と映像_2004.pdf);>https://design.kyusan-u.ac.jp/OpenSquareJP_repository/%E9%9F%B3%E6%A5%BD%E3%81%A8%E6%98%A0%E5%83%8F_2004.pdf]]
&small(PDF版は20年ほど前に執筆したものなので内容が古くなっています。);
~
~

**はじめに
人はなぜ歌うのか、人はなぜ描くのか(写真を撮るのか)‥‥
人はなぜ音楽を聞くのか、人はなぜ映画やテレビを見るのか‥‥
 私たちは今日、音楽や映像が氾濫する世界で暮らしていますが、この素朴かつ根源的な問いに答えるのは簡単なことではありません。おそらく、音楽や映像の創作に携わっているか、あるいはそれに強い関心をもつ一部の人を除けば、「考えたこともない」というのが普通でしょう。実のところ音楽や映像の専門家であってもその答えは人それぞれで、なおかつそれが語られる文脈によっても様々に変化するものなのです。音楽や映像というものが、非常に広範な関連領域をもつこと、科学的に捉えにくい具体的な存在であること、そしてそれが感情という人間存在の機軸に深く関わっていること、そうしたことが、多種多様で流動的な言説を生むのでしょう。この問いに対する答えは当然一つではなく、音楽や映像に関心をもつ人それぞれが、自分なりの答えを模索すべきものといえます。

ここ数年のデジタル機器の急速な普及によって、いわゆるマルチメディア環境が日常的なものとなり、いつでも・どこでも・だれにでも・あらゆる手段で、情報を取り出す、又創り出すことが可能となりました。情報の流れが時間や空間に関してボーダレスになったというだけでなく、「オリジナルと複製」・「プロとアマチュア」・「集団(企業)と個人」など、質の面でも量の面でもその境界があいまいになり、結果、誰にでも音楽や映像を自由に生成し、流通させることが可能になったのです。特に、インターネットが可能にした「個人から世界への情報発信」は、私たちの世界観を大きく変えました。
 かつて、専門家の間では「今ある技術で何ができるか」ということが重要な問題でした。しかし誰にでも簡単に高度な技術が使えてしまう今となっては、「何ができるか」ではなく、「何がしたいか」すなわち「何を視たい(聴きたい)のか、何を創りたいのか、何を伝えたいのか」ということが、より重要な問題としてクローズアップされてきます。その意味でも、音楽と映像に関わっていく場合には、表現上のテクニカルな問題のみならず、「人はなぜ歌うのか、人はなぜ描くのか・・」という根源的な問題に立ち返る姿勢が必要となるのです。

この記事は、このような問題意識を前提に、音楽と映像に関心を抱きはじめた学生、一般の方々を対象に、関連のある様々な分野の知見を、私なりの視点で紹介したいという気持ちで執筆するものです。ここでは、芸術の話はもちろん、音響工学・画像工学・情報科学・認知科学・脳科学まで、様々な領域の話が登場することになります。もちろん、これだけ広範な領域の議論を学術的にきちんと書くことは私の力量にあまるもので、厳密さを欠く表現や、説明不足な点が多くなることは否めません。しかし、これから新しい世界に足を踏み入れようという段階の学生さんにとっては、多少あいまいであっても先に全体像をつかんでしまう方が頭の整理がつきやすく、また好奇心も湧きやすいのではないでしょうか。考えているのが「私の脳」ですから、どうがんばっても厳密さには限界があります。ならば、ということで、あえて領域を広くする方針をとりました。
 「人生、楽しむ程度に賢ければいい」という愉快な言葉を聞いたことがあります。大学に籍を置く身で、そういうのは無責任だとお叱りを受けそうですが、まずは楽しめる程度に全体をつかんでしまおう、というのがこの記事のスタンスです。拙い文章ではありますが、様々な知見の紹介が、音楽と映像に関心を抱きはじめた読者にとっての創造的な思索のヒントとなり、また今後の創作活動の足がかりとなれば幸いです。

//はじめに
//-[[Introduction>AudioAndVisual]]
//-[[History]]
//-[[ManAndMachine]]
//
//音楽
//-[[AuditoryPsychology]]
//-[[SoundGeneration]]
//-[[SoundRecording]]
//-[[Music]]
//
//映像
//-[[VisualPsychology]]
//-[[ImageGeneration]]
//-[[ImageRecording]]
//-[[Images]]
//
//おわりに
//-[[Monologue>過剰な脳の独り言]]
//-[[Appendix]]
//~
~
&aname(intro);
~

**音楽と映像の領域

はじめに、私たちが普通に用いている「音楽」と「映像」という言葉について、また、それをメディアの問題として技術的に扱う場合の「音響」と「画像」という用語について、辞書的な理解をふまえつつ、その輪郭を明確にしておきたいと思います。
~

***音楽 music / 音響 sound
「音楽」とは、文字通りに解釈すれば「音を楽しむ」ということですが、辞書には「音による芸術。拍子・節・音色・和声などに基づき種々の形式に組み立てられた曲を、人声や楽器で奏するもの、楽」(広辞苑)と記されています。「芸術」を「情報のありかたのひとつ」として位置づけると、「音による芸術」としての音楽は、聴覚に訴える「情報」すなわち「聴覚情報」の一形態であり、生成・処理・伝達・記録の対象として考えることができます。情報の発生源には、声や楽器の生音の他にも、FM音源・サンプリング音源・バーチャル音源など様々なものがあり、また情報の伝達に関しても、直接的な伝達(ライブ)以外に、有線放送・ラジオ・テレビ・Web・各種プレーヤなど多くのメディアがあります。今日、我々の周囲には「音楽」という言葉に関わるモノ・コトがあふれています。
 一方、「音響」という言葉は「音」と同義で、「聴覚をおこす空気中の粗密波、あるいは空気中の粗密波によって引き起こされる聴覚」というように二面的に定義されています。それは音というものが、物理的な現象としても、また、心理的・内的現象としても考察できることを意味しています。「音響」を我々の身近にあるメディアに関連づけて考える場合には、さらにその形式をアナログとデジタルとに大別する視点も必要になります。アナログ情報としての音は、空気の振動である縦波(粗密波)を機械的・電磁気的な手段で横波に置き換えたもので、文字どおりアナロジカルな(類似的な)連続波形として表現されます。一方、デジタル情報としての音は、アナログの波形を時間軸上で細かく区切って、各時点での波の高さを数値化して並べるという形で表現されます。私たちが普段聴いているCDに記録された情報も、片チャンネルの1秒分だけで、4万4千個もの数値データの集まりとなっており、およそ直感的には理解できない、気の遠くなるような存在に変わり果てているのです。
 さて、ここで補足的に確認しておきたいことがあります。それは、音楽にせよ音響にせよ、この音というものが流れる存在であって、「時間」の概念を抜きにしては捉えようがないということです。絵を描くのに時間制限はありませんが、音楽の演奏はリアルタイムでなければなりません。絵は見えるモノとして持ち歩くことができますが、音楽は聴こえるものとしては持ち歩けません。それを聴くにはプレーヤーが必要なのです。音は常に時間とともにあります。これが音に関わるすべてのものに共通の宿命です。
「音楽」とは、文字通りに解釈すれば「音を楽しむ」ということですが、辞書には「音による芸術。拍子・節・音色・和声などに基づき種々の形式に組み立てられた曲を、人声や楽器で奏するもの、楽」(広辞苑)と記されています。「芸術」を「情報のありかたのひとつ」として位置づけると、「音による芸術」としての音楽は、聴覚に訴える「情報」すなわち「聴覚情報」の一形態であり、生成・処理・伝達・記録の対象として考えることができます。情報の発生源には、声や楽器の生音の他にも、FM音源・サンプリング音源・バーチャル音源など様々なものがあり、また情報の伝達に関しても、直接的な伝達(ライブ)以外に、ネット配信、テレビ、ラジオ、音楽CD等、多くのメディアがあって、今日、我々の周囲には「音楽」という言葉に関わるモノ・コトがあふれています。
 一方、「音響」という言葉は「音」と同義で、「聴覚をおこす空気中の粗密波、あるいは空気中の粗密波によって引き起こされる聴覚」というように二面的に定義されています。それは音というものが、物理的な現象としても、また、心理的・内的現象としても考察できることを意味しています。「音響」を我々の身近にあるメディアに関連づけて考える場合には、さらにその形式をアナログとデジタルとに大別する視点も必要になります。アナログ情報としての音は、空気の振動である縦波(粗密波)を機械的・電磁気的な手段で横波に置き換えたもので、文字どおりアナロジカルな(類似的な)連続波形として表現されます。一方、デジタル情報としての音は、アナログの波形を時間軸上で細かく区切って、各時点での波の高さを数値化して並べるという形で表現されます。私たちが普段聴いている音声情報も、音楽CDの音質を例にとれば、片チャンネルの1秒間を、4万4千箇所でサンプリンブした数値データの羅列になっており、およそ直感的には理解できない、気の遠くなるような存在に変わり果てているのです。
 さて、ここで補足的に確認しておきたいことがあります。それは、音楽にせよ音響にせよ、この音というものが「流れる存在」であって、「時間」の概念を抜きにしては捉えようがないということです。絵を描くのに時間制限はありませんが、音楽の演奏はリアルタイムでなければなりません。絵は見えるモノとして持ち歩くことができますが、音楽は聴こえるものとしては持ち歩けません。それを聴くにはプレーヤーが必要なのです。音は常に時間とともにあります。これが音に関わるすべてのものに共通の宿命です。
~

***映像 image / 画像 image
「映像」とは比較的新しい言葉で、辞書には「光線の屈折または反射によってうつしだされた物体の像」(広辞苑)と記されていますが、「イメージ」にまで幅を広げれば、写真・映画・テレビジョンにおける物体の像のみならず、不可視情報を視覚的に表現したものや、「夢」その他、頭の中に思い浮かぶ「想像」にまで意味が広がってきます。ところで私は先ほど、音楽を「聴覚情報」の一形態と考えました。議論の構成が対称性をもつよう、映像も同様に「視覚情報」の一形態と考えてみたいと思います。「情報」という概念は、本稿のように人間の認知の問題とメディアの技術的問題とをリンクさせながら考えるのに非常に親和性の良い概念です。定義の難しい「映像」という言葉に輪郭を与える鍵概念として、本文ではこの「(視覚)情報」という概念を主軸に据えたいと思います。
 さて、「画像」という言葉ですが、これは「像」を工学的な対象として扱う場合の用語で、「2次元平面上に濃淡あるいは色が分布したもの」と説明することができます。メディアに関連して画像を考える場合には、音響の場合と同様、アナログとデジタルの2つの形式の区別が必要となります。アナログ情報としての画像は、フィルムや印画紙で言えば銀粒子の分布として、またCRTや液晶で言えば画面をジグザグに走る電圧の強弱分布として表されます。一方、デジタル情報としての画像は、画面を微小領域に区切った画素(電光掲示板で言えば電球)という単位を用いて、その画素ごとの輝度または色(RGB3値の組み合わせ)のデータを縦横に配列するかたちで表現されます。つまりデジタル画像は、縦の画素数×横の画素数×3個の数値データの集合として表され、例えば「30万画素(640×480)」と呼ばれるサイズの画像の場合、640×480×3=921,600個の数値データの集合となります(約1MB)。さらに動画像となれば、一般的には1秒あたり30枚の静止画が時間軸に沿って1コマ1コマ連続して並ぶかたちをとるため、そのデータ量は(同一時間・非圧縮で)音楽の160倍と、膨大なデータとなります。
 さて、「画像」という言葉ですが、これは「像」を工学的な対象として扱う場合の用語で、「2次元平面上に濃淡あるいは色が分布したもの」と説明することができます。メディアに関連して画像を考える場合には、音響の場合と同様、アナログとデジタルの2つの形式の区別が必要となります。
 現在では日常的に接することが少なくなりましたが、アナログ情報としての画像は、フィルムや印画紙で言えば銀粒子の分布として、またかつてのTVで使われていたブラウン管などで言えば画面をジグザグに走る電圧の強弱分布として表されます。
 一方、現在主流のデジタル情報としての画像は、画面を微小領域に区切った画素という単位を用いて、その画素ごとの輝度または色(RGB3値の組み合わせ)のデータを縦横に配列するかたちで表現されます。つまりデジタル画像は、縦の画素数×横の画素数×3個の数値データの集合として表され、例えばVGA(640×480)と呼ばれる小さなサイズの画像の場合でも、640×480×3 = 921,600個の数値データの集合となります(約1MB)。さらに動画像となれば、1秒あたり 30フレームとしても、そのデータ量は(同一時間・非圧縮で)音楽の160倍と、膨大なデータとなります。

今日私たちは、音楽や映像をデジタルデータとして簡単に扱うことができますが、そのデータ量と処理スピードは直感的な理解の域を越えています。デジタルカメラで撮った写真は、たった1枚ですら、(圧縮しなければ)文字データ換算で、小説数冊分に匹敵するのです。膨大な量のデータの生成・処理・記録が簡単にできるということが、高度に発達した今日のメディアに支えられているという事実は、日頃から強く意識すべきことでしょう。電力の供給が途絶えた途端に「ただの箱」になってしまうコンピュータ、手作業では再現のしようがないデジタルデータ、それが今日の音楽と映像を支える基盤となっています。
~
~

**音楽・映像と文化
音楽と映像の社会における立場は、問題とされる場面によって様々です。例えば「高度に実験的な音楽表現」と評価されたものが「はみだし者のシンボル」として大人から敵視されたり、多くの視聴者を寄せ付ける(スポンサーから見れば)有益な番組が、俗悪番組として害虫扱いされたりと、音楽や映像に関わる評価は、その存在が大きいほど、良いとも悪いとも言われる非常に両義的なものとなります。
 一般に、音楽にも映像にもそうした[[トリックスター>http://ja.wikipedia.org/wiki/%E3%83%88%E3%83%AA%E3%83%83%E3%82%AF%E3%82%B9%E3%82%BF%E3%83%BC]]的なところがあって、それは社会の常識や日常性といった、いわゆる制度的な枠組みには納まりきれないという性質をもちます。それらは常に不安定な境界領域から惰性化しがちな文化の枠組みをゆさぶりにくるのです。
 楽曲の歌詞における直接的社会批判、言葉をたわむれにつなぎあわせて使った言葉文化の撹乱、映像表現における俗悪・醜悪な(と言われる)部分の提示、そしてテレビに登場するタレント(少なくともありきたりの常識人はテレビ出演には向かない)、それらはいつも我々の常識に対する「はみだしもの」なのです。能や歌舞伎に代表されるような「芸能」も、もともと社会の中心からはみだした人たちが「河原」という境界領域を舞台にはじめたものであり、創造的なものには共通してそういう性質があるといえます。
 さて、「はみだしもの(常識に縛られない自由なもの)」が意識をゆさぶるということに関して、異なる観点から補足すると、忘れてならないのが、カメラという「機械の目」がもつ、我々の視覚に対する根本的な異化作用(慣習化した物事の関係を異なる関係へと変化させる作用)です。「機械の目」は、我々の目とは違って「見たいところ」を意識しません。つまり意識に縛られずファインダーに入るものすべてを無差別に写し撮るのです。だから日常の風景を写真に撮ることで、普段見過ごしていたものの存在に気付くことがあるし、また例えば、普段気付かないホクロが、写真を通して発見されることもあるのです。カメラの映像を介すると、我々の日常的(惰性的)な視覚世界は、一旦解体されて改めて組織化されるのです。これがカメラ映像に特有の「ゆさぶりの力」です。何にも縛られず何の関係づけもしない自由奔放な「機械的メディアの視覚」、我々の意識は、日々その力によって様々にゆさぶられています。
 「情報の力」そして「メディアの力」は、良きにせよ悪きにせよ、我々の文化の周縁からやってきて、それを活性化するのです。
~
~

**音と光の比較
さてここで、音楽と映像の情報の担い手である「音」と「光」を比較しておきましょう。
~

***音
まず音についてですが、我々の可聴範囲の音の波長は約17mm から17m と、ほぼ我々を囲む物の寸法と同じです。このことは視覚情報と同様な、空間的な「聴覚像」の生成が根本的に不可能であるということを意味しています。したがって音は、音源から発せられる刺激の「時間変化」として表現される他はないのです。それは時間とともに消えてしまうため、次々にやってくる音の情報を、その都度記憶しながら処理せねばなりません。言葉・音楽・物音、聴覚情報はいずれも時間軸を基軸とした音の配列であり、時系列の情報となります。
~

***光
次に光について。視覚情報の担い手である「光」を、聴覚情報の場合の「音」と比較すれば、その波長は 380nm から760nm と非常に短いものです。我々の視覚にはこの波長の差が色相の差として知覚されていますが、その色相や輝度の時間的変化で「音」の場合のような時間情報を生成(例えば、光通信)しても、人の能力でそれを直接処理することはできません。すなわち、我々「人」にとっては、多くの色点の空間的な分布形状が情報の担い手となるわけで、当然、我々の視覚の受容器はそのために2次元的な配列をなしているのです(その配列を捉えるすなわち結像するためのピンホールまたはレンズが必要です)。空間的な配列が情報であり、その処理形態は一括処理的になります。


-音楽は止めると情報がなくなるが、映像は止めても情報が残る(静止画)
//-テープもCDも回っていなければ用をなさないが、フイルムは1コマずつでも意味がある。
-耳は開閉しないが、目は開閉できる
-音楽は音の状態で持ち歩くことはできないが、絵は画像の状態で持ち歩ける
-マイクは音源へ、カメラは(光源ではなく)対象へ向ける
※例外的に夜景や花火の場合はカメラを光源(=情報源)へ向ける
-マイクには感音部があれば十分だが、カメラには結像と感光の二つのシステムが必要である(カメラはボディだけでは用をなさない)
-視覚情報は相手が見ていなければ伝わらないが、聴覚情報は相手の状態によらず常に伝わる
-目覚まし時計は音を使う(視覚には訴えようがない)

といったことが音と光、あるいは聴覚情報と視覚情報の大きな差となりますす。
これらは聴覚と視覚の抱える必然的な差異の問題として、音楽と映像に深く関わることになります。
~
~

//**視覚と聴覚の相互作用
//
//色聴現象 音を聞くと色が見える
//視覚の優位 TVでは視覚情報の位置に音を感じる(実際には音はスピーカの位置から)
//マガーク効果 視覚から「が」、聴覚から「ば」 → 認知は「だ」
//

**memo

''音速と光速''
音速  331.5m/s (1気圧0°C)
光速  3.0×108m/S

''可聴周波数''
正常な聴覚で聞こえる周波数の範囲は通常20Hzから20,000Hzで、
波長=音速÷周波数
を計算して波長が求まる。

''可視光線''
可視光線の波長はおおよそ380nm ~ 780nm(単位はnm。1nm は1mの1/1,000,000,000)
この範囲の外側は、一方が赤外線、もう一方が紫外線である。
光はラジオやテレビ、携帯の電波と同じ電磁波の一種である。

''FM音源''
 FM放送のFMと同じ周波数変調(Frequency Modulation))を複雑な倍音生成のアイデアとしてに利用したシンセサイザーユニットで、PCの音源や携帯電話の音源として、現在も利用されている。

''バーチャル音源''
 物体の素材や形状のデータから、それが作り出す音を物理的にシミュレートするというもの。架空の存在から具体的な出力が得られるという点では、コンピュータ・グラフィックスのサウンド版とでも言うべきものである。
~
~