AudioAndVisual/ImageRecording

画像・映像の記録

ここでは、「メディアの目」すなわち「カメラ」の構造と機能について、入力システム（光学系）、処理システム（変換系）、記録システムと、大きく３つの枠組みで概説します。

↑

入力システム
変換・処理システム
記録システム
現代の視覚
付記

↑

入力システム

静止画像の記録に用いられるカメラの基本は「針穴をあけた暗い部屋」、いわゆるカメラ・オブスキュラです。針穴のかわりに凸レンズをつけると集光面積が大きくなり、出来上がる倒立像も明るくなります。これがカメラの基本構造です。

↑

レンズ

カメラという機械にとって最も重要な光学系を構成するのがレンズです。レンズの材質は光学硝子という良質の硝子ですが、一般的にはクラウンガラス（K）、それに鉛を加えて屈折率を上げたフリントガラス（F）の二つになります。光学硝子は当然無色透明で均質であり、光の透過に関して等方であること、またレンズの設計に必要な光学常数、すなわち精巧な屈折率と分散率をもつことが要求されます。実際には、一枚の凸レンズだけでは光の波長による屈折率の差、いわゆる色収差が避けられないため、複数のレンズを群に構成して単体のレンズに見立てています。

GoogleImage:カメラレンズ構成

レンズにはFナンバーという数値があり、それらもレンズの性能に関係します。略説すると、Fナンバーは「焦点距離／レンズの有効径」を表わす値（暗さの尺度と言えます）で、レンズの口径が大きくなりFナンバーが小さくなるほど「明るいレンズ」ということになります。レンズは口径の大きなものほど分散・収差が大きくなりその分良質のレンズの製造が難しいため、一般的なレンズで Fナンバー1.4～2.8 程度、ズームレンズでは f4～f5.6 あたりが主流です。

GoogleImage:レンズ F値

「メディアの目」であるカメラの意義が、世界を客観的にボトムアップすることにあるとすれば、世界を細部まであざやかに写し取ることのできるレンズはそれだけで価値があります。

しかし、「メディアの耳」であるマイクの場合と同様で、ムラがなくバランスのよい空間周波数特性*1が得られるということと、美的な映像を写し出すということとは必ずしもイコールではありません。技術的な成果が美的要求をすべて満たすものではないということは、どの世界にも言えることです。「レンズの味」という言葉もあるように、様々な収差によるボケぐあいというものがレンズの個性であり、私たちはそうした「味」を必要に応じて選択するという思考法も大切にしなければなりません。

↑

焦点距離

焦点距離はレンズの主点（後ろ側主点）から焦点面（フィルム面）までの距離のことですが、カメラの機能の問題として焦点距離が重要なのは、この値が画角（具体的には主点から画面の対角線の両端とを結ぶ線のなす角）に直接関わるという点です。例えば35㎜フィルムの場合は、サイズ36×24㎜で対角線43.2㎜ですから、焦点距離50㎜で画角46度となります。

焦点距離が短くなれば画角は大きく（ワイドに）なり、長くなれば画角は狭く（望遠に）なります。人間の眼に自然に見える角度がほぼ50度であることから50㎜のレンズは標準レンズ、28㎜や35㎜は広角レンズ、じっと見つめる画角にあたる85㎜はポートレートレンズ、135㎜や200㎜などは望遠レンズと呼ばれます。この値が固定的なレンズを単焦点レンズ、この値を一定の範囲で変えられるものをズームレンズといいます。

ただし、同じ焦点距離何㎜と記載されていてもフィルムの大きさやCCDのサイズが変われば画角も変わるという点には注意が必要であす。例えば６×６㎝のフィルムでは焦点距離80㎜が標準画角となるし、35㎜よりサイズの小さいCCDを用いるデジタルカメラでは焦点距離が非常に短くても標準画角となる場合があります。様々なサイズのCCDを使用するデジタルカメラのカタログでは、物理的な焦点距離の記載が画角を説明するものとはならないため、従来のカメラの感覚で理解できるよう「35㎜カメラ換算で50㎜」などと記載されています。

↑

絞り

絞りはレンズの使用面積つまり明るさを調節する単純な機構です。絞り機構はレンズ群の中間にあって、複数枚の金属羽根で構成されています。レンズ鏡胴の絞りリングで開閉を調節しますが、リング上の目盛はレンズの解放F値から順に公比 √2 の等比数列で並んでいます。すなわち目盛を１段増やすごとに有効径が、1 / √2ずつ小さくなる（採光面積が半分になる）ことを意味します。これは主としてフィルムにあたる光の量を適正に調節するためのものですが、これは人間の目の虹彩と同様、絞れば被写界深度が深くなり前後のピントも合いやすくなるという映像表現上の効果の大きな機構です。

↑

シャッタースピード

シャッターは、世界をとらえる「一瞬」というものにどの程度の時間を与えるかを決める機構であり、その選択可能性が大きなものほどカメラとしての機能は優れているといえます。一般的なスチールカメラでは4秒から1/4000秒までの間を1/2倍間隔で選択できるようになっていて、これは絞りの1段に対応してフィルムにあたる光の量を1/2ずつ調整する目的をもちます。「動くものを止めて写すか、動きを軌跡として写すか」といった、人間の目では直接見ることのできない視覚世界の表現に関わるものであり、写真メディアに特有のものです。

Wikipedia: シャッター速度　 GoogleImage:シャッター速度効果

↑

フレームレート

動く映像をとらえるカメラとなると、１秒あたり何枚の画像を撮影するかということも重要です。ただこの点については、高速度撮影カメラのような特殊なものを除いては、規格として決まっていて、フィルムを使う映画の撮影カメラでは秒間24フレーム（コマ）、NTSC信号をベースにしたテレビやビデオなどでは秒間30（正確には29.97）フレームです。人間の目がチラツキを感じずに自然な仮現運動が生じるのがこのあたりだと考えればよいでしょう。これより遅いと、動きが飛んだようなギクシャクしたものに見え、逆に早すぎでも残像がダブって見えてしまいます。

Wikipedia: フレームレート　 YouTube:フレームレート比較

↑

変換・処理システム

↑

イメージセンサ

イメージセンサはビデオカメラやデジタルカメラ等で光学像を電気信号に変換する部分であり、レンズ同様に最終的な画像の解像度や色調に大きく影響する重要な部分です。かつては撮像管が用いられていましたが、現在では CCD や CMOS といった固体撮像素子が主流で、カラーフィルタの不要な Foveon X3（CMOSの一種）、有機薄膜撮像素子、また背面照射型CCD なども開発されています。

撮像管には、光学系からの情報を電気信号に変換する手法の違いで、ビジコン・サチコン・プランビコン・イメージオルシコン・SEC管などがあります。イメージセンサとしてはテレビの初期から存在した電子管で、画素という区切りが存在しないため、固体撮像素子より解像度の高い高画質のものが実現できますが、現在ではほとんど使用されません。

GoogleImage:撮像管

固体撮像素子は大半のビデオカメラやデジタルスチルカメラが採用している半導体板のセンサで、1次元（ラインセンサ）または2次元（エリアセンサ）に並ぶ光センサの集合体を感光面としてもちます。これは網膜の状態に似ており、各センサが1画素という最小単位に相当するかたちで、光電変換・蓄積・走査の3つの役割を担います。解像度は並んでいる画素の数で決まるので、カメラの性能は「◯◯万画素」というスペックを見れば簡単に区別できます。

GoogleImage:固体撮像素子

撮像管・固体撮像素子ともに関わる問題ですが、カラーの映像信号は基本的にRGB３種の信号に分離して取りだすことが必要で、その方法については、1系統のイメージセンサから取り出す方法と、光学的にRGBに分離して3系統のセンサで取り出す方法（一般に3管式・3板式と呼ばれる）とがあります。当然3系統もつものが高画質であり、業務用には後者が使われます。

映像信号は画素の情報を左から右へと（少し斜めに）走査します。左右へ走査すする線（走査線）の数は、現在では1080本ですが、上から順次送るタイプのものをプログレッシブ（ノンインターレース）、1,3,5,7・・と１本飛ばしで送って、つぎに2,4,6・・と補完するタイプのものをインターレースといいます。
一般にパソコンのモニターはプログレッシブ、テレビはインターレース、デジタルビデオカメラでは、撮影モードをいずれかに選択できるものがあります。

GoogleImage:プログレッシブインターレース

↑

A/D変換

光学系あるいはさらに光電変換系によって得られたアナログのフィルムや映像信号をデジタル化して処理・記録する場合は、A/D変換系が必要で、フィルムスキャナ・イメージスキャナ・ビデオキャプチャーなどと呼ばれるものがそれを行います。今日ではデジタルスチルカメラやデジタルビデオカメラなど、光学系・光電変換系及びA/D変換系を合わせ持つ機器が一般化しており、アナログからデジタルへというプロセスを意識することが少なくなりましたが、世界を光の像としてとらえる光学系と、それを電気に変換する光電変換系、そしてさらにそれをデジタル情報へ変換するA/D変換系、この３つのブロック全てが、画像のクオリティーに関わっているということは、常に意識しておくべきでしょう。

GoogleImage:A/D変換

デジタルデータとして扱われる画像のピクセル数と画面アスペクト比は事実上無限にあります。現在、流通している主な規格だけでも数十種類存在。

Google: Video Standards

↑

標本化（Sampling）

画像の場合、縦横の画素数を決めることが標本化にあたり、この数はA/D変換系の限度内で自由に決めることができるのですが、問題は今述べたように光学系と光電変換系がどの程度のものであるかです。例えば原画像が35㎜フィルムによるものであれば、その画質は約1000万画素程度に相当し、またフルHDのビデオ画像であれば約200万画素程度に相当します。原画像を超える解像度をもたせても特別な目的がないかぎり意味がないため、おのずとそれが標本化数の上限をきめることになります。

GoogleImage:サンプリング周波数

↑

量子化（Quantization）

次に量子化数についてですが、これは色数に関わるもので、例えば量子化数8ビットであれば256色、24ビットであれば1677万色となります。ＲＧＢ各8ビット（256段）で24ビット量子化したものが、一般にフルカラー画像と呼ばれ、我々の視覚の能力はカバーされます（ただし1ビット異なるだけでも、ある程度の面積で並べて見れば差は分かります）。

GoogleImage:量子化ビット数

↑

パターン認識

画像がデジタル化されていると、コンピュータを利用することで高度なレベルの処理が可能になります。

文字認識では、古くから実用化されているOCR（Optical Character Reader）等の数字認識システムに加え、手書きの文字認識も一般化しました。文字は音声に比べて識別の手がかりが多く、例えばペン入力のものでは、ペンのアップ・ダウンの情報から筆順や画数の情報を得ることができ、特定の筆跡に限らず、ある程度クセのある文字でもほぼ正確に変換されるようになりました。もちろん「機械」はあらゆる文字についての分類識別の枠組みを知識ベースとして記憶しており、記憶された分類枠組みのどの文字と相関が強いかをみることで、一つ一つの文字を識別します。また、文字単位の識別では限界があるため、単語や文法レベルの情報（前後の文脈を参考にする）も知識ベースとすることで、文字識別能力を上げる方法も取られています。

GoogleImage:郵便番号 OCR

カメラによる空間情報の認識に関しても、デジタルカメラに搭載された顔認識や自動車のオートクルージングなどが実用化段階に入っています。視野内の特徴点の位置関係や、水平・垂直線・消点へ向かう斜めの線など、複数の知識ベースを手がかりにして、ボトムアップ＋トップダウン的な処理がなされています。

↑

記録システム

像の記録というものには、音の記録のような時間軸の制約がなく、またランダムにアクセスできるものであるため、カメラオブスキュラなどによって「じっくり観察して描き写す」という手作業でのアナログ的記録が可能でした。現に我々は、歴史上の人物の肖像を記録として見ることができるのです。その意味では画像の記録は原始洞窟絵画の時代にまでさかのぼることになるのですが、それはさておき、ここでは1830年代におこる「像の自動的記録」というものを出発点として概説します。

↑

銀塩方式

銀の光化学反応に着目し、カメラオブスキュラの像を定着させようとしていた化学者や画家の試行錯誤は、1826年ニエプス（J.N.Niepce）のヘリオグラフィー、1835年タルボット（W.H.F.Talbot）のネガポジ法*2、1839年ダゲール（L.J.M.Daguerre）のダゲレオタイプ、1841年タルボットのカロタイプの発表というかたちで、多くの成果を得ました。そして1888年イーストマン（G.Eastman）のロールフィルムの発明以来、現在にいたるまで「銀塩写真」はアナログ記録メディアとして重要な位置を占めています。

銀塩写真は、ハロゲン銀（AgX：塩化銀・臭化銀など）が光によって黒変することを利用するものです。ハロゲン銀を塗布した面に光像を結ぶと、光のあたった部分に銀核とよばれる黒点が形成されます（潜像）。このままでは像として使える状態ではないのですが、これをさらにモノメチルパラアミノ・フェノール硫酸塩やハイドロキノンを主薬とする現像液に浸すことで、銀核の周囲にAgが集結（数千万倍に増幅）して目に見える像が得られます。一定時間の現像反応の後、酢酸などによる反応の停止、チオ硫酸ナトリウム（ハイポ）などによる未露光AgXの除去、すなわち定着処理を終えて、像は永久化されます。一般にこの像はネガ像なので、別の感光面（印画紙）を用意し、そのネガを透過する光を感光させて同様の処理を行うことでポジ像を得ることができます。以上が写真の記録のおおよその原理です。

カラー写真の場合は、カプラーによる発色現像を行います。これは光をＢＧＲの順に分離し、各々の補色にあたるＹＭＣの3層の発色でネガ像を形成するというアイデアで、例えば、被写体の青い光は、フィルム上でB（Blue）に感光する層をY（Yellow）に染めてネガとなり、プリント段階でそれに白色光をあてると、RとGが透過して印画紙上のCとMを染め（すなわち印画紙上では青の色が出て）、ポジとなります。

一般的にはこのような原理で、ネガフィルムにネガ印画紙の組み合わせでプリント写真としますが、カプラーの発色をポジティブにするというタイプの、リバーサル（ポジ）フィルムもあり、スライド上映用や印刷物を作る場合の写真原稿として利用されていました（現在でも存在しています）。

銀塩写真方式の特性の問題にも触れておきましょう。ここでは、感度と粒状性・色温度などがその特性に関わる選択肢として問題になります　以下、記事の大半を過去形で読み替えて下さい。です → でした。

フィルムの感度はISO感度というかたちで数値として与えられ、カラーネガでは感度100・400等が普及しています。一般にこの感度と粒状性は相反するもので、感度の低いものほど粒子が細かく色の再現性も良くなるという傾向があり、感度をとるかディテールをとるかはユーザの選択によることになります。ただ注意が必要なのは、フィルム感度はカラーフィルムの場合と白黒フィルムの場合では、同じ感度でも多少意味が異なるという点です。カラーの場合はフィルム感度はフィルムそのものの固有の感度で、その値に無関係に現像処理が行われるのに対し、白黒の場合は表示感度は撮影時の推奨感度設定値であり、現像の際は設定した感度値に応じて増感現像・減感現像が行われるのです。例えば白黒で感度400のフィルムを、カメラの感度設定値を1600や3200に設定して（フィルムに当たる光量は1/4、1/8となる）撮影した場合は、それに応じて増感現像（現像時間を長く）することで適正なネガが得られます（カラーの場合、このような操作は難しくなります）。

色温度は写真のホワイトバランスに関するもので、どのような光源のもとで撮影するかに応じて選択されるべきものです。「人」の視覚は光源に応じて自動的にホワイトバランスをとっていますが、「機械」の視覚には「白」は光源の色温度によって赤みをおびたり青みをおびたりします。太陽光のもとでの撮影を前提としたデイライトタイプが一般的でほぼ6000Kを白色としていますが、フィルムメーカーによって±200Kほど前後します。一方白熱電球のもとでの撮影を前提としたタングステンタイプは、ほぼ3000Kを白色としています。色温度値は当然、ホワイトバランス適正にたもつためのものですが、「朝の青白い雰囲気を出すために、太陽光のもとでタングステンタイプを使う」など、表現上の理由で逆の選択がなされる場合もあります。

以上は主としてフィルムの問題ですが、印画紙に関して補足すると、表面の質感について光沢・半光沢などの区別があり、またコントラストの強さの区別として硬調・軟調などがあります。

ちなみにフィルムを使った動画の記録（映画）では、一般に35㎜ロールフィルムを縦に秒間24コマというかたちで記録するのですが、この場合の1コマは、スチールカメラが用いる1コマのサイズの半分（24×18㎜）でパーフォレーション４穴分にあたります。一般に普及した８㎜などはポジフィルムでしたが、オプチカル処理を前提とする映画では、ネガフィルムが用いられます。

↑

アナログ信号の記録

電気的な映像信号の記録は電磁気的な技術からスタートしました。現在ではほとんど使われない技術ですが、参考までに記載しておきます。　

映像信号は音声のそれに比べるとその周波数が高いために、より高速に読み書きする機構が必要です。はじめてのものはビング・クロスビー研究所の固定ヘッド型白黒で1951年、そしてテレビ局で最初に実用化されたのはアンペックス社の回転4ヘッド2インチ機で、テレビ放送よりおくれて1956年のことでした。家庭用のものでは1964年ソニーのオープンリール、1975・1976年のカセット式1/2インチのベータとVHS方式、1985年ソニーの8mm方式、そして1996年デジタルビデオ（MiniDV）へと次々に発展し、その後は磁気ディスク、メモリーメディア等にバトンタッチしました。

媒体としては、1/2インチのビデオテープでは一般にコバルト添加ガンマ酸化鉄の磁性体をポリエステルフィルムベース上に塗布したもの、また８㎜やデジタルではメタル磁性体のものが用いられていました。記録構造はそれぞれの方式で若干ずつ異なりますが、基本的にはテープの走行方向に対してヘッドを斜めに回転させ、1フレーム分の映像信号を2つのトラック（2フィールド分という意味で、テープ上では斜めの線分奇跡2本になる）に記録する、いわゆるヘリカル走査方式が基本でした（NTSC対応のビデオではヘッドは毎秒30回転している）。

GoogleImage:ビデオヘッドヘリカル走査

磁気方式ではヘッドとテープの相対速度・周波数特性が関わる水平解像度、ビデオ S/N（輝度）、カラーS/N（色相・彩度）などが問題となります。水平解像度は、一画面で何本の縦縞を再現できるかを数値で表わすもので、画質競走のもっともわかりやすい指標です。垂直方向に関しては走査線の数以上の分解能は物理的に無理ですが、水平方向については信号（特に輝度信号）の高域が忠実に再現できれば解像度は上がります。しかし、どちらかというとこれはディスプレイの特性に依存するものです。ビデオS/Nは45dB以上あれば十分と言われますが、これが低いと画面がざらつき、輪郭が不鮮明になります。対策としては磁性体の超微粒子化や表面性の向上があげられます。カラーS/Nは、色相がズレるというＰＭノイズと、彩度すなわち色の飽和度に関するAMノイズの問題があります。NTSCでは輝度（Y）と色度（I,Q）は分離され、色信号I,Qは3.58MHzの色副搬送波にのっています。色彩が鮮やかに再現されるためには、やはり磁性体がバランスの良い周波数特性をもち、広帯域の映像信号に十分追随できる能力が必要となります。

GoogleImage:ビデオ信号

↑

デジタルデータの記録

標本化・量子化そして何らかの方式で圧縮された静止画・動画のデジタルデータは、0.1. に対応する2値状態で媒体に記録されます。磁気記録方式を用いたテープ・ディスク、レーザーによって結晶の向きを読み書きするディスク、レーザによる加熱と磁性変化を利用したディスク、そして半導体を利用した固体のメモリーなどがありますが、現在では固体のもの（ソリッドメモリー）が主流です。

デジタルデータでは０と１がきちんと区別されて、安定して記録されるかということだけが重要で、それさえ正しく識別できれば、情報の質には影響しません。そのクオリティーは標本化周波数・量子化数の値および圧縮レートによって一義的に決まるもので、媒体の物理特性は無関係です。

さて、記録されるデータの形式についてですが、現在のデジタル静止画・動画を扱う場合の形式はPC上で読み書きできるものを含めるとかなりの数になります（後述）。特に動画の場合、コンテナフォーマットと各種のコーデックが組み合わさることで種類は非常に多くなります。したがってデータ交換する際は、双方の環境で正しくファイルの読み書きができるかといった確認が必要になります。最近では大半のソフトウエアがあらゆる方式をカバーできるようになってはいますが、この種の問題はデジタルデータを扱う場合に避けられない問題であり、ある意味では常識と考えて接した方がよいでしょう。

↑

画像データのファイルフォーマット

JPEG [.jpg]：Joint Photographic Experts Group
PNG [.png] ：Portable Network Graphics
GIF [.gif] ：Compuserve Graphics Interchange Format
TIFF [.tif] ：Tagged-Image File Format
PS/EPS [.eps]：PostScript *
PDF [.pdf] ：Portable Document Format *
RAW [.raw] 　「生の」という意味で、色データが単純に並ぶ、最もシンプルな形
PPM [.ppm] ：Portable PixMap
PSD [.psd] ：Adobe Photoshop
BMP [.bmp .dib]：Windows Bitmap

↑

映像データのファイルフォーマット

AVI [.avi]：Windows用の標準コンテナ
FLV [.flv]：Flash Video
MP4 [.mp4]：MPEG-4 AVC = H.264
MOV [.mov]：Mac（QuickTime）の標準コンテナ
MPG [.mpg]：mpeg-1(1.5～1.8Mbps) または mpeg-2(4～15Mbps)形式
OGG [.ogg]：オープンソースのコーデック
VOB [.vob]：DVD-Video
WebM [.webm]：Googleが発表したHTML5準拠のビデオプラットフォーム
WMV [.wmv]：Microsoft社が開発した動画ファイル。

↑

現代の視覚

静止画・動画に関連するメディアの充実、特にデジタルカメラと携帯電話が一体化することで、カメラを日常的に携帯できるようになったことは、非常に画期的なことです。面白いものを見かけたとき、資料が必要なとき、時刻表をメモする必要があるとき、一瞬で記録が済むことは非常に便利なことです。

しかし一方で、我々は、自分の目で見て記憶することや、ペンを持って（手を動かして）記憶するということをおろそかにしはじめたのではないでしょうか。これは、必ずしも喜ばしいこととはいえません。とくに創造的な精神活動にとっては、過去の記憶や様々な感情を呼びさましながらゆっくりと見る事、ペンを走らせながら頭の中を整理すること、そういった時間のかけかたが必要なことも多いはずです。

メディアの視覚は純粋なボトムアップでそこにあるものを正確に記録します。一方、人の視覚には、様々なトップダウンが関与していて、見ているその場で情報の「編集」が行われていきます。見ることにおいても記憶することにおいても、メディアと人間は、その特性を生かすかたちで共存すべきものといえるでしょう。

人はこれまでに、遠くを見る（望遠鏡:1609）・微小なものを見る（顕微鏡）・「一瞬」を凍結する（写真:1839）・「動き」を記録する（映画:1895）・遠くの出来事を実時間で見る（テレビ:1936）・疑似的な空間に介入する（ゲーム・VR・AR）など、視覚とその周辺領域がかかえていた多くの限界を「メディア」によって拡張してきました。その分だけ視覚はセンサとしての負荷を減らし、その機能を組み換え（例えば、活字世代の線的眼球制御から、漫画・テレビ世代の面的眼球制御へ）、部分的にはその能力を退化させた（例えば、視力）のです。そして近い将来、「人」はその得意領域である「知覚・認識」をも「機械」に委ねることで、より新しい視覚を手に入れようとしています。私たちはそろそろ「自由になった視覚でなにを見るか」という新しい問題への取り組みを考えなくてはなりません。

↑

付記

↑

レンズ付きフィルム

いわゆる「写ルンです」はフィルムカメラとして現在でも人気の商品です。ISO感度400のものを例にとれば、焦点距離 f=32㎜レンズ（１枚）で、絞りは F10 固定、シャッタースピードも1/140固定というもので、撮影距離範囲 1m～無限遠で、曇り・日陰において適正に写るようになっています。

Google:写ルンです

↑

視力

視力とは、眼で2つの点を区別しうる能力のことで、「区別できる2点の視角（分）」の逆数で表わされます。例えば、視角で1分に相当する2点間の区別ができるものは、視力1.0（標準値）です。

GoogleImage:視力とは

↑

フィルムの解像度

ISO100 のフィルムの感光粒子径は 6～8μm 程度で、例えば35mmフィルム（36mm×24mm）では 6,000×4,000＝2400 万画素相当になります。35mm フィルムのスキャンでは 3600dpi程度が理論上の限界と言われます。