Stable Diffusionは、ミュンヘン大学のCompVis グループが開発し、 2022年にStability AI、CompVis LMU、Runwayの三者が共同で公開した画像生成モデルで、テキストに基づく画像生成を行います(Text-to-Image Model)。
Stable Diffusionを開発した Stability.Ai は、これを「人間による、人間のためのAI」、「すべての人に創造性の贈り物をもたらす」と説明しています。
DALL-E2 やMidjourneyなど、クラウドサービスを利用する従来型のプロプライエタリなモデルとは異なり、消費者向けの一般的なハードウェア(8GB程度のVRAMを持つGPU搭載機)で実行可能です。
潜在拡散モデルと呼ばれる、深層生成ニューラルネットワークの一種として、そのコードも一般公開されています。
Stable Diffusion のモデル学習に使用された画像データベースは、関連の非営利団体である Common Crawl が Webスクレイピングによって収集したもので、その中でも LAION-Aesthetics と呼ばれるデータが訓練に使用されたと言われます。このデータは Aesthetic Score(美的予測スコア)を持っていて、人の審美眼に合う画像が生成できるという特徴を持っています。
Stable Diffusion は学習済みモデルとソースコードを公開していいて、ユーザーは、生成された画像の権利を所有し、自由に商用利用可能です。
生成モデルが、権利者の同意なしに著作権のある画像を用いた学習を行っているため、画像の使用やユーザーに提供される自由について、所有権をめぐる論争があること、また、ユーザーが生成できるコンテンツの種類に寛容な姿勢をとっていて(暴力や性描写などに寛容)、「この技術の用途が倫理的・道徳的・合法的であるかどうかはユーザーに責任がある」とされていることに留意が必要です。
https://huggingface.co/spaces/stabilityai/stable-diffusion
Mt. Fuji in the style of Hokusaiちなみに、Negative Prompt というのは、画像に反映させたくないものをキーワードとして指定するものです。
Python のコードで実行できるのですが、高速なGPUが必要です。個人のPCでは重いこともあるので、その場合は、GoogleColaboratoryを使って、クラウドの資源を利用させてもらう・・という手があります。
ローカル環境で利用を行う場合、以下のスペックが推奨されています。
NVIDIA RTX20 シリーズ以降 VRAM:6GB以上
以下のように検索すると、どんなプロンプト(呪文)で、どのような画像が生成されるか、サンプルを多数見ることができます。
Google:Stable Diffusion 呪文
実際に試してみるとわかりますが、与えられたワードをもとに短時間でイメージを作り出す能力は人間を凌駕するレベルです。
あらゆる分野で「AIに仕事を奪われる」ということが危機感をもって語られていますが、テクノロジーによって「商品」が安価になるという現象は AIの登場以前から進行していました。様々なテンプレートやフリー素材が、仕事を減らし、クリエイターの時間単価を下げてきたことは明らかです。
19世紀の半ば、写真術が登場したときも、いわゆる職業画家としての仕事は激減しましたが、一方で画家は自由な表現を追求することができるようになりました。AIの台頭も同じで、収入を得るためだけの「商品製造」を AI にまかせることで、芸術家はさらなる自由を手に入れることができるのです。
芸術は、商品経済の奴隷から開放されて、ようやく本来のポジションを取り戻したと言えるのかもしれません。