Stable Diffusion
Stable Diffusionは、ミュンヘン大学のCompVis グループが開発し、 2022年にStability AI、CompVis LMU、Runwayの三者が共同で公開した画像生成モデルで、テキストに基づく画像生成を行います(Text-to-Image Model)。
Stable Diffusionを開発した Stability.Ai は、これを「人間による、人間のためのAI」、「すべての人に創造性の贈り物をもたらす」と説明しています。
概要
基本情報
- 公式サイト:https://stability.ai/
- モデル公開:https://huggingface.co/CompVis/stable-diffusion
Model Access の欄にモデル一覧があります。各モデルはモデルカードと呼ばれるページごとに公開されています。
技術の概略
DALL-E2 やMidjourneyなど、クラウドサービスを利用する従来型のプロプライエタリなモデルとは異なり、消費者向けの一般的なハードウェア(8GB程度のVRAMを持つGPU搭載機)で実行可能です。
潜在拡散モデルと呼ばれる、深層生成ニューラルネットワークの一種として、そのコードも一般公開されています。
Stable Diffusion のモデル学習に使用された画像データベースは、関連の非営利団体である Common Crawl が Webスクレイピングによって収集したもので、その中でも LAION-Aesthetics と呼ばれるデータが訓練に使用されたと言われます。このデータは Aesthetic Score(美的予測スコア)を持っていて、人の審美眼に合う画像が生成できるという特徴を持っています。
Stable Diffusion は学習済みモデルとソースコードを公開していいて、ユーザーは、生成された画像の権利を所有し、自由に商用利用可能です。
画像生成AI利用上の留意点
- 画像生成AIは学習元の画像のコラージュ(切り貼り)ではない
生成モデルは既存の画像を用いた学習を行っていますが、生成過程でコラージュしているわけではありません。生成に利用するのは学習元の画像そのものではなく、その特徴を抽象化した情報です。
- 著作権について
著作権に関わる考え方は「AI開発・学習段階」と「生成・利用段階」で異なっています。前者に用いることは著作権の侵害には該当しないものとされています。一方、後者については、「人間が考えて作ったもの」と同様に、それが既存の著作物との「類似性」又は「依拠性」が認められる場合は、著作権侵害となります。
参考:A I と 著 作 権(PDF 文化庁)
- 利用の責任はユーザーにある
「この技術の用途が倫理的・道徳的・合法的であるかどうかはユーザーに責任がある」とされているので、その点にご留意下さい。
Webのデモ版で体験
https://huggingface.co/spaces/stabilityai/stable-diffusion
まずは簡単な生成例
- Enter Your Prompt の部分に、英語でキーワードを羅列するだけです(以下、例)。
Mt. Fuji in the style of Hokusai
ちなみに、Negative Prompt というのは、画像に反映させたくないものをキーワードとして指定するものです。
- 数十秒で4枚の画像が生成されます(右図)。
アイコンの作成事例
アイコンやロゴの提案もできるようです。例えば
「観光コンテンツの開発」について、
以下のようなワードで試した結果が右図です。
Positive: Simple icon expressing "Development of tourism content"" Negative:characters
アイコン化する対象が「猫」のような1ワードで指定できる場合は、使えそうなものが効率よく生成されるようですが、複合的なワードの場合は意味不明な形も多数出現するようです。またネガティブキーワードに「文字」や「テキスト」などを指定しないと、変なスペルの文字列が一緒に出現するようです。
で、呪文の調整に時間がかかるようであれば、フリー素材を探すか、自分で作る方が早いか・・とも思います。
画像生成のコツ
以下のように検索すると、どんなプロンプト(呪文)で、どのような画像が生成されるか、サンプルを多数見ることができます。
Google:Stable Diffusion 呪文
利用方法
Stable Diffusion は基本的に「学習済みモデル」なので、Web上に構築された環境で動作させたり、ローカル環境にインストールして、自身でコード(Python)を書いて利用することになります。
自身で環境構築するには、Pythonのプログラミングの知識があれば、手順が理解できると思いますが、少しハードルが高くなります。様々なWebサービスがあるので、そちらを利用する方が楽かもしれません(後述)。
以下、自身で環境を構築するケースについて、その概要のみ紹介します。
Stable Diffusion Web UI
Stable Diffusion Web UI( SD/WebUI ) は、ブラウザから Stable Diffusion を利用するためのWebアプリケーションで、オープンソースとして、以下で配布されています。
https://github.com/AUTOMATIC1111/stable-diffusion-webui
SD/WebUI はブラウザから利用するWebアプリケーションです。ローカルPCにインストールするか、GoogleColaboratoryなどのクラウド環境で利用するか・・基本的にはそのいずれかになります。
ローカルインストールの方法はOSによって異なり、ターミナル(コマンドプロンプト)も利用します。以下のように検索して記事を探してみて下さい。
Google:Stable Diffusion ローカル インストール
ローカルにインストールした場合は、システム(Webアプリケーション)を起動すると、ブラウザが立ち上がって(サービスを提供するURLにアクセスするかたちで) SD/WebUI の操作画面が表示されます。あとは、そこに表示される各種のフォームからブラウザ経由でシステムにパラメータを渡して生成させる・・というイメージです。
なお、ローカル環境で利用する場合の推奨スペックは以下のとおりです。
- CPU:6コア以上
- RAM:最低16GB 推奨32GB以上
- GPU:NVIDIA製、VRAM:16GB以上推奨
- SSD:512GB以上
- OS:Windows ・Mac・Linuxいずれも対応
GoogleColaboratoryを利用する場合は、ダウンロードした学習済みモデルを Google Drive に置くとともに、ノートブック上で SD/WebUI を読み込むコードを書いて実行。表示されたページからパラメータを入力して生成・・という流れです。GoogleColaboratoryでは、毎回起動のたびにモデルや拡張機能をインストールすることになるので、起動に時間がかかります。また無料版では実質的に資源が不足することが多いので、有料版に切り替える必要があります。
参考:Google:Stable Diffusion WebUI Google Colab
学習済みモデルについて
- Stable Diffusionには現在膨大な数のモデルが公開されています。生成したい画像のタイプによって、どれを使うかを選ぶことになります。
https://huggingface.co/CompVis/stable-diffusion#model-access
https://huggingface.co/models
- 学習済みモデルには safetensors と ckpt という2つの形式が存在します。
Stable Deffusion を利用したアプリ・サービス
- AI Picasso https://aipicasso.app/
- Dream Studio https://beta.dreamstudio.ai/dream
- Japanese Stable Diffusion
- https://github.com/rinnakk/japanese-stable-diffusion
- お絵描きばりぐっどくん https://page.line.me/977ieiqs
JapaneseStable Diffusion をLINE上で利用できるようにした bot
- Mage https://www.mage.space/
- Memeplex https://memeplex.app/
- Blenderプラグイン Google:Stable Diffusion Blenderプラグイン
- Photoshopプラグイン Google:Stable Diffusion Photoshopプラグイン
付記
実際に試してみるとわかりますが、与えられたワードをもとに短時間でイメージを作り出す能力は人間を凌駕するレベルです。
あらゆる分野で「AIに仕事を奪われる」ということが危機感をもって語られていますが、テクノロジーによって「商品」が安価になるという現象は AIの登場以前から進行していました。様々なテンプレートやフリー素材が、仕事を減らし、クリエイターの時間単価を下げてきたことは明らかです。
19世紀の半ば、写真術が登場したときも、いわゆる職業画家としての仕事は激減しましたが、一方で画家は自由な表現を追求することができるようになりました。また1980年代後半 DTM の登場は、万人に楽曲制作の楽しみを提供するとともに、プロの作曲家の制作効率を上げ表現の幅を広げる存在になりました。AI による作画も同じで、これをひとつの転機と捉えて、その可能性を探る流れが生まれるでしょう。収入を得るためだけの「商品製造」を AI で効率化することで、画家はさらなる自由を手に入れることができるのです。
芸術は、商品経済の奴隷から開放されて、ようやく本来のポジションを取り戻したと言えるのかもしれません。