StableDiffusion のバックアップ(No.8)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
StableDiffusion へ行く。
- 1 (2023-01-11 (水) 16:20:20)
- 2 (2023-01-11 (水) 16:22:27)
- 3 (2023-01-11 (水) 19:49:15)
- 4 (2023-01-11 (水) 19:49:15)
- 5 (2023-01-11 (水) 19:49:15)
- 6 (2023-01-11 (水) 19:49:15)
- 7 (2023-03-11 (土) 14:36:31)
- 8 (2023-03-11 (土) 14:36:31)

Stable Diffusion

Stable Diffusionは、ミュンヘン大学のCompVis グループが開発し、 2022年にStability AI、CompVis LMU、Runwayの三者が共同で公開した画像生成モデルで、テキストに基づく画像生成を行います（Text-to-Image Model）。

Stable Diffusionを開発した Stability.Ai は、これを「人間による、人間のためのAI」、「すべての人に創造性の贈り物をもたらす」と説明しています。

↑

概要

↑

基本情報

公式サイト：https://stability.ai/
モデル公開：https://huggingface.co/CompVis/stable-diffusion
Model Access の欄にモデル一覧があります。各モデルはモデルカードと呼ばれるページごとに公開されています。

↑

技術の概略

DALL-E2 やMidjourneyなど、クラウドサービスを利用する従来型のプロプライエタリなモデルとは異なり、消費者向けの一般的なハードウェア（8GB程度のVRAMを持つGPU搭載機）で実行可能です。

潜在拡散モデルと呼ばれる、深層生成ニューラルネットワークの一種として、そのコードも一般公開されています。

Stable Diffusion のモデル学習に使用された画像データベースは、関連の非営利団体である Common Crawl が Webスクレイピングによって収集したもので、その中でも LAION-Aesthetics と呼ばれるデータが訓練に使用されたと言われます。このデータは Aesthetic Score（美的予測スコア）を持っていて、人の審美眼に合う画像が生成できるという特徴を持っています。

Stable Diffusion は学習済みモデルとソースコードを公開していいて、ユーザーは、生成された画像の権利を所有し、自由に商用利用可能です。

↑

留意事項

生成モデルが、権利者の同意なしに著作権のある画像を用いた学習を行っているため、画像の使用やユーザーに提供される自由について、所有権をめぐる論争があること、また、ユーザーが生成できるコンテンツの種類に寛容な姿勢をとっていて（暴力や性描写などに寛容）、「この技術の用途が倫理的・道徳的・合法的であるかどうかはユーザーに責任がある」とされていることに留意が必要です。

↑

利用方法

↑

Webのデモ版で体験

https://huggingface.co/spaces/stabilityai/stable-diffusion

Enter Your Prompt の部分に、英語でキーワードを羅列するだけです（以下、例）。
```
Mt. Fuji in the style of Hokusai
```
ちなみに、Negative Prompt というのは、画像に反映させたくないものをキーワードとして指定するものです。

数十秒で４枚の画像が生成されます（右図）。

↑

アイコンの作成事例

アイコンやロゴの提案もできるようです。例えば
「観光コンテンツの開発」について、
以下のようなワードで試した結果が右図です。

Positive： Simple icon expressing
 　　　　"Development of tourism content""
Negative：characters

アイコン化する対象が「猫」のような１ワードで指定できる場合は、使えそうなものが効率よく生成されるようですが、複合的なワードの場合は意味不明な形も多数出現するようです。またネガティブキーワードに「文字」や「テキスト」などを指定しないと、変なスペルの文字列が一緒に出現するようです。

で、呪文の調整に時間がかかるようであれば、フリー素材を探すか、自分で作る方が早いか・・とも思います。

↑

その他

以下のようなサービスを利用した生成が可能です。

Dream Studio　Googleアカウントで利用できます。
Mage

↑

GoogleColaboratoryで利用

Python のコードで実行できるのですが、高速なGPUが必要です。個人のPCでは重いこともあるので、その場合は、GoogleColaboratoryを使って、クラウドの資源を利用させてもらう・・という手があります。

以下のページに、詳しい解説があります（ソースコード付きです）。
GAMMASOFT｜Stable Diffusion を Diffusersライブラリで実行する方法

↑

自身のPCにインストール

ローカル環境で利用を行う場合、以下のスペックが推奨されています。

NVIDIA RTX20 シリーズ以降
VRAM：6GB以上

Python をローカルで使う知識が必要です。
以下のように検索すると解説記事が多数ヒットします。
Google:Stable Diffusion ローカルインストール

↑

画像生成のコツ

以下のように検索すると、どんなプロンプト（呪文）で、どのような画像が生成されるか、サンプルを多数見ることができます。
Google:Stable Diffusion 呪文

↑

付記

実際に試してみるとわかりますが、与えられたワードをもとに短時間でイメージを作り出す能力は人間を凌駕するレベルです。

あらゆる分野で「AIに仕事を奪われる」ということが危機感をもって語られていますが、テクノロジーによって「商品」が安価になるという現象は AIの登場以前から進行していました。様々なテンプレートやフリー素材が、仕事を減らし、クリエイターの時間単価を下げてきたことは明らかです。

19世紀の半ば、写真術が登場したときも、いわゆる職業画家としての仕事は激減しましたが、一方で画家は自由な表現を追求することができるようになりました。また1980年代後半 DTM の登場は、万人に楽曲制作の楽しみを提供するとともに、プロの作曲家の制作効率を上げ表現の幅を広げる存在になりました。AI による作画も同じで、これをひとつの転機と捉えて、その可能性を探る流れが生まれるでしょう。収入を得るためだけの「商品製造」を AI で効率化することで、画家はさらなる自由を手に入れることができるのです。

芸術は、商品経済の奴隷から開放されて、ようやく本来のポジションを取り戻したと言えるのかもしれません。

↑