LogoMark.png

StableDiffusion のバックアップソース(No.6)

#author("2023-02-25T16:17:30+09:00;2023-01-11T19:49:15+09:00","default:inoue.ko","inoue.ko")
*Stable Diffusion
https://stability.ai/
~

Stable Diffusionは、ミュンヘン大学のCompVis グループが開発し、 2022年にStability AI、CompVis LMU、Runwayの三者が共同で公開した画像生成モデルで、テキストに基づく画像生成を行います(Text-to-Image Model)。

Stable Diffusionを開発した Stability.Ai は、これを「人間による、人間のためのAI」、「すべての人に創造性の贈り物をもたらす」と説明しています。
~
~

**概要
***基本情報
-公式サイト:https://stability.ai/
-モデル公開:https://huggingface.co/CompVis/stable-diffusion
Model Access の欄にモデル一覧があります。各モデルはモデルカードと呼ばれるページごとに公開されています。
~

***技術の概略
DALL-E2 や[[Midjourney]]など、クラウドサービスを利用する従来型のプロプライエタリなモデルとは異なり、消費者向けの一般的なハードウェア(8GB程度のVRAMを持つGPU搭載機)で実行可能です。

潜在拡散モデルと呼ばれる、深層生成ニューラルネットワークの一種として、そのコードも一般公開されています。

Stable Diffusion のモデル学習に使用された画像データベースは、関連の非営利団体である Common Crawl が Webスクレイピングによって収集したもので、その中でも LAION-Aesthetics と呼ばれるデータが訓練に使用されたと言われます。このデータは Aesthetic Score(美的予測スコア)を持っていて、人の審美眼に合う画像が生成できるという特徴を持っています。

Stable Diffusion は学習済みモデルとソースコードを公開していいて、ユーザーは、生成された画像の権利を所有し、自由に商用利用可能です。
~

***留意事項
生成モデルが、権利者の同意なしに著作権のある画像を用いた学習を行っているため、画像の使用やユーザーに提供される自由について、所有権をめぐる論争があること、また、ユーザーが生成できるコンテンツの種類に寛容な姿勢をとっていて(暴力や性描写などに寛容)、「この技術の用途が倫理的・道徳的・合法的であるかどうかはユーザーに責任がある」とされていることに留意が必要です。
~
~

**利用方法
***Webのデモ版で体験
https://huggingface.co/spaces/stabilityai/stable-diffusion
~
#image(StableDiffusion01.jpg,right,30%)
-Enter Your Prompt の部分に、英語でキーワードを羅列するだけです(以下、例)。
 Mt. Fuji in the style of Hokusai
&small(ちなみに、Negative Prompt というのは、画像に反映させたくないものをキーワードとして指定するものです。);

-数十秒で4枚の画像が生成されます(右図)。
~

-他にも、以下のようなサービスを利用した生成が可能です。
--[[Dream Studio>https://stabilityai.us.auth0.com/u/login?state=hKFo2SB5Wm1ya0ZpQzc3TVhzZkhBWnM2SkVIRktxckROeDR0eaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIE43TjZaZC1Ec0pTLXl3ekVJMGV2bEdpQVQ1OUN3elhjo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4]] Googleアカウントで利用できます。
--[[Mage>https://www.mage.space/]]
~


***GoogleColaboratoryで利用
Python のコードで実行できるのですが、高速なGPUが必要です。個人のPCでは重いこともあるので、その場合は、__[[GoogleColaboratory]]__を使って、クラウドの資源を利用させてもらう・・という手があります。

-以下のページに、詳しい解説があります(ソースコード付きです)。
__[[GAMMASOFT|Stable Diffusion を Diffusersライブラリで実行する方法>https://gammasoft.jp/blog/stable-diffusion-with-diffusers-library/]]__
~

***自身のPCにインストール
ローカル環境で利用を行う場合、以下のスペックが推奨されています。
 NVIDIA RTX20 シリーズ以降
 VRAM:6GB以上

-Python をローカルで使う知識が必要です。 
-以下のように検索すると解説記事が多数ヒットします。
[[Google:Stable Diffusion ローカル インストール]]
~

***画像生成のコツ
以下のように検索すると、どんなプロンプト(呪文)で、どのような画像が生成されるか、サンプルを多数見ることができます。
[[Google:Stable Diffusion 呪文]]
~
~

**関連LINK
-JapaneseStable Diffusion
--https://github.com/rinnakk/japanese-stable-diffusion
--rinna社が開発した日本語に特化した画像生成モデル
--日本特有の画像を追加学習していて、日本風の作画が可能
--日本語でのプロンプト入力に対応

-お絵描きばりぐっどくん
--https://page.line.me/877ieiqs
--JapaneseStable Diffusion をLINE上で利用できるようにした bot
~
~
**付記
実際に試してみるとわかりますが、与えられたワードをもとに短時間でイメージを作り出す能力は人間を凌駕するレベルです。

あらゆる分野で「AIに仕事を奪われる」ということが危機感をもって語られていますが、テクノロジーによって「商品」が安価になるという現象は AIの登場以前から進行していました。様々なテンプレートやフリー素材が、仕事を減らし、クリエイターの時間単価を下げてきたことは明らかです。

19世紀の半ば、写真術が登場したときも、いわゆる職業画家としての仕事は激減しましたが、一方で画家は自由な表現を追求することができるようになりました。また1980年代後半 DTM の登場は、万人に楽曲制作の楽しみを提供するとともに、プロの作曲家の制作効率を上げ表現の幅を広げる存在になりました。AI による作画も同じで、これをひとつの転機と捉えて、その可能性を探る流れが生まれるでしょう。収入を得るためだけの「商品製造」を AI で効率化することで、画家はさらなる自由を手に入れることができるのです。

芸術は、商品経済の奴隷から開放されて、ようやく本来のポジションを取り戻したと言えるのかもしれません。
~

***関連ページ
-[[ChatGPT]]
-[[Midjourney]]
-[[情報災害]]
~
~

~