LogoMark.png

StableDiffusion のバックアップ差分(No.2)


#author("2023-01-11T16:20:00+09:00;1970-01-01T18:00:00+09:00","default:inoue.ko","inoue.ko")
#author("2023-01-11T19:06:37+09:00;2023-01-11T16:22:27+09:00","default:inoue.ko","inoue.ko")
*Stable Diffusion
https://stability.ai/
~

Stable Diffusionは、ミュンヘン大学のCompVis グループが開発し、 2022年にStability AI、CompVis LMU、Runwayの三者が共同で公開した画像生成モデルで、テキストに基づく画像生成を行います(Text-to-Image Model)。

Stable Diffusionを開発した Stability.Ai は、これを「人間による、人間のためのAI」、「すべての人に創造性の贈り物をもたらす」と説明しています。
~
~

**概要
***基本情報
-公式サイト:https://stability.ai/
-モデル公開:https://huggingface.co/CompVis/stable-diffusion
Model Access の欄にモデル一覧があります。各モデルはモデルカードと呼ばれるページごとに公開されています。
~

***特徴
***技術の概略
DALL-E2 や[[Midjourney]]など、クラウドサービスを利用する従来型のプロプライエタリなモデルとは異なり、消費者向けの一般的なハードウェア(8GB程度のVRAMを持つGPU搭載機)で実行可能です。

潜在拡散モデルと呼ばれる、深層生成ニューラルネットワークの一種として、そのコードも一般公開されています。

Stable Diffusion のモデル学習に使用された画像データベースは、関連の非営利団体である Common Crawl が Webスクレイピングによって収集したもので、その中でも LAION-Aesthetics と呼ばれるデータが訓練に使用されたと言われます。このデータは Aesthetic Score(美的予測スコア)を持っていて、人の審美眼に合う画像が生成できるという特徴を持っています。

Stable Diffusion は学習済みモデルとソースコードを公開していいて、ユーザーは、生成された画像の権利を所有し、自由に商用利用可能です。
~

***留意事項
生成モデルが、権利者の同意なしに著作権のある画像を用いた学習を行っているため、画像の使用やユーザーに提供される自由について、所有権をめぐる論争があること、また、ユーザーが生成できるコンテンツの種類に寛容な姿勢をとっていて(暴力や性描写などに寛容)、「この技術の用途が倫理的・道徳的・合法的であるかどうかはユーザーに責任がある」とされていることに留意が必要です。
~
~

**利用方法
***Webのデモ版で体験
https://huggingface.co/spaces/stabilityai/stable-diffusion

-Enter Your Prompt の部分に、英語でキーワードを羅列するだけです。
~
#image(StableDiffusion01.jpg,right,30%)
-Enter Your Prompt の部分に、英語でキーワードを羅列するだけです(以下、例)。
 Mt. Fuji in the style of Hokusai

#image(StableDiffusion01.jpg,right,30%)

-数十秒で4枚の画像が生成されます(右図)。
~

-他にも、以下のようなサービスを利用した生成が可能です。
--[[Dream Studio>https://stabilityai.us.auth0.com/u/login?state=hKFo2SB5Wm1ya0ZpQzc3TVhzZkhBWnM2SkVIRktxckROeDR0eaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIE43TjZaZC1Ec0pTLXl3ekVJMGV2bEdpQVQ1OUN3elhjo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4]] Googleアカウントで利用できます。
--[[Mage:https://www.mage.space/]]
~


***GoogleColaboratoryで利用
Python のコードで実行できるので、__[[GoogleColaboratory]]__が使えます。
(書きかけです)
Python のコードで実行できるのですが、高速なGPUが必要です。個人のPCでは重いこともあるので、その場合は、__[[GoogleColaboratory]]__を使って、クラウドの資源を利用させてもらう・・という手があります。

-以下のページに、詳しい解説があります。
--__[[Stable Diffusion を Google Colab でシンプルに体験する方法>https://gammasoft.jp/blog/simple-way-to-try-stable-diffusion/]]__
--モデル(4GBほど)をダウンロードして、Google Drive にアップする必要があります。それなりに容量を使うと考えて下さい。
~

***自身のPCにインストール
ローカル環境で利用を行う場合、以下のスペックが推奨されています。
 NVIDIA RTX20 シリーズ以降
 VRAM:6GB以上

-Python をローカルで使う知識が必要です。 
-以下のように検索すると多数ヒットします。
[[Google:Stable Diffusion ローカル インストール]]
~
~

**関連LINK
-JapaneseStable Diffusion
--https://github.com/rinnakk/japanese-stable-diffusion
--rinna社が開発した日本語に特化した画像生成モデル
--日本特有の画像を追加学習していて、日本風の作画が可能
--日本語でのプロンプト入力に対応

-お絵描きばりぐっどくん
--https://page.line.me/877ieiqs
--JapaneseStable Diffusion をLINE上で利用できるようにした bot
~
~
~