LogoMark.png

StableDiffusion のバックアップソース(No.1)

#author("2023-01-11T16:20:00+09:00;1970-01-01T18:00:00+09:00","default:inoue.ko","inoue.ko")
*Stable Diffusion
https://stability.ai/
~

Stable Diffusionは、ミュンヘン大学のCompVis グループが開発し、 2022年にStability AI、CompVis LMU、Runwayの三者が共同で公開した画像生成モデルで、テキストに基づく画像生成を行います(Text-to-Image Model)。

Stable Diffusionを開発した Stability.Ai は、これを「人間による、人間のためのAI」、「すべての人に創造性の贈り物をもたらす」と説明しています。
~
~

**概要
***基本情報
-公式サイト:https://stability.ai/
~

***特徴
DALL-E2 や[[Midjourney]]など、クラウドサービスを利用する従来型のプロプライエタリなモデルとは異なり、消費者向けの一般的なハードウェア(8GB程度のVRAMを持つGPU搭載機)で実行可能です。

潜在拡散モデルと呼ばれる、深層生成ニューラルネットワークの一種として、そのコードも一般公開されています。

Stable Diffusion のモデル学習に使用された画像データベースは、関連の非営利団体である Common Crawl が Webスクレイピングによって収集したもので、その中でも LAION-Aesthetics と呼ばれるデータが訓練に使用されたと言われます。このデータは Aesthetic Score(美的予測スコア)を持っていて、人の審美眼に合う画像が生成できるという特徴を持っています。

Stable Diffusion は学習済みモデルとソースコードを公開していいて、ユーザーは、生成された画像の権利を所有し、自由に商用利用可能です。

生成モデルが、権利者の同意なしに著作権のある画像を用いた学習を行っているため、画像の使用やユーザーに提供される自由について、所有権をめぐる論争があること、また、ユーザーが生成できるコンテンツの種類に寛容な姿勢をとっていて(暴力や性描写などに寛容)、「この技術の用途が倫理的・道徳的・合法的であるかどうかはユーザーに責任がある」とされていることに留意が必要です。
~
~

**利用方法
***Webのデモ版で体験
https://huggingface.co/spaces/stabilityai/stable-diffusion

-Enter Your Prompt の部分に、英語でキーワードを羅列するだけです。
 Mt. Fuji in the style of Hokusai

#image(StableDiffusion01.jpg,right,30%)
-数十秒で4枚の画像が生成されます(右図)。
~

***GoogleColaboratoryで利用
Python のコードで実行できるので、__[[GoogleColaboratory]]__が使えます。
(書きかけです)
~
~

**関連LINK
-JapaneseStable Diffusion
--https://github.com/rinnakk/japanese-stable-diffusion
--rinna社が開発した日本語に特化した画像生成モデル
--日本特有の画像を追加学習していて、日本風の作画が可能
--日本語でのプロンプト入力に対応

-お絵描きばりぐっどくん
--https://page.line.me/877ieiqs
--JapaneseStable Diffusion をLINE上で利用できるようにした bot
~
~