電通総研 テックブログ

電通総研が運営する技術ブログ

Stable Diffusion v1.5 美少女画検証

電通国際情報サービス、オープンイノベーションラボの比嘉康雄です。 Stable Diffusionシリーズ、今回は、Stable Diffusion v1.5が出たので早速、Stable Diffusionが比較的苦手な美少女画で検証してみました。

StabilityAIではなく、Runawaymlからv1.5がリリースされたので、StabilityAIが削除申請を出したのですが、取り下げたようです。

huggingface.co

Stable Diffusionのおすすめコンテンツはこちら。

ライセンスへの同意

https://huggingface.co/runwayml/stable-diffusion-v1-5 にアクセスして、ライセンスに同意してください。

huggingfaceへのログイン

ここからは、Google Colabでの作業になります。

huggingfaceへログインします。

from huggingface_hub import notebook_login
from pathlib import Path

if not (Path.home()/'.huggingface'/'token').exists(): notebook_login()

必要なモジュールのインストール

必要なモジュールをインストールします。diffusersのバージョンが特に明示されていなかったので、今回は、 TPU版の使い方で使った0.5.1を使ってみました。

!pip install diffusers==0.5.1 transformers scipy ftfy

pipeの作成

pipeを作成します。以前とmodel_idが異なることに注意してください。

from diffusers import StableDiffusionPipeline
import torch

model_id = "runwayml/stable-diffusion-v1-5"
device = "cuda"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, revision="fp16")
pipe = pipe.to(device)

画像の出力

画像を出力します。以前は、image = pipe(prompt)["sample"][0]でした。

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0] 

美少女画による検証

Stable Diffusionが比較的苦手な美少女画で検証します。結論から先に書くとv1.4より多少良くなっているけど、劇的に改善されたわけではないと言ったところでしょうか。

今回載せた画像は、意図的にイマイチだったものを選んでいます。クオリティの高い画像は、何度かやり直せば必ず出力できるので。

日本的な美少女アニメ

Stable Diffusionが最も苦手とするのが、日本的な美少女アニメ画です。v1.4では、顔が崩れる、目が変、手が変といった問題がときどき(起きる頻度は呪文によって変わる)起きていました。

v1.5では、顔が崩れる、目が変という問題は、多少改善されていますが、まだ完璧ではありません。手が変という問題は、数十回試した限りは、全く改善されていないように感じます。

今回試した呪文はこちら。

anime of
tsundere moe kawaii beautiful girl
pixiv niconico artstation deviantart newgrounds tumblr
fantasy scene fantasy composition fantasy lighting
PlayStation5 octane render

イマイチだった出力結果はこちら。

美少女イラスト

美少女アニメ画の呪文のanimeillustrationに変え、tsunderemoekawaiipixivniconicoを削ったものが、美少女イラストの呪文です。

この呪文はかなり安定していて、たまに手が変になるくらいです。

今回試した呪文はこちら。

illustration of
beautiful girl
artstation deviantart newgrounds tumblr
fantasy scene fantasy composition fantasy lighting
PlayStation5 octane render

イマイチだった出力結果はこちら。

美少女写真

美少女写真は、安定(変にならない)度で、美少女イラストには劣りますが、日本的な美少女アニメ画よりは、安定しています。感覚的には、美少女イラスト > 美少女写真 >>> 日本的な美少女アニメ画といったところでしょうか。

今回試した呪文はこちら。

photo of
beautiful girl
SIGMA 85 mm F1.4 artstation
impressive scene impressive composition impressive lighting

イマイチだった出力結果はこちら。

まとめ

今回、Stable Diffusion v1.5を検証してみました。日本的な美少女アニメ画の安定度が悪いと感じたかもしれませんが、比較的辛口に評価したので、実際のv1.5の評価は、ご自分でなさることをお勧めします。

日本的な美少女アニメ画もhead shot(顔写真)の呪文を加えれば、手が写ることはほとんどないので、次のようなクオリティの画像は連発できます。head shotにすると構図が限られるので、あまり使ってこなかったのですが、日本的な美少女アニメ画では、head shotを必須にして安定度をとったほうが良いかもしれません。

head shotにするとStable Diffusionが顔に注目するせいか、顔が変になったり、目が変になったりすることもほとんどなくなるようです。

次回は、東京タワーの写真です。

仲間募集

私たちは同じグループで共に働いていただける仲間を募集しています。
現在、以下のような職種を募集しています。

Stable Diffusionの全コンテンツ

執筆:@higaShodoで執筆されました