https://github.com/justinpinkney/stable-diffusion
生成画像からイメージバリエーションを生成するフォーク
・元々あるCLIPテキストエンコーダを削除して、CLIPイメージエンコーダに変えた
インプットイメージに似ているが、細部が違うバリエーションを生成する
(img2imgとは完全に違うアプローチ)
・モデルもファインチューニングしたものを用意(LAION aethetics v26+ datasetを学習)
---
CLIP=言語ガイダンスだと思ってたら、CLIPイメージエンコーダなんてあるんだと初めて知った
モデルはこの機能と独立した改善版なのかな?
生成画像からイメージバリエーションを生成するフォーク
・元々あるCLIPテキストエンコーダを削除して、CLIPイメージエンコーダに変えた
インプットイメージに似ているが、細部が違うバリエーションを生成する
(img2imgとは完全に違うアプローチ)
・モデルもファインチューニングしたものを用意(LAION aethetics v26+ datasetを学習)
---
CLIP=言語ガイダンスだと思ってたら、CLIPイメージエンコーダなんてあるんだと初めて知った
モデルはこの機能と独立した改善版なのかな?