Update README.md
Browse files
README.md
CHANGED
@@ -13,7 +13,7 @@ license_link: LICENSE.md
|
|
13 |
# はじめに
|
14 |
Emi 3 (Ethereal master of illustration 3) は、
|
15 |
AI Picasso社が開発したAIアートに特化した画像生成AIです。
|
16 |
-
このモデルの特徴として、Danbooru
|
17 |
|
18 |
# 使い方
|
19 |
[ここ](https://huggingface.co/spaces/aipicasso/emi-3)からデモを利用することができます。
|
@@ -38,20 +38,10 @@ [email protected]
|
|
38 |
## モデル詳細
|
39 |
- **モデルタイプ:** 拡散モデルベースの text-to-image 生成モデル
|
40 |
- **言語:** 日本語
|
41 |
-
- **ライセンス:** [
|
42 |
-
- **モデルの説明:** このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは [
|
43 |
- **補足:**
|
44 |
-
|
45 |
-
```bibtex
|
46 |
-
@misc{podell2023sdxl,
|
47 |
-
title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis},
|
48 |
-
author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
|
49 |
-
year={2023},
|
50 |
-
eprint={2307.01952},
|
51 |
-
archivePrefix={arXiv},
|
52 |
-
primaryClass={cs.CV}
|
53 |
-
}
|
54 |
-
```
|
55 |
|
56 |
## モデルの使用例
|
57 |
|
@@ -72,28 +62,27 @@ Stable Diffusion XL 1.0 の使い方と同じく、safetensors形式のモデル
|
|
72 |
まずは、以下のスクリプトを実行し、ライブラリをいれてください。
|
73 |
|
74 |
```bash
|
75 |
-
pip install
|
76 |
```
|
77 |
|
78 |
次のスクリプトを実行し、画像を生成してください。
|
79 |
|
80 |
-
```
|
81 |
-
from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
|
82 |
import torch
|
|
|
83 |
|
84 |
-
|
85 |
-
|
86 |
-
scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id,subfolder="scheduler")
|
87 |
-
pipe = StableDiffusionXLPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.bfloat16)
|
88 |
pipe = pipe.to("cuda")
|
89 |
|
90 |
-
|
91 |
-
|
92 |
-
|
93 |
-
|
|
|
|
|
94 |
```
|
95 |
|
96 |
-
複雑な操作は[デモのソースコード](https://huggingface.co/spaces/aipicasso/emi-
|
97 |
|
98 |
#### 想定される用途
|
99 |
- イラストや漫画、アニメの作画補助
|
@@ -143,8 +132,8 @@ images[0].save("girl.png")
|
|
143 |
|
144 |
**学習データ**
|
145 |
|
146 |
-
- Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて手動で集めた約3000枚の画像
|
147 |
-
- Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて自動で集めた約50万枚の画像
|
148 |
- [CosmicMan-SDXL](https://huggingface.co/cosmicman/CosmicMan-SDXL)
|
149 |
|
150 |
**学習プロセス**
|
@@ -164,22 +153,13 @@ images[0].save("girl.png")
|
|
164 |
## 参考文献
|
165 |
|
166 |
```bibtex
|
167 |
-
@misc{
|
168 |
-
title={
|
169 |
-
author={
|
170 |
-
year={
|
171 |
-
eprint={
|
172 |
archivePrefix={arXiv},
|
173 |
-
primaryClass={cs.CV}
|
|
|
174 |
}
|
175 |
```
|
176 |
-
|
177 |
-
```bibtex
|
178 |
-
@article{li2024cosmicman,
|
179 |
-
title={CosmicMan: A Text-to-Image Foundation Model for Humans},
|
180 |
-
author={Li, Shikai and Fu, Jianglin and Liu, Kaiyuan and Wang, Wentao and Lin, Kwan-Yee and Wu, Wayne},
|
181 |
-
journal={arXiv preprint arXiv:2404.01294},
|
182 |
-
year={2024}
|
183 |
-
}
|
184 |
-
|
185 |
-
```
|
|
|
13 |
# はじめに
|
14 |
Emi 3 (Ethereal master of illustration 3) は、
|
15 |
AI Picasso社が開発したAIアートに特化した画像生成AIです。
|
16 |
+
このモデルの特徴として、Danbooruなどにある無断転載画像を追加に学習していないことがあげられます。
|
17 |
|
18 |
# 使い方
|
19 |
[ここ](https://huggingface.co/spaces/aipicasso/emi-3)からデモを利用することができます。
|
|
|
38 |
## モデル詳細
|
39 |
- **モデルタイプ:** 拡散モデルベースの text-to-image 生成モデル
|
40 |
- **言語:** 日本語
|
41 |
+
- **ライセンス:** [Stabilityai AI Community](LICENSE.md)
|
42 |
+
- **モデルの説明:** このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは [Rectified Flow Transformer](https://stability.ai/news/stable-diffusion-3-research-paper) と [OpenCLIP-ViT/G](https://github.com/mlfoundations/open_clip)、[CLIP-L](https://github.com/openai/CLIP) 、[T5](https://arxiv.org/abs/1910.10683) です。
|
43 |
- **補足:**
|
44 |
+
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
45 |
|
46 |
## モデルの使用例
|
47 |
|
|
|
62 |
まずは、以下のスクリプトを実行し、ライブラリをいれてください。
|
63 |
|
64 |
```bash
|
65 |
+
pip install -U diffusers
|
66 |
```
|
67 |
|
68 |
次のスクリプトを実行し、画像を生成してください。
|
69 |
|
70 |
+
```py
|
|
|
71 |
import torch
|
72 |
+
from diffusers import StableDiffusion3Pipeline
|
73 |
|
74 |
+
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
|
|
|
|
|
|
|
75 |
pipe = pipe.to("cuda")
|
76 |
|
77 |
+
image = pipe(
|
78 |
+
"A capybara holding a sign that reads Hello World",
|
79 |
+
num_inference_steps=28,
|
80 |
+
guidance_scale=3.5,
|
81 |
+
).images[0]
|
82 |
+
image.save("capybara.png")
|
83 |
```
|
84 |
|
85 |
+
複雑な操作は[デモのソースコード](https://huggingface.co/spaces/aipicasso/emi-3/blob/main/app.py)を参考にしてください。
|
86 |
|
87 |
#### 想定される用途
|
88 |
- イラストや漫画、アニメの作画補助
|
|
|
132 |
|
133 |
**学習データ**
|
134 |
|
135 |
+
- Stable Diffusion 3.5 Largeと同様のデータセットからDanbooruの無断転載画像を取り除いて手動で集めた約3000枚の画像
|
136 |
+
- Stable Diffusion 3.5 Largeと同様のデータセットからDanbooruの無断転載画像を取り除いて自動で集めた約50万枚の画像
|
137 |
- [CosmicMan-SDXL](https://huggingface.co/cosmicman/CosmicMan-SDXL)
|
138 |
|
139 |
**学習プロセス**
|
|
|
153 |
## 参考文献
|
154 |
|
155 |
```bibtex
|
156 |
+
@misc{esser2024scalingrectifiedflowtransformers,
|
157 |
+
title={Scaling Rectified Flow Transformers for High-Resolution Image Synthesis},
|
158 |
+
author={Patrick Esser and Sumith Kulal and Andreas Blattmann and Rahim Entezari and Jonas Müller and Harry Saini and Yam Levi and Dominik Lorenz and Axel Sauer and Frederic Boesel and Dustin Podell and Tim Dockhorn and Zion English and Kyle Lacey and Alex Goodwin and Yannik Marek and Robin Rombach},
|
159 |
+
year={2024},
|
160 |
+
eprint={2403.03206},
|
161 |
archivePrefix={arXiv},
|
162 |
+
primaryClass={cs.CV},
|
163 |
+
url={https://arxiv.org/abs/2403.03206},
|
164 |
}
|
165 |
```
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|