Text-to-Image
Diffusers
Safetensors
English
StableDiffusion3Pipeline
alfredplpl commited on
Commit
93afff2
·
verified ·
1 Parent(s): 36b27f9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +24 -44
README.md CHANGED
@@ -13,7 +13,7 @@ license_link: LICENSE.md
13
  # はじめに
14
  Emi 3 (Ethereal master of illustration 3) は、
15
  AI Picasso社が開発したAIアートに特化した画像生成AIです。
16
- このモデルの特徴として、Danbooruなどにある無断転載画像を学習していないことがあげられます。
17
 
18
  # 使い方
19
  [ここ](https://huggingface.co/spaces/aipicasso/emi-3)からデモを利用することができます。
@@ -38,20 +38,10 @@ [email protected]
38
  ## モデル詳細
39
  - **モデルタイプ:** 拡散モデルベースの text-to-image 生成モデル
40
  - **言語:** 日本語
41
- - **ライセンス:** [CreativeML Open RAIL++-M License](LICENSE.md)
42
- - **モデルの説明:** このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは [Latent Diffusion Model](https://arxiv.org/abs/2307.01952) と [OpenCLIP-ViT/G](https://github.com/mlfoundations/open_clip)、[CLIP-L](https://github.com/openai/CLIP) です。
43
  - **補足:**
44
- - **参考文献:**
45
- ```bibtex
46
- @misc{podell2023sdxl,
47
- title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis},
48
- author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
49
- year={2023},
50
- eprint={2307.01952},
51
- archivePrefix={arXiv},
52
- primaryClass={cs.CV}
53
- }
54
- ```
55
 
56
  ## モデルの使用例
57
 
@@ -72,28 +62,27 @@ Stable Diffusion XL 1.0 の使い方と同じく、safetensors形式のモデル
72
  まずは、以下のスクリプトを実行し、ライブラリをいれてください。
73
 
74
  ```bash
75
- pip install invisible_watermark transformers accelerate safetensors diffusers
76
  ```
77
 
78
  次のスクリプトを実行し、画像を生成してください。
79
 
80
- ```python
81
- from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
82
  import torch
 
83
 
84
- model_id = "aipicasso/emi-2-5"
85
-
86
- scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id,subfolder="scheduler")
87
- pipe = StableDiffusionXLPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.bfloat16)
88
  pipe = pipe.to("cuda")
89
 
90
- prompt = "1girl, upper body, brown bob short hair, brown eyes, looking at viewer, cherry blossom"
91
- images = pipe(prompt, num_inference_steps=20).images
92
- images[0].save("girl.png")
93
-
 
 
94
  ```
95
 
96
- 複雑な操作は[デモのソースコード](https://huggingface.co/spaces/aipicasso/emi-2-demo/blob/main/app.py)を参考にしてください。
97
 
98
  #### 想定される用途
99
  - イラストや漫画、アニメの作画補助
@@ -143,8 +132,8 @@ images[0].save("girl.png")
143
 
144
  **学習データ**
145
 
146
- - Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて手動で集めた約3000枚の画像
147
- - Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて自動で集めた約50万枚の画像
148
  - [CosmicMan-SDXL](https://huggingface.co/cosmicman/CosmicMan-SDXL)
149
 
150
  **学習プロセス**
@@ -164,22 +153,13 @@ images[0].save("girl.png")
164
  ## 参考文献
165
 
166
  ```bibtex
167
- @misc{podell2023sdxl,
168
- title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis},
169
- author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
170
- year={2023},
171
- eprint={2307.01952},
172
  archivePrefix={arXiv},
173
- primaryClass={cs.CV}
 
174
  }
175
  ```
176
-
177
- ```bibtex
178
- @article{li2024cosmicman,
179
- title={CosmicMan: A Text-to-Image Foundation Model for Humans},
180
- author={Li, Shikai and Fu, Jianglin and Liu, Kaiyuan and Wang, Wentao and Lin, Kwan-Yee and Wu, Wayne},
181
- journal={arXiv preprint arXiv:2404.01294},
182
- year={2024}
183
- }
184
-
185
- ```
 
13
  # はじめに
14
  Emi 3 (Ethereal master of illustration 3) は、
15
  AI Picasso社が開発したAIアートに特化した画像生成AIです。
16
+ このモデルの特徴として、Danbooruなどにある無断転載画像を追加に学習していないことがあげられます。
17
 
18
  # 使い方
19
  [ここ](https://huggingface.co/spaces/aipicasso/emi-3)からデモを利用することができます。
 
38
  ## モデル詳細
39
  - **モデルタイプ:** 拡散モデルベースの text-to-image 生成モデル
40
  - **言語:** 日本語
41
+ - **ライセンス:** [Stabilityai AI Community](LICENSE.md)
42
+ - **モデルの説明:** このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは [Rectified Flow Transformer](https://stability.ai/news/stable-diffusion-3-research-paper) と [OpenCLIP-ViT/G](https://github.com/mlfoundations/open_clip)、[CLIP-L](https://github.com/openai/CLIP) 、[T5](https://arxiv.org/abs/1910.10683) です。
43
  - **補足:**
44
+
 
 
 
 
 
 
 
 
 
 
45
 
46
  ## モデルの使用例
47
 
 
62
  まずは、以下のスクリプトを実行し、ライブラリをいれてください。
63
 
64
  ```bash
65
+ pip install -U diffusers
66
  ```
67
 
68
  次のスクリプトを実行し、画像を生成してください。
69
 
70
+ ```py
 
71
  import torch
72
+ from diffusers import StableDiffusion3Pipeline
73
 
74
+ pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
 
 
 
75
  pipe = pipe.to("cuda")
76
 
77
+ image = pipe(
78
+ "A capybara holding a sign that reads Hello World",
79
+ num_inference_steps=28,
80
+ guidance_scale=3.5,
81
+ ).images[0]
82
+ image.save("capybara.png")
83
  ```
84
 
85
+ 複雑な操作は[デモのソースコード](https://huggingface.co/spaces/aipicasso/emi-3/blob/main/app.py)を参考にしてください。
86
 
87
  #### 想定される用途
88
  - イラストや漫画、アニメの作画補助
 
132
 
133
  **学習データ**
134
 
135
+ - Stable Diffusion 3.5 Largeと同様のデータセットからDanbooruの無断転載画像を取り除いて手動で集めた約3000枚の画像
136
+ - Stable Diffusion 3.5 Largeと同様のデータセットからDanbooruの無断転載画像を取り除いて自動で集めた約50万枚の画像
137
  - [CosmicMan-SDXL](https://huggingface.co/cosmicman/CosmicMan-SDXL)
138
 
139
  **学習プロセス**
 
153
  ## 参考文献
154
 
155
  ```bibtex
156
+ @misc{esser2024scalingrectifiedflowtransformers,
157
+ title={Scaling Rectified Flow Transformers for High-Resolution Image Synthesis},
158
+ author={Patrick Esser and Sumith Kulal and Andreas Blattmann and Rahim Entezari and Jonas Müller and Harry Saini and Yam Levi and Dominik Lorenz and Axel Sauer and Frederic Boesel and Dustin Podell and Tim Dockhorn and Zion English and Kyle Lacey and Alex Goodwin and Yannik Marek and Robin Rombach},
159
+ year={2024},
160
+ eprint={2403.03206},
161
  archivePrefix={arXiv},
162
+ primaryClass={cs.CV},
163
+ url={https://arxiv.org/abs/2403.03206},
164
  }
165
  ```