StableDiffusion-3.5-Large-IP-B

Running on Zero

1inkusFace commited on 13 days ago

Commit

f289b12

verified ·

1 Parent(s): 1669a81

Update pipeline_stable_diffusion_3_ipa.py

Files changed (1) hide show

pipeline_stable_diffusion_3_ipa.py CHANGED Viewed

@@ -1192,7 +1192,15 @@ class StableDiffusion3Pipeline(DiffusionPipeline, SD3LoraLoaderMixin, FromSingle
             clip_image_embeds_5 = self.image_encoder(clip_image_embeds_5, output_hidden_states=True).hidden_states[-2]
             clip_image_embeds_5 = clip_image_embeds_5 * scale_5
             image_prompt_embeds_list.append(clip_image_embeds_5)
         clip_image_embeds_cat_list = torch.cat(image_prompt_embeds_list).mean(dim=0)
         print('catted embeds list with mean: ',clip_image_embeds_cat_list.shape)
         seq_len, _ = clip_image_embeds_cat_list.shape
@@ -1204,7 +1212,7 @@ class StableDiffusion3Pipeline(DiffusionPipeline, SD3LoraLoaderMixin, FromSingle
         print('zeros: ',zeros_tensor.shape)
         clip_image_embeds = torch.cat([zeros_tensor, clip_image_embeds_view], dim=0)
         print('embeds shape: ', clip_image_embeds.shape)
         # 4. Prepare timesteps
         timesteps, num_inference_steps = retrieve_timesteps(self.scheduler, num_inference_steps, device, timesteps)
         num_warmup_steps = max(len(timesteps) - num_inference_steps * self.scheduler.order, 0)

             clip_image_embeds_5 = self.image_encoder(clip_image_embeds_5, output_hidden_states=True).hidden_states[-2]
             clip_image_embeds_5 = clip_image_embeds_5 * scale_5
             image_prompt_embeds_list.append(clip_image_embeds_5)
+            # with cat and mean
+        clip_image_embeds_cat_list = torch.cat(image_prompt_embeds_list)
+        clip_image_embeds_cat_list = torch.mean(clip_image_embeds_cat_list,dim=0,keepdim=True)
+        print('catted embeds list: ',clip_image_embeds_cat_list.shape)
+        zeros_tensor = torch.zeros_like(clip_image_embeds_view)
+        clip_image_embeds = torch.cat([zeros_tensor, clip_image_embeds_cat_list], dim=1)
+            '''
         clip_image_embeds_cat_list = torch.cat(image_prompt_embeds_list).mean(dim=0)
         print('catted embeds list with mean: ',clip_image_embeds_cat_list.shape)
         seq_len, _ = clip_image_embeds_cat_list.shape
         print('zeros: ',zeros_tensor.shape)
         clip_image_embeds = torch.cat([zeros_tensor, clip_image_embeds_view], dim=0)
         print('embeds shape: ', clip_image_embeds.shape)
+        '''
         # 4. Prepare timesteps
         timesteps, num_inference_steps = retrieve_timesteps(self.scheduler, num_inference_steps, device, timesteps)
         num_warmup_steps = max(len(timesteps) - num_inference_steps * self.scheduler.order, 0)