768_10k

Browse files

Files changed (7) hide show

args.json +3 -3
samples/0/0.png +0 -0
samples/0/1.png +0 -0
samples/0/2.png +0 -0
samples/0/3.png +0 -0
train_inpainting_dreambooth.py +31 -20
unet/diffusion_pytorch_model.safetensors +1 -1

args.json CHANGED Viewed

@@ -15,14 +15,14 @@
   "with_prior_preservation": false,
   "prior_loss_weight": 1.0,
   "num_class_images": 100,
-  "output_dir": "./models/outgrowths_7",
   "seed": 3434554,
   "resolution": 512,
   "center_crop": false,
   "train_text_encoder": false,
   "train_batch_size": 4,
   "sample_batch_size": 2,
-  "num_train_epochs": 176,
   "max_train_steps": 10000,
   "gradient_accumulation_steps": 1,
   "gradient_checkpointing": false,
@@ -51,7 +51,7 @@
     {
       "instance_prompt": "photo of zwx dog",
       "class_prompt": "photo of a dog",
-      "instance_data_dir": "./512",
       "class_data_dir": "../../../data/dog"
     }
   ]

   "with_prior_preservation": false,
   "prior_loss_weight": 1.0,
   "num_class_images": 100,
+  "output_dir": "./models/768",
   "seed": 3434554,
   "resolution": 512,
   "center_crop": false,
   "train_text_encoder": false,
   "train_batch_size": 4,
   "sample_batch_size": 2,
+  "num_train_epochs": 26,
   "max_train_steps": 10000,
   "gradient_accumulation_steps": 1,
   "gradient_checkpointing": false,
     {
       "instance_prompt": "photo of zwx dog",
       "class_prompt": "photo of a dog",
+      "instance_data_dir": "/home/neil/Documents/dataset_combined/combined",
       "class_data_dir": "../../../data/dog"
     }
   ]

samples/0/0.png CHANGED Viewed

samples/0/1.png CHANGED Viewed

samples/0/2.png CHANGED Viewed

samples/0/3.png CHANGED Viewed

train_inpainting_dreambooth.py CHANGED Viewed

@@ -290,10 +290,6 @@ def generate_random_mask(image):
     # print('foobar', mask.shape)
     mask = image[-1].unsqueeze(0)
     # torchvision.transforms.functional.to_pil_image(mask).save('foomask2.png')
-    # if random.uniform(0, 1) < 0.25:
-    #     mask = torch.zeros_like(image[:1])
-    #     mask.fill_(1.)
     # print('foobar',image.shape)
     # torchvision.transforms.functional.to_pil_image(image[:4]).save('fooimageinside2.png')
     # print('foobar',image[:3].shape)
@@ -301,16 +297,16 @@ def generate_random_mask(image):
     # torchvision.transforms.functional.to_pil_image(masked_image).save('foomaskedimage2.png')
     return mask, masked_image
-image_transforms = transforms.Compose(
-    [
-        torchvision.transforms.RandomHorizontalFlip(0.5 * True),
-        # transforms.Resize(size, interpolation=transforms.InterpolationMode.BILINEAR),
-        # transforms.CenterCrop(size) if center_crop else transforms.RandomCrop(size),
-        transforms.RandomResizedCrop(512, scale=(0.75,1.0)),
-        torchvision.transforms.ToTensor(),
-        torchvision.transforms.Normalize([0.5], [0.5]),
-    ]
-)
 # instance_image = Image.open("/home/neil/Documents/diffusers/examples/dreambooth/512_/a corner sofa in midnight blue in a room with vibrant walls and eclectic artwork, creating a lively and energetic atmosphere. .png")
 # alpha = instance_image.split()[-1]
 # instance_image.putalpha(ImageOps.invert(alpha))
@@ -386,7 +382,7 @@ class DreamBoothDataset(Dataset):
         self.image_transforms = transforms.Compose(
             [
                 torchvision.transforms.RandomHorizontalFlip(0.5 * hflip),
-                transforms.RandomResizedCrop(size, scale=(0.75,1.0)),
                 torchvision.transforms.ToTensor(),
                 torchvision.transforms.Normalize([0.5], [0.5]),
             ]
@@ -399,18 +395,33 @@ class DreamBoothDataset(Dataset):
         example = {}
         instance_path, instance_prompt = self.instance_images_path[index % self.num_instance_images]
         instance_image = Image.open(instance_path)
-        alpha = instance_image.split()[-1]
-        instance_image.putalpha(ImageOps.invert(alpha))
         example["instance_images"] = self.image_transforms(instance_image)
         example["instance_masks"], example["instance_masked_images"] = generate_random_mask(example["instance_images"])
         # torchvision.transforms.functional.to_pil_image(example["instance_masks"][0]).save('foo_instance_masks.png')
         # torchvision.transforms.functional.to_pil_image(example["instance_masked_images"][0]).save('foo_instance_masked_images.png')
         example["instance_images"] = example["instance_images"][:3]
         # torchvision.transforms.functional.to_pil_image(example["instance_images"]).save('foo_instance_image.png')
         example["instance_prompt_ids"] = self.tokenizer(
             # instance_prompt,
-            os.path.basename(instance_prompt),
             padding="max_length" if self.pad_tokens else "do_not_pad",
             truncation=True,
             max_length=self.tokenizer.model_max_length,
@@ -884,7 +895,7 @@ def main(args):
                 # Add noise to the latents according to the noise magnitude at each timestep
                 # (this is the forward diffusion process)
                 noisy_latents = noise_scheduler.add_noise(latents, noise, timesteps)
                 # Get the text embedding for conditioning
                 with text_enc_context:
                     if not args.not_cache_latents:

     # print('foobar', mask.shape)
     mask = image[-1].unsqueeze(0)
     # torchvision.transforms.functional.to_pil_image(mask).save('foomask2.png')
     # print('foobar',image.shape)
     # torchvision.transforms.functional.to_pil_image(image[:4]).save('fooimageinside2.png')
     # print('foobar',image[:3].shape)
     # torchvision.transforms.functional.to_pil_image(masked_image).save('foomaskedimage2.png')
     return mask, masked_image
+# image_transforms = transforms.Compose(
+#     [
+#         torchvision.transforms.RandomHorizontalFlip(0.5 * True),
+#         # transforms.Resize(size, interpolation=transforms.InterpolationMode.BILINEAR),
+#         # transforms.CenterCrop(size) if center_crop else transforms.RandomCrop(size),
+#         transforms.RandomResizedCrop(512, scale=(0.75,1.0)),
+#         torchvision.transforms.ToTensor(),
+#         torchvision.transforms.Normalize([0.5], [0.5]),
+#     ]
+# )
 # instance_image = Image.open("/home/neil/Documents/diffusers/examples/dreambooth/512_/a corner sofa in midnight blue in a room with vibrant walls and eclectic artwork, creating a lively and energetic atmosphere. .png")
 # alpha = instance_image.split()[-1]
 # instance_image.putalpha(ImageOps.invert(alpha))
         self.image_transforms = transforms.Compose(
             [
                 torchvision.transforms.RandomHorizontalFlip(0.5 * hflip),
+                # transforms.RandomResizedCrop(size, scale=(0.75,1.0)),
                 torchvision.transforms.ToTensor(),
                 torchvision.transforms.Normalize([0.5], [0.5]),
             ]
         example = {}
         instance_path, instance_prompt = self.instance_images_path[index % self.num_instance_images]
         instance_image = Image.open(instance_path)
+        # alpha = instance_image.split()[-1]
+        # !!!! for this dataset already inverted
+        # instance_image.putalpha(ImageOps.invert(alpha))
+        # instance_image.putalpha(alpha)
+        # if random.uniform(0, 1) < 0.25:
+        #     # print(instance_path)
+        #     # print(type(instance_path))
+        #     norm_path = str(instance_path).replace('/combined/','/combined_norm/')
+        #     norm_path = norm_path.split('_')
+        #     instance_image = Image.open(Path("_".join(norm_path[:-5])+'_'+norm_path[-1]))
+        #     instance_image.putalpha(Image.new('L',instance_image.size,(255)))
+        #     # prior = True
+        #     # mask = torch.zeros_like(image[:1])
+        #     # mask.fill_(1.)
         example["instance_images"] = self.image_transforms(instance_image)
+        # using my bastardized prior preservation
         example["instance_masks"], example["instance_masked_images"] = generate_random_mask(example["instance_images"])
         # torchvision.transforms.functional.to_pil_image(example["instance_masks"][0]).save('foo_instance_masks.png')
         # torchvision.transforms.functional.to_pil_image(example["instance_masked_images"][0]).save('foo_instance_masked_images.png')
         example["instance_images"] = example["instance_images"][:3]
         # torchvision.transforms.functional.to_pil_image(example["instance_images"]).save('foo_instance_image.png')
+        # print(os.path.splitext(os.path.basename(instance_path))[0])
         example["instance_prompt_ids"] = self.tokenizer(
             # instance_prompt,
+            os.path.splitext(os.path.basename(instance_path))[0],
             padding="max_length" if self.pad_tokens else "do_not_pad",
             truncation=True,
             max_length=self.tokenizer.model_max_length,
                 # Add noise to the latents according to the noise magnitude at each timestep
                 # (this is the forward diffusion process)
                 noisy_latents = noise_scheduler.add_noise(latents, noise, timesteps)
+                # breakpoint()
                 # Get the text embedding for conditioning
                 with text_enc_context:
                     if not args.not_cache_latents:

unet/diffusion_pytorch_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057028cbeb1ca5aacd36fc81ed7f2c5ae063330d4bfd37c1a42b63cc77d0e50d
 size 1719154104

 version https://git-lfs.github.com/spec/v1
+oid sha256:09ff49c01ca2f73f52eb4c028a250767ebe279c994f1d82fb00576985cf625f4
 size 1719154104