Metric-AI
/

ColQwenStella-base-2b

Safetensors

colstella_vl

custom_code

Model card Files Files and versions Community

Markgazol commited on 8 days ago

Commit

710406c

verified ·

1 Parent(s): 5f76bcd

Update modeling_colqwenstella.py

Browse files

Files changed (1) hide show

modeling_colqwenstella.py +2 -55

modeling_colqwenstella.py CHANGED Viewed

@@ -1431,12 +1431,6 @@ class Qwen2ForSequenceClassification(Qwen2PreTrainedModel):
         )
-####################################################################################################################
-####################################################################################################################
-####################################################################################################################
-####################################################################################################################
-### codes  for jasper
-####################################################################################################################
 from transformers.models.qwen2_vl import Qwen2VLConfig, Qwen2VLForConditionalGeneration
 from transformers import PretrainedConfig
@@ -1446,8 +1440,6 @@ class ColStellaVLConfig(PretrainedConfig):
     def __init__(
             self,
-            # vector_dropout_p: float = 0.2,
-            # num_img_tokens: int = 300,
             img_start_token_id: int = 151644,
             img_start_token: str = "<|im_start|>",
             img_token_id: int = 151646,
@@ -1459,12 +1451,6 @@ class ColStellaVLConfig(PretrainedConfig):
             **kwargs
     ):
         super().__init__(**kwargs)
-        # if vector_dim not in (12288, 1024, 512, 256):
-            # raise ValueError("vector_dim must be 12288, 1024, 512, 256")
-        # self.vector_dim = vector_dim
-        # self.vector_dropout_p = vector_dropout_p
-        # self.num_img_tokens = num_img_tokens
         self.img_start_token_id = img_start_token_id
         self.img_start_token = img_start_token
@@ -1499,9 +1485,6 @@ class ColStellaVLConfig(PretrainedConfig):
-# ColStellaVLConfig.from_pretrained("/home/nane.saroyan99/colpali/models/stella_transformer")
 class ColQwenStella(PreTrainedModel):
     config_class = ColStellaVLConfig
     _supports_sdpa = True
@@ -1514,34 +1497,11 @@ class ColQwenStella(PreTrainedModel):
         super().__init__(config)
         self.model = Qwen2Model(config.text_config)
         self.config = config
-        # if not config.is_text_encoder:
-        # self.vision_model = Qwen2VLForConditionalGeneration.from_pretrained("Qwen/Qwen2-VL-2B-Instruct").visual
-        # qwen =
-        # print(config.vision_config)
         self.vision_model = Qwen2VLForConditionalGeneration(config.vision_config).visual
-        # self.get_rope_index = self.vision_model.get_rope_index
-        # self.vision_model = self.vision_model.visual
-        if torch.cuda.is_available():
-            print("deleting all else")
-            torch.cuda.empty_cache()
-        # self.adaptive_avg_pool2d = torch.nn.AdaptiveAvgPool2d(
-            # (self.config.num_img_tokens, config.text_config.hidden_size)
-        # )
-        # self.vector_linear_12288 = nn.Linear(config.text_config.hidden_size, 12288, bias=True)
         self.vector_linear_1024 = nn.Linear(config.text_config.hidden_size, 1024, bias=True)
-        # self.vector_linear_512 = nn.Linear(config.text_config.hidden_size, 512, bias=True)
-        # self.vector_linear_256 = nn.Linear(config.text_config.hidden_size, 256, bias=True)
-        # Initialize weights and apply final processing
-        # self.model.resize_token_embeddings(151647)
         self.post_init()
-        # self.model.resize_token_embeddings(151647)
-    # def get_input_embeddings(self):
-        # return self.model.embed_tokens
-    # def set_input_embeddings(self, value):
-        # self.model.embed_tokens = value
     def inner_forward(
             self,
@@ -1588,12 +1548,7 @@ class ColQwenStella(PreTrainedModel):
-    def forward(self,
-            # input_ids: torch.LongTensor = None,
-            # attention_mask: Optional[torch.Tensor] = None,
-            # pixel_values: Optional[torch.Tensor] = None,
-            *args,
-            **kwargs) -> torch.Tensor:
         # Delete output_hidden_states from kwargs
         kwargs.pop("output_hidden_states", None)
@@ -1625,12 +1580,4 @@ class ColQwenStella(PreTrainedModel):
     @property
     def spatial_merge_size(self) -> int:
-        return self.vision_model.config.spatial_merge_size
-# from models.qwenstella_base.modeling_colqwenstella import ColQwenStella, ColStellaVLConfig
-# ColStellaVLConfig.__module__ = "transformers_modules.qwenstella_base.modeling_colqwenstella"
-# AutoConfig.register("colstella_vl", ColStellaVLConfig)
-# AutoModel.register(ColStellaVLConfig, ColQwenStella)

         )
 from transformers.models.qwen2_vl import Qwen2VLConfig, Qwen2VLForConditionalGeneration
 from transformers import PretrainedConfig
     def __init__(
             self,
             img_start_token_id: int = 151644,
             img_start_token: str = "<|im_start|>",
             img_token_id: int = 151646,
             **kwargs
     ):
         super().__init__(**kwargs)
         self.img_start_token_id = img_start_token_id
         self.img_start_token = img_start_token
 class ColQwenStella(PreTrainedModel):
     config_class = ColStellaVLConfig
     _supports_sdpa = True
         super().__init__(config)
         self.model = Qwen2Model(config.text_config)
         self.config = config
         self.vision_model = Qwen2VLForConditionalGeneration(config.vision_config).visual
         self.vector_linear_1024 = nn.Linear(config.text_config.hidden_size, 1024, bias=True)
         self.post_init()
     def inner_forward(
             self,
+    def forward(self, *args, **kwargs) -> torch.Tensor:
         # Delete output_hidden_states from kwargs
         kwargs.pop("output_hidden_states", None)
     @property
     def spatial_merge_size(self) -> int:
+        return self.vision_model.config.spatial_merge_size