Crystalcareai
/

GemMoE-Beta-1

Text Generation

Model card Files Files and versions Community

Crystalcareai commited on Mar 14, 2024

Commit

1b5a82b

·

verified ·

1 Parent(s): a6948ec

Update modeling_gemmoe.py

Files changed (1) hide show

modeling_gemmoe.py +8 -3

modeling_gemmoe.py CHANGED Viewed

@@ -617,9 +617,10 @@ class GemmoeSdpaAttention(GemmoeAttention):
         if attention_mask is not None and cache_position is not None:
             causal_mask = causal_mask[:, :, cache_position, : key_states.shape[-2]]
-        # Convert causal_mask to the same dtype as query_states
-        if causal_mask is not None:
-            causal_mask = causal_mask.to(dtype=query_states.dtype)
         # SDPA with memory-efficient backend is currently (torch==2.1.2) bugged with non-contiguous inputs with custom attn_mask,
         # Reference: https://github.com/pytorch/pytorch/issues/112577.
@@ -628,6 +629,10 @@ class GemmoeSdpaAttention(GemmoeAttention):
             key_states = key_states.contiguous()
             value_states = value_states.contiguous()
         attn_output = torch.nn.functional.scaled_dot_product_attention(
             query_states,
             key_states,

         if attention_mask is not None and cache_position is not None:
             causal_mask = causal_mask[:, :, cache_position, : key_states.shape[-2]]
+        # Ensure query, key, and value states have the same dtype
+        common_dtype = query_states.dtype
+        key_states = key_states.to(dtype=common_dtype)
+        value_states = value_states.to(dtype=common_dtype)
         # SDPA with memory-efficient backend is currently (torch==2.1.2) bugged with non-contiguous inputs with custom attn_mask,
         # Reference: https://github.com/pytorch/pytorch/issues/112577.
             key_states = key_states.contiguous()
             value_states = value_states.contiguous()
+        # Cast causal_mask to the same dtype as query_states
+        if causal_mask is not None:
+            causal_mask = causal_mask.to(dtype=query_states.dtype)
         attn_output = torch.nn.functional.scaled_dot_product_attention(
             query_states,
             key_states,