cym2784841400
/

Mathstral-7b-v0.1-Custom-Handler

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

cyqm commited on Nov 24, 2024

Commit

6957707

·

1 Parent(s): a3651a1

Update debug handler

Files changed (1) hide show

handler.py +2 -3

handler.py CHANGED Viewed

@@ -42,7 +42,6 @@ class EndpointHandler:
         tokenized_prompt = self.tokenizer.apply_chat_template(
             messages,
             add_generation_prompt=True,
-            return_dict=True,
             return_tensors="pt"
         ).to("cuda")
@@ -52,7 +51,7 @@ class EndpointHandler:
         time_start = time.time()
         out = self.model.generate(
-            **tokenized_prompt,
             max_new_tokens=max_new_tokens,
             temperature=1.0,
             do_sample=True,
@@ -63,7 +62,7 @@ class EndpointHandler:
         print("Debug: `out`:", len(out[0]), self.tokenizer.decode(out[0]))
-        response = self.tokenizer.decode(out[0])
         num_new_tokens = len(out[0]) - len(tokenized_prompt[0])

         tokenized_prompt = self.tokenizer.apply_chat_template(
             messages,
             add_generation_prompt=True,
             return_tensors="pt"
         ).to("cuda")
         time_start = time.time()
         out = self.model.generate(
+            tokenized_prompt,
             max_new_tokens=max_new_tokens,
             temperature=1.0,
             do_sample=True,
         print("Debug: `out`:", len(out[0]), self.tokenizer.decode(out[0]))
+        response = self.tokenizer.decode(out[0][len(tokenized_prompt[0]):])
         num_new_tokens = len(out[0]) - len(tokenized_prompt[0])