LoupGarou
/

WizardCoder-Guanaco-15B-V1.0

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

LoupGarou commited on Jul 8, 2023

Commit

2d16b4f

•

1 Parent(s): 7c8b8ff

Update README.md

Files changed (1) hide show

README.md +5 -4

README.md CHANGED Viewed

@@ -37,16 +37,16 @@ class Chatbot:
         self.model = AutoModelForCausalLM.from_pretrained(model_name, load_in_4bit=True, torch_dtype=torch.bfloat16)
         if self.tokenizer.pad_token_id is None:
             self.tokenizer.pad_token_id = self.tokenizer.eos_token_id
     def get_response(self, prompt):
         inputs = self.tokenizer.encode_plus(prompt, return_tensors="pt", padding='max_length', max_length=100)
         if next(self.model.parameters()).is_cuda:
             inputs = {name: tensor.to('cuda') for name, tensor in inputs.items()}
         start_time = time.time()
         tokens = self.model.generate(input_ids=inputs['input_ids'],
-                                     attention_mask=inputs['attention_mask'],
-                                     pad_token_id=self.tokenizer.pad_token_id,
-                                     max_new_tokens=400)
         end_time = time.time()
         output_tokens = tokens[0][inputs['input_ids'].shape[-1]:]
         output = self.tokenizer.decode(output_tokens, skip_special_tokens=True)
@@ -67,6 +67,7 @@ def main():
 if __name__ == "__main__":
     main()
 Training Procedure
 The base WizardCoder model was finetuned on the Guanaco dataset using QLORA, which was trimmed to within 2 standard deviations of token size for question sets and randomized. All non-English data was also removed from this finetuning dataset.

         self.model = AutoModelForCausalLM.from_pretrained(model_name, load_in_4bit=True, torch_dtype=torch.bfloat16)
         if self.tokenizer.pad_token_id is None:
             self.tokenizer.pad_token_id = self.tokenizer.eos_token_id
     def get_response(self, prompt):
         inputs = self.tokenizer.encode_plus(prompt, return_tensors="pt", padding='max_length', max_length=100)
         if next(self.model.parameters()).is_cuda:
             inputs = {name: tensor.to('cuda') for name, tensor in inputs.items()}
         start_time = time.time()
         tokens = self.model.generate(input_ids=inputs['input_ids'],
+                                    attention_mask=inputs['attention_mask'],
+                                    pad_token_id=self.tokenizer.pad_token_id,
+                                    max_new_tokens=400)
         end_time = time.time()
         output_tokens = tokens[0][inputs['input_ids'].shape[-1]:]
         output = self.tokenizer.decode(output_tokens, skip_special_tokens=True)
 if __name__ == "__main__":
     main()
+```
 Training Procedure
 The base WizardCoder model was finetuned on the Guanaco dataset using QLORA, which was trimmed to within 2 standard deviations of token size for question sets and randomized. All non-English data was also removed from this finetuning dataset.