mobiuslabsgmbh
/

Mixtral-8x7B-Instruct-v0.1-hf-attn-4bit-moe-2bit-metaoffload-HQQ

Text Generation

Mixture of Experts

Model card Files Files and versions Community

mobicham commited on Feb 23

Commit

3d7f303

•

1 Parent(s): 6d3c872

Update README.md

Files changed (1) hide show

README.md +6 -3

README.md CHANGED Viewed

@@ -22,9 +22,11 @@ model_id = 'mobiuslabsgmbh/Mixtral-8x7B-Instruct-v0.1-hf-attn-4bit-moe-2bit-meta
 from hqq.engine.hf import HQQModelForCausalLM, AutoTokenizer
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model     = HQQModelForCausalLM.from_quantized(model_id)
-#Optional
 from hqq.core.quantize import *
-HQQLinear.set_backend(HQQBackend.PYTORCH_COMPILE)
 #Text Generation
 prompt = "<s> [INST] How do I build a car? [/INST] "
 inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False)
@@ -64,4 +66,5 @@ quant_config['block_sparse_moe.experts.w3'] = experts_params
 #Quantize
 model.quantize_model(quant_config=quant_config, compute_dtype=torch.float16);
 model.eval();
-```

 from hqq.engine.hf import HQQModelForCausalLM, AutoTokenizer
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model     = HQQModelForCausalLM.from_quantized(model_id)
+#Optional: set backend/compile
 from hqq.core.quantize import *
+HQQLinear.set_backend(HQQBackend.ATEN_BACKPROP)
 #Text Generation
 prompt = "<s> [INST] How do I build a car? [/INST] "
 inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False)
 #Quantize
 model.quantize_model(quant_config=quant_config, compute_dtype=torch.float16);
 model.eval();
+```