SeaLLM-Chat

Running on L4

nxphi47 commited on Jan 22, 2024

Commit

b88fb33

verified ·

1 Parent(s): 6964ae7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1760,9 +1760,9 @@ def launch():
         if QUANTIZATION == 'awq':
             print(F'Load model in int4 quantization')
-            llm = LLM(model=model_path, dtype="float16", tensor_parallel_size=tensor_parallel, gpu_memory_utilization=gpu_memory_utilization, quantization="awq")
         else:
-            llm = LLM(model=model_path, dtype=dtype, tensor_parallel_size=tensor_parallel, gpu_memory_utilization=gpu_memory_utilization)
         try:
             print(llm.llm_engine.workers[0].model)

         if QUANTIZATION == 'awq':
             print(F'Load model in int4 quantization')
+            llm = LLM(model=model_path, dtype="float16", tensor_parallel_size=tensor_parallel, gpu_memory_utilization=gpu_memory_utilization, quantization="awq", max_model_len=8192)
         else:
+            llm = LLM(model=model_path, dtype=dtype, tensor_parallel_size=tensor_parallel, gpu_memory_utilization=gpu_memory_utilization, max_model_len=8192)
         try:
             print(llm.llm_engine.workers[0].model)