Spaces:

yusufs
/

vllm-inference

Paused

yusufs commited on Nov 27, 2024

Commit

ded2af7

1 Parent(s): d2e0be1

feat(run.sh): add script for running openai server

Files changed (2) hide show

Dockerfile CHANGED Viewed

@@ -15,25 +15,5 @@ EXPOSE 7860
 #CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]
-CMD [
-    "python",
-    "-u",
-    "/app/openai/api_server.py",
-    "--model",
-    "meta-llama/Llama-3.2-3B-Instruct",
-    "--revision",
-    "0cb88a4f764b7a12671c53f0838cd831a0843b95",
-    "--host",
-    "0.0.0.0",
-    "--port",
-    "7860",
-    "--max-num-batched-tokens",
-    "32768",
-    "--max-model-len",
-    "32768",
-    "--dtype",
-    "half",
-    "--enforce-eager",
-    "--gpu-memory-utilization",
-    "0.85"
-]

 #CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]
+RUN chmod +x /app/run.sh
+CMD ["/app/run.sh"]

openai/run.sh ADDED Viewed

+#!/bin/sh
+printf "Running vLLM OpenAI compatible API Server at port %s\n" "7860"
+python -u /app/openai/api_server.py \
+    --model meta-llama/Llama-3.2-3B-Instruct \
+    --revision 0cb88a4f764b7a12671c53f0838cd831a0843b95 \
+    --host 0.0.0.0 \
+    --port 7860 \
+    --max-num-batched-tokens 32768 \
+    --max-model-len 32768 \
+    --dtype half \
+    --enforce-eager \
+    --gpu-memory-utilization 0.85