Spaces:

xxparthparekhxx
/

llama-3.2-1B-FastApi

Sleeping

App Files Files Community

parth parekh commited on Sep 29, 2024

Commit

9e1ad54

1 Parent(s): 7c83ecd

added more speed

Browse files

Files changed (2) hide show

main.py +14 -3
requirements.txt +3 -1

main.py CHANGED Viewed

@@ -1,33 +1,45 @@
 import os
 import torch
 from fastapi import FastAPI, Request
 from pydantic import BaseModel
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from dotenv import load_dotenv
 # Load environment variables from a .env file (useful for local development)
 load_dotenv()
 # Initialize FastAPI app
-app = FastAPI(description="Use the Llama-3.2-1B-Instruct model using the api !!",docs_url="/",redoc_url="/doc")
 # Set your Hugging Face token from environment variable
 HF_TOKEN = os.getenv("HF_TOKEN")
 MODEL = "meta-llama/Llama-3.2-1B-Instruct"
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"Using device: {device}")
 # Load model and tokenizer
 tokenizer = AutoTokenizer.from_pretrained(MODEL, token=HF_TOKEN)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL,
     token=HF_TOKEN,
-    torch_dtype=torch.float16,  # Use float16 for better GPU memory usage
     device_map="auto"
 )
 # Pydantic model for input
 class PromptRequest(BaseModel):
     prompt: str
@@ -49,4 +61,3 @@ async def generate_text(request: PromptRequest):
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return {"response": response}

 import os
 import torch
+import multiprocessing
 from fastapi import FastAPI, Request
 from pydantic import BaseModel
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from dotenv import load_dotenv
+from accelerate import Accelerator
 # Load environment variables from a .env file (useful for local development)
 load_dotenv()
 # Initialize FastAPI app
+app = FastAPI(description="Use the Llama-3.2-1B-Instruct model using the API", docs_url="/", redoc_url="/doc")
 # Set your Hugging Face token from environment variable
 HF_TOKEN = os.getenv("HF_TOKEN")
 MODEL = "meta-llama/Llama-3.2-1B-Instruct"
+# Auto-select CPU or GPU
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"Using device: {device}")
+# Set PyTorch to use all available CPU cores if running on CPU
+torch.set_num_threads(multiprocessing.cpu_count())
+# Initialize Accelerator for managing device allocation
+accelerator = Accelerator()
 # Load model and tokenizer
 tokenizer = AutoTokenizer.from_pretrained(MODEL, token=HF_TOKEN)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL,
     token=HF_TOKEN,
+    torch_dtype=torch.bfloat16 if device == 'cpu' else torch.float16,  # Use bfloat16 for CPUs, float16 for GPUs
     device_map="auto"
 )
+# Prepare model for multi-device setup with accelerate
+model, tokenizer = accelerator.prepare(model, tokenizer)
 # Pydantic model for input
 class PromptRequest(BaseModel):
     prompt: str
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return {"response": response}

requirements.txt CHANGED Viewed

@@ -3,4 +3,6 @@ transformers
 torch
 uvicorn
 python-dotenv
-accelerate>=0.26.0

 torch
 uvicorn
 python-dotenv
+optimum[onnxruntime]  # For CPU optimizations with ONNX Runtime
+accelerate            # For managing multi-device setup (CPU/GPU)
+gunicorn              # For running multiple workers