Spaces:

lilmeaty
/

vllmxd

Runtime error

Hjgugugjhuhjggg commited on Nov 15, 2024

Commit

017c336

verified ·

1 Parent(s): e739fbf

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,22 +1,30 @@
 from flask import Flask, request, jsonify, render_template_string
 from vllm import LLM, SamplingParams
 from langchain_community.cache import GPTCache
 app = Flask(__name__)
 modelos = {
-    "facebook/opt-125m": LLM(model="facebook/opt-125m"),
-    "llama-3.2-1B": LLM(model="Hjgugugjhuhjggg/llama-3.2-1B-spinquant-hf"),
-    "gpt2": LLM(model="gpt2")
 }
 caches = {
-    nombre: GPTCache(modelo, max_size=1000)
     for nombre, modelo in modelos.items()
 }
 sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
 html_code_docs = """
 <!DOCTYPE html>
 <html>
@@ -63,6 +71,7 @@ html_code_docs = """
 </html>
 """
 html_code_chatbot = """
 <!DOCTYPE html>
 <html>

 from flask import Flask, request, jsonify, render_template_string
 from vllm import LLM, SamplingParams
 from langchain_community.cache import GPTCache
+import torch
 app = Flask(__name__)
+# Verificar si hay una GPU disponible, si no usar la CPU
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# Inicializar los modelos con el dispositivo adecuado (GPU o CPU)
 modelos = {
+    "facebook/opt-125m": LLM(model="facebook/opt-125m", device=device),
+    "llama-3.2-1B": LLM(model="Hjgugugjhuhjggg/llama-3.2-1B-spinquant-hf", device=device),
+    "gpt2": LLM(model="gpt2", device=device)
 }
+# Configuración de caché para los modelos
 caches = {
+    nombre: GPTCache(modelo, max_size=1000)
     for nombre, modelo in modelos.items()
 }
+# Parámetros de muestreo para la generación de texto
 sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
+# Código HTML para la documentación de la API
 html_code_docs = """
 <!DOCTYPE html>
 <html>
 </html>
 """
+# Código HTML para la interfaz del chatbot
 html_code_chatbot = """
 <!DOCTYPE html>
 <html>