Spaces:

PartAI
/

Dorna-Llama3-8B-Instruct

Running on L4

App Files Files Community

tabedini commited on Jun 9

Commit

308a95d

•

1 Parent(s): c4e4f64

Update app.py

Browse files

Add langfuse log.

Files changed (1) hide show

app.py +20 -0

app.py CHANGED Viewed

@@ -3,6 +3,8 @@ from threading import Thread
 from typing import Iterator
 import gradio as gr
 import spaces
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
@@ -44,6 +46,16 @@ pre, code {
 system_prompt = str(os.getenv("SYSTEM_PROMPT"))
 def execution_time_calculator(start_time, log=True):
     delta = time.time() - start_time
@@ -70,6 +82,10 @@ def get_generation_speed():
     return generation_speed
 @spaces.GPU
 def generate(
@@ -128,9 +144,13 @@ def generate(
     generation_speed = token_per_second_calculator(sum_tokens, time_delta)
     print(f"generation_speed: {generation_speed}")
 chatbot = gr.Chatbot(placeholder=PLACEHOLDER, scale=1, show_copy_button=True, height="68%", rtl=True) #,  elem_classes=["chatbot"])
 chat_input = gr.Textbox(show_label=False, lines=2, rtl=True, placeholder="ورودی", show_copy_button=True, scale=4)
 submit_btn = gr.Button(variant="primary", value="ارسال", size="sm", scale=1, elem_classes=["_button"])

 from typing import Iterator
 import gradio as gr
+from langfuse import Langfuse
+from langfuse.decorators import observe
 import spaces
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 system_prompt = str(os.getenv("SYSTEM_PROMPT"))
+secret_key = str(os.getenv("LANGFUSE_SECRET_KEY"))
+public_key = str(os.getenv("LANGFUSE_PUBLIC_KEY"))
+host = str(os.getenv("LANGFUSE_HOST"))
+langfuse = Langfuse(
+  secret_key=secret_key,
+  public_key=public_key,
+  host=host
+)
 def execution_time_calculator(start_time, log=True):
     delta = time.time() - start_time
     return generation_speed
+@observe()
+def log_to_langfuse(message, chat_history, max_new_tokens, temperature, top_p, top_k, repetition_penalty, do_sample, model_outputs, generation_speed):
+    return  "".join(model_outputs)
 @spaces.GPU
 def generate(
     generation_speed = token_per_second_calculator(sum_tokens, time_delta)
+    log_function = log_to_langfuse(message, chat_history, max_new_tokens, temperature, top_p, top_k, repetition_penalty, do_sample, outputs, generation_speed)
     print(f"generation_speed: {generation_speed}")
 chatbot = gr.Chatbot(placeholder=PLACEHOLDER, scale=1, show_copy_button=True, height="68%", rtl=True) #,  elem_classes=["chatbot"])
 chat_input = gr.Textbox(show_label=False, lines=2, rtl=True, placeholder="ورودی", show_copy_button=True, scale=4)
 submit_btn = gr.Button(variant="primary", value="ارسال", size="sm", scale=1, elem_classes=["_button"])