wiki-multilingual-e5-large

Sleeping

kaxap commited on Jul 28, 2023

Commit

b9334e6

1 Parent(s): 0cedeae

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,8 +16,8 @@ def average_pool(last_hidden_states: Tensor,
     return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]
-df = pd.read_csv('rjokes.csv')
-data_embeddings = np.load("rjokes-embeddings.npy")
 print("loading the model...")
 tokenizer = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-large')
@@ -25,7 +25,7 @@ model = AutoModel.from_pretrained('intfloat/multilingual-e5-large')
 with gr.Blocks() as demo:
     chatbot = gr.Chatbot()
-    msg = gr.Textbox(label="r/jokes semantic search query", placeholder="for example, \"programming and religion\"")
     clear = gr.ClearButton([msg, chatbot])
     def respond(message, chat_history):
@@ -47,7 +47,7 @@ with gr.Blocks() as demo:
         top_k_idx = cos_similarities.argsort()[-k:][::-1]
         # Get corresponding 'text' for top k similar points
-        top_k_text = df['text'].iloc[top_k_idx].tolist()
         bot_message = "\n".join(f"{i+1}. {top_k_text[i]}" for i in range(len(top_k_text)))

     return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]
+df = pd.read_csv('wiki.csv')
+data_embeddings = np.load("wiki-embeddings.npy")
 print("loading the model...")
 tokenizer = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-large')
 with gr.Blocks() as demo:
     chatbot = gr.Chatbot()
+    msg = gr.Textbox(label="simple wikipedia semantic search query", placeholder="for example, \"medieval battles\"")
     clear = gr.ClearButton([msg, chatbot])
     def respond(message, chat_history):
         top_k_idx = cos_similarities.argsort()[-k:][::-1]
         # Get corresponding 'text' for top k similar points
+        top_k_text = df['title'].iloc[top_k_idx].tolist()
         bot_message = "\n".join(f"{i+1}. {top_k_text[i]}" for i in range(len(top_k_text)))