Spaces:

kaisugi
/

NLP2025_title_search

Running

NLP2025_title_search / app.py

initial commit

b18a9b9 19 days ago

1.67 kB

	import faiss
	import numpy as np
	import pandas as pd
	from sentence_transformers import SentenceTransformer
	import streamlit as st

	import os

	os.environ['KMP_DUPLICATE_LIB_OK']='True'


	@st.cache_resource
	def load_model():
	model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")

	return model


	@st.cache_resource
	def load_title_data():
	title_df = pd.read_csv('anlp2025.tsv', names=["pid", "title"], sep="\t")

	return title_df


	@st.cache_resource
	def load_title_embeddings():
	npz_comp = np.load("anlp2025.npz")
	title_embeddings = npz_comp["arr_0"]

	return title_embeddings


	def get_retrieval_results(index, input_text, top_k, model, title_df):
	query_embeddings = model.encode([input_text])
	_, ids = index.search(x=query_embeddings, k=top_k)
	retrieved_titles = []
	retrieved_pids = []

	for id in ids[0]:
	retrieved_titles.append(title_df.loc[id, "title"])
	retrieved_pids.append(title_df.loc[id, "pid"])

	df = pd.DataFrame({"pids": retrieved_pids, "paper": retrieved_titles})

	return df


	if __name__ == "__main__":
	model = load_model()
	title_df = load_title_data()
	title_embeddings = load_title_embeddings()

	index = faiss.IndexFlatL2(1792)
	index.add(title_embeddings)

	st.markdown("## NLP2025 論文検索")
	input_text = st.text_input('query', '', placeholder='')
	top_k = st.number_input('top_k', min_value=1, value=10, step=1)

	if st.button('検索'):
	stripped_input_text = input_text.strip()
	df = get_retrieval_results(index, stripped_input_text, top_k, model, title_df)
	st.table(df)