Spaces:

wanderer2k1
/

VN_laws_qa

Sleeping

App Files Files Community

wanderer2k1 commited on Aug 14, 2023

Commit

a7b7647

•

1 Parent(s): d3a77a4

major fix

Browse files

Files changed (2) hide show

SessionState.py +0 -117
app.py +49 -41

SessionState.py DELETED Viewed

@@ -1,117 +0,0 @@
-"""Hack to add per-session state to Streamlit.
-Usage
------
->>> import SessionState
->>>
->>> session_state = SessionState.get(user_name='', favorite_color='black')
->>> session_state.user_name
-''
->>> session_state.user_name = 'Mary'
->>> session_state.favorite_color
-'black'
-Since you set user_name above, next time your script runs this will be the
-result:
->>> session_state = get(user_name='', favorite_color='black')
->>> session_state.user_name
-'Mary'
-"""
-try:
-    import streamlit.ReportThread as ReportThread
-    from streamlit.server.Server import Server
-except Exception:
-    # Streamlit >= 0.65.0
-    import streamlit.report_thread as ReportThread
-    from streamlit.server.server import Server
-class SessionState(object):
-    def __init__(self, **kwargs):
-        """A new SessionState object.
-        Parameters
-        ----------
-        **kwargs : any
-            Default values for the session state.
-        Example
-        -------
-        >>> session_state = SessionState(user_name='', favorite_color='black')
-        >>> session_state.user_name = 'Mary'
-        ''
-        >>> session_state.favorite_color
-        'black'
-        """
-        for key, val in kwargs.items():
-            setattr(self, key, val)
-def get(**kwargs):
-    """Gets a SessionState object for the current session.
-    Creates a new object if necessary.
-    Parameters
-    ----------
-    **kwargs : any
-        Default values you want to add to the session state, if we're creating a
-        new one.
-    Example
-    -------
-    >>> session_state = get(user_name='', favorite_color='black')
-    >>> session_state.user_name
-    ''
-    >>> session_state.user_name = 'Mary'
-    >>> session_state.favorite_color
-    'black'
-    Since you set user_name above, next time your script runs this will be the
-    result:
-    >>> session_state = get(user_name='', favorite_color='black')
-    >>> session_state.user_name
-    'Mary'
-    """
-    # Hack to get the session object from Streamlit.
-    ctx = ReportThread.get_report_ctx()
-    this_session = None
-    current_server = Server.get_current()
-    if hasattr(current_server, '_session_infos'):
-        # Streamlit < 0.56
-        session_infos = Server.get_current()._session_infos.values()
-    else:
-        session_infos = Server.get_current()._session_info_by_id.values()
-    for session_info in session_infos:
-        s = session_info.session
-        if (
-            # Streamlit < 0.54.0
-            (hasattr(s, '_main_dg') and s._main_dg == ctx.main_dg)
-            or
-            # Streamlit >= 0.54.0
-            (not hasattr(s, '_main_dg') and s.enqueue == ctx.enqueue)
-            or
-            # Streamlit >= 0.65.2
-            (not hasattr(s, '_main_dg') and s._uploaded_file_mgr == ctx.uploaded_file_mgr)
-        ):
-            this_session = s
-    if this_session is None:
-        raise RuntimeError(
-            "Oh noes. Couldn't get your Streamlit Session object. "
-            'Are you doing something fancy with threads?')
-    # Got the session object! Now let's attach some state into it.
-    if not hasattr(this_session, '_custom_session_state'):
-        this_session._custom_session_state = SessionState(**kwargs)
-    return this_session._custom_session_state

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 #basics
 import time
 import pandas as pd
 import numpy as np
@@ -13,7 +14,8 @@ from sentence_transformers.util import cos_sim
 #streamlit
 import streamlit as st
-import SessionState
 from load_css import local_css
 local_css("./style.css")
@@ -28,9 +30,8 @@ import os.path as path, sys
 from pathlib import Path
 current_dir = path.dirname(path.abspath(getsourcefile(lambda:0)))
 sys.path.insert(0, current_dir[:current_dir.rfind(path.sep)])
-import src.clean_dataset as clean
-@st.cache(allow_output_mutation=True)
 def preprocess(sentence):
   sentence=str(sentence)
@@ -49,14 +50,15 @@ def selectbox_with_default(text, values, default=DEFAULT, sidebar=False):
     func = st.sidebar.selectbox if sidebar else st.selectbox
     return func(text, np.insert(np.array(values, object), 0, default))
 def neuralqa():
     model = T5ForConditionalGeneration.from_pretrained("wanderer2k1/T5-LawsQA")
     tokenizer = T5TokenizerFast.from_pretrained("wanderer2k1/T5-LawsQA")
     bi_encoder = SentenceTransformer('wanderer2k1/BertCondenser_LawsQA')
     return tokenizer, model, bi_encoder
 def hf_run_model(tokenizer, model, input_string, **generator_args):
   generator_args = {
   "max_length": 256,
@@ -73,55 +75,52 @@ def hf_run_model(tokenizer, model, input_string, **generator_args):
   output = [item.split("<sep>") for item in output]
   return output
 #%%
 sys.path.pop(0)
 #1. load in complete transformed and processed dataset
-df = pd.read_csv('./data/corpus.pkl', sep = '\t')
-passages = df['text'].values.tolist()
-passage_id = df['title'].values.tolist()
 #2 load corpus embeddings for neural QA:
-with open("./data/embedded_corpus_BertCondenser_tuples.pkl", 'rb') as inp:
-    embedded_passages = pickle.load(inp)
-embedded_passages = torch.Tensor(embedded_passages)
 #3 load BM25:
-with open("models/BM25_pyvi_segmented_splitted.pkl", 'rb') as inp:
-    bm25 = pickle.load(inp)
-#%%
-session = SessionState.get(run_id=0)
 #%%
-#title start page
-st.title('Closed Domain (Vietnamese Laws) QA System')
-sdg = Image.open('./logo.jpg')
-st.sidebar.image(sdg, width=300)
-st.sidebar.title('Settings')
-st.caption("by HoangNV - on custom laws QA data set")
-returns = st.sidebar.slider('Maximal number of answer suggestions:', 1, 3, 2)
 def deploy(question):
-    tokenizer, model, bi_encoder = neuralqa()
     top_k = returns  # Number of passages we want to retrieve with the bi-encoder
     tokenized_query = preprocess(question).split()
     query = ' '.join(tokenized_query)
-    emb_query = bi_encoder.encode(query)
-    scores = bm25.get_scores(tokenized_query)
     top_score_ids = np.argpartition(scores, -50)[-50:]
     emb_candidates = torch.Tensor()
     for i in top_score_ids:
-        emb_candidates = torch.cat([emb_candidates,embedded_passages[i:i+1]], axis = 0)
     cosine_sim = cos_sim(emb_query, emb_candidates)
@@ -135,14 +134,14 @@ def deploy(question):
     answers = []
     for doc_ind in top_score_ids:
-        doc = passages[doc_ind].replace('_',' ')
         matches.append(doc)#' '.join(doc).replace('_',' '))
-        ids.append(passage_id[doc_ind].replace('_',' '))#' '.join(doc[:30].split()[:3]))
     # i=0
     for context in matches:
         q = "Trả lời câu hỏi: "+query + " Trong ngữ cảnh: "+context#tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(context))
-        a = hf_run_model(tokenizer, model, q)[0][0]
         answers.append(a)
     # generate result df
@@ -157,25 +156,34 @@ def deploy(question):
     st.header("Results:")
     st.table(df_results)
-    del tokenizer, model, bi_encoder#, question_embedding
 #%%
-question = st.text_input('Type in your legal question (be as specific as possible):')
 if len(question) != 0:
     t0 = time.time()
     with st.spinner('Finding best answers...'):
         deploy(question)
-        st.write(str(time.time()-t0))
-st.write('           ')
-st.write('           ')
-st.write('           ')
-st.write('           ')
-st.write('           ')
-st.write('           ')
-if st.button("Run again!"):
-  session.run_id += 1
 #%%
 p = Path('.')

 #basics
+from http import server
 import time
 import pandas as pd
 import numpy as np
 #streamlit
 import streamlit as st
+# from streamlit_server_state import server_state, server_state_lock
+# import SessionState
 from load_css import local_css
 local_css("./style.css")
 from pathlib import Path
 current_dir = path.dirname(path.abspath(getsourcefile(lambda:0)))
 sys.path.insert(0, current_dir[:current_dir.rfind(path.sep)])
+# import src.clean_dataset as clean
 def preprocess(sentence):
   sentence=str(sentence)
     func = st.sidebar.selectbox if sidebar else st.selectbox
     return func(text, np.insert(np.array(values, object), 0, default))
+@st.cache(allow_output_mutation=True)
 def neuralqa():
     model = T5ForConditionalGeneration.from_pretrained("wanderer2k1/T5-LawsQA")
     tokenizer = T5TokenizerFast.from_pretrained("wanderer2k1/T5-LawsQA")
     bi_encoder = SentenceTransformer('wanderer2k1/BertCondenser_LawsQA')
     return tokenizer, model, bi_encoder
 def hf_run_model(tokenizer, model, input_string, **generator_args):
   generator_args = {
   "max_length": 256,
   output = [item.split("<sep>") for item in output]
   return output
 #%%
 sys.path.pop(0)
 #1. load in complete transformed and processed dataset
+if 'df' not in st.session_state:
+    st.session_state['df'] = pd.read_csv('./data/corpus.pkl', sep = '\t')
+    st.session_state['passages'] = st.session_state['df']['text'].values.tolist()
+    st.session_state['passage_id'] = st.session_state['df']['title'].values.tolist()
 #2 load corpus embeddings for neural QA:
+if 'embedded_passages' not in st.session_state:
+    with open("./data/embedded_corpus_BertCondenser_tuples.pkl", 'rb') as inp:
+        embedded_passages = pickle.load(inp)
+        st.session_state['embedded_passages'] = torch.Tensor(embedded_passages)
 #3 load BM25:
+if 'bm25' not in st.session_state:
+    with open("models/BM25_pyvi_segmented_splitted.pkl", 'rb') as inp:
+        st.session_state['bm25'] = pickle.load(inp)
+#4: model
+if 'model' not in st.session_state:
+    st.session_state['tokenizer'], st.session_state['model'], st.session_state['bi_encoder'] = neuralqa()
 #%%
+#%%
 def deploy(question):
+    # tokenizer, model, bi_encoder = neuralqa()
     top_k = returns  # Number of passages we want to retrieve with the bi-encoder
     tokenized_query = preprocess(question).split()
     query = ' '.join(tokenized_query)
+    emb_query = st.session_state['bi_encoder'].encode(query)
+    scores = st.session_state['bm25'].get_scores(tokenized_query)
     top_score_ids = np.argpartition(scores, -50)[-50:]
     emb_candidates = torch.Tensor()
     for i in top_score_ids:
+        emb_candidates = torch.cat([emb_candidates,st.session_state['embedded_passages'][i:i+1]], axis = 0)
     cosine_sim = cos_sim(emb_query, emb_candidates)
     answers = []
     for doc_ind in top_score_ids:
+        doc = st.session_state['passages'][doc_ind].replace('_',' ')
         matches.append(doc)#' '.join(doc).replace('_',' '))
+        ids.append(st.session_state['passage_id'][doc_ind].replace('_',' '))#' '.join(doc[:30].split()[:3]))
     # i=0
     for context in matches:
         q = "Trả lời câu hỏi: "+query + " Trong ngữ cảnh: "+context#tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(context))
+        a = hf_run_model(st.session_state['tokenizer'], st.session_state['model'], q)[0][0]
         answers.append(a)
     # generate result df
     st.header("Results:")
     st.table(df_results)
+    # del tokenizer, model, bi_encoder, emb_candidates
 #%%
+#title start page
+st.title('Closed Domain (Vietnamese Laws) QA System')
+sdg = Image.open('./logo.jpg')
+st.sidebar.image(sdg, width=300)
+st.sidebar.title('Settings')
+st.caption("by HoangNV - on custom laws QA data set")
+returns = st.sidebar.slider('Number of answer suggestions:', 1, 3, 2)
+question = st.text_input('Type in your legal question:')
 if len(question) != 0:
     t0 = time.time()
     with st.spinner('Finding best answers...'):
         deploy(question)
+        st.write("Runtime: "+str(time.time()-t0))
 #%%
 p = Path('.')