dtcda

Sleeping

App Files Files Community

zmbfeng commited on Aug 6

Commit

95e6c0d

•

1 Parent(s): 78ef37b

paragraphsing implemented

Browse files

Files changed (2) hide show

app.py +41 -0
requirements.txt +3 -1

app.py CHANGED Viewed

@@ -40,6 +40,35 @@ def combined_similarity(similarity, sentence, query):
     combined_score = similarity + (common_words / max(len(query_words), 1))  # Normalize by the length of the query to keep the score between -1 and 1
     return combined_score,similarity,(common_words / max(len(query_words), 1))
 big_text = """
     <div style='text-align: center;'>
         <h1 style='font-size: 30x;'>Knowledge Extraction A</h1>
@@ -92,6 +121,8 @@ if 'is_initialized' not in st.session_state:
     st.session_state.stop_words = set(stopwords.words('english'))
     st.session_state.bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased", )
     st.session_state.bert_model = BertModel.from_pretrained("bert-base-uncased", ).to('cuda')
 if 'list_count' in st.session_state:
     st.write(f'The number of elements at the top level of the hierarchy: {st.session_state.list_count }')
@@ -173,6 +204,9 @@ if 'paragraph_sentence_encodings' in st.session_state:
             original_paragraph = ' '.join([s[0] for s in paragraph_sentence_encoding[1] if s])
             modified_paragraph = ' '.join(reordered_paragraph)
             paragraph_scores.append(
                 (top_three_avg_similarity, top_three_avg_commonality,
                  {'modified_text': modified_paragraph, 'original_text': original_paragraph})
@@ -184,5 +218,12 @@ if 'paragraph_sentence_encodings' in st.session_state:
         st.write("Top scored paragraphs and their scores:")
         for similarity_score, commonality_score, paragraph in paragraph_scores[:5]:
             st.write(f"Similarity Score: {similarity_score}, Commonality Score: {commonality_score}")
             st.write("Modified Paragraph: ", paragraph['modified_text'])
             st.write("Original Paragraph: ", paragraph['original_text'])

     combined_score = similarity + (common_words / max(len(query_words), 1))  # Normalize by the length of the query to keep the score between -1 and 1
     return combined_score,similarity,(common_words / max(len(query_words), 1))
+def paraphrase(sentence):
+  text =  "paraphrase: " + sentence + " </s>"
+  encoding = st.session_state.paraphrase_tokenizer.encode_plus(text,pad_to_max_length=True, return_tensors="pt")
+  input_ids, attention_masks = encoding["input_ids"].to("cuda"), encoding["attention_mask"].to("cuda")
+  outputs = st.session_state.paraphrase_model.generate(
+      input_ids=input_ids, attention_mask=attention_masks,
+      max_length=256,
+      do_sample=True,
+      top_k=120,
+      top_p=0.95,
+      #early_stopping=True,
+      early_stopping=False,
+      #num_return_sequences=5,
+      num_return_sequences=1,
+      repetition_penalty=1.5
+  )
+  # print(f"outputs = {outputs}")
+  results=[]
+  for output in outputs:
+    print("*")
+    line = st.session_state.paraphrase_tokenizer.decode(output, skip_special_tokens=True,clean_up_tokenization_spaces=True)
+    #results.append(line)
+  return line
 big_text = """
     <div style='text-align: center;'>
         <h1 style='font-size: 30x;'>Knowledge Extraction A</h1>
     st.session_state.stop_words = set(stopwords.words('english'))
     st.session_state.bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased", )
     st.session_state.bert_model = BertModel.from_pretrained("bert-base-uncased", ).to('cuda')
+    st.session_state.paraphrase_tokenizer = AutoTokenizer.from_pretrained("Vamsi/T5_Paraphrase_Paws")
+    st.session_state.paraphrase_model = AutoModelForSeq2SeqLM.from_pretrained("Vamsi/T5_Paraphrase_Paws").to('cuda')
 if 'list_count' in st.session_state:
     st.write(f'The number of elements at the top level of the hierarchy: {st.session_state.list_count }')
             original_paragraph = ' '.join([s[0] for s in paragraph_sentence_encoding[1] if s])
             modified_paragraph = ' '.join(reordered_paragraph)
             paragraph_scores.append(
                 (top_three_avg_similarity, top_three_avg_commonality,
                  {'modified_text': modified_paragraph, 'original_text': original_paragraph})
         st.write("Top scored paragraphs and their scores:")
         for similarity_score, commonality_score, paragraph in paragraph_scores[:5]:
             st.write(f"Similarity Score: {similarity_score}, Commonality Score: {commonality_score}")
+            output_1 = paraphrase(paragraph['modified_text'])
+            print(output_1)
+            output_2 = paraphrase(output_1)
+            print(output_2)
+            st.write("Paraphrased Paragraph: ", output_2)
             st.write("Modified Paragraph: ", paragraph['modified_text'])
             st.write("Original Paragraph: ", paragraph['original_text'])

requirements.txt CHANGED Viewed

@@ -1,4 +1,6 @@
 transformers
 torch
 scikit-learn
-nltk

 transformers
 torch
 scikit-learn
+nltk
+sentencepiece
+protobuf==3.20.3