Spaces:

cnstvariable
/

med_bot

Runtime error

App Files Files Community

cnstvariable commited on Jan 29, 2023

Commit

c34fe27

•

1 Parent(s): ccb7d99

Upload 13 files

Browse files

Files changed (13) hide show

.gitattributes +7 -33
Dockerfile +22 -0
README.md +1 -12
deployment.py +180 -0
question_extractor_model_2_11/keras_metadata.pb +3 -0
question_extractor_model_2_11/saved_model.pb +3 -0
question_extractor_model_2_11/variables/variables.data-00000-of-00001 +3 -0
question_extractor_model_2_11/variables/variables.index +0 -0
requirements.txt +8 -0
streamlit_app.py +180 -0
tf_gpt2_model_2_118_50000/config.json +38 -0
tf_gpt2_model_2_118_50000/tf_model.h5 +3 -0
train_gpt_data.pkl +3 -0

.gitattributes CHANGED Viewed

@@ -1,34 +1,8 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+# Auto detect text files and perform LF normalization
+* text=auto
 *.h5 filter=lfs diff=lfs merge=lfs -text
+*..data-00000-of-00001 filter=lfs diff=lfs merge=lfs -text
+*.data-00000-of-00001 filter=lfs diff=lfs merge=lfs -text
+question_extractor_model_2_11/keras_metadata.pb filter=lfs diff=lfs merge=lfs -text
+question_extractor_model_2_11/saved_model.pb filter=lfs diff=lfs merge=lfs -text
+train_gpt_data.pkl filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

	@@ -0,0 +1,22 @@

+# app/Dockerfile
+FROM python:3.9-slim
+WORKDIR /app
+RUN apt-get update && apt-get install -y \
+    build-essential \
+    curl \
+    software-properties-common \
+    git \
+    && rm -rf /var/lib/apt/lists/*
+RUN git clone https://github.com/streamlit/streamlit-example.git .
+RUN pip3 install -r requirements.txt
+EXPOSE 8501
+HEALTHCHECK CMD curl --fail http://localhost:8501/_stcore/health
+ENTRYPOINT ["streamlit", "run", "streamlit_app.py", "--server.port=8501", "--server.address=0.0.0.0"]

README.md CHANGED Viewed

@@ -1,12 +1 @@
----
-title: Med Bot
-emoji: 💻
-colorFrom: green
-colorTo: pink
-sdk: streamlit
-sdk_version: 1.17.0
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference


1	+ # med-bot-gpt

deployment.py ADDED Viewed

	@@ -0,0 +1,180 @@

+# -*- coding: utf-8 -*-
+"""Untitled0.ipynb
+Automatically generated by Colaboratory.
+Original file is located at
+    https://colab.research.google.com/drive/13kE5uGoL2gfzSwTJli-WZolqCNBZXxNV
+"""
+import tensorflow as tf
+import numpy as np
+import pandas as pd
+import streamlit as st
+import re
+import os
+import csv
+from tqdm import tqdm
+import faiss
+from nltk.translate.bleu_score import sentence_bleu
+from datetime import datetime
+def decontractions(phrase):
+    """decontracted takes text and convert contractions into natural form.
+     ref: https://stackoverflow.com/questions/19790188/expanding-english-language-contractions-in-python/47091490#47091490"""
+    # specific
+    phrase = re.sub(r"won\'t", "will not", phrase)
+    phrase = re.sub(r"can\'t", "can not", phrase)
+    phrase = re.sub(r"won\’t", "will not", phrase)
+    phrase = re.sub(r"can\’t", "can not", phrase)
+    # general
+    phrase = re.sub(r"n\'t", " not", phrase)
+    phrase = re.sub(r"\'re", " are", phrase)
+    phrase = re.sub(r"\'s", " is", phrase)
+    phrase = re.sub(r"\'d", " would", phrase)
+    phrase = re.sub(r"\'ll", " will", phrase)
+    phrase = re.sub(r"\'t", " not", phrase)
+    phrase = re.sub(r"\'ve", " have", phrase)
+    phrase = re.sub(r"\'m", " am", phrase)
+    phrase = re.sub(r"n\’t", " not", phrase)
+    phrase = re.sub(r"\’re", " are", phrase)
+    phrase = re.sub(r"\’s", " is", phrase)
+    phrase = re.sub(r"\’d", " would", phrase)
+    phrase = re.sub(r"\’ll", " will", phrase)
+    phrase = re.sub(r"\’t", " not", phrase)
+    phrase = re.sub(r"\’ve", " have", phrase)
+    phrase = re.sub(r"\’m", " am", phrase)
+    return phrase
+def preprocess(text):
+    # convert all the text into lower letters
+    # remove the words betweent brakets ()
+    # remove these characters: {'$', ')', '?', '"', '’', '.',  '°', '!', ';', '/', "'", '€', '%', ':', ',', '('}
+    # replace these spl characters with space: '\u200b', '\xa0', '-', '/'
+    text = text.lower()
+    text = decontractions(text)
+    text = re.sub('[$)\?"’.°!;\'€%:,(/]', '', text)
+    text = re.sub('\u200b', ' ', text)
+    text = re.sub('\xa0', ' ', text)
+    text = re.sub('-', ' ', text)
+    return text
+#importing bert tokenizer and loading the trained question embedding extractor model
+from transformers import AutoTokenizer, TFGPT2Model
+@st.cache(allow_output_mutation=True)
+def return_biobert_tokenizer_model():
+    '''returns pretrained biobert tokenizer and question extractor model'''
+    biobert_tokenizer = AutoTokenizer.from_pretrained("cambridgeltl/BioRedditBERT-uncased")
+    question_extractor_model1=tf.keras.models.load_model('question_extractor_model_2_11')
+    return biobert_tokenizer,question_extractor_model1
+#importing gpt2 tokenizer and loading the trained gpt2 model
+from transformers import GPT2Tokenizer,TFGPT2LMHeadModel
+@st.cache(allow_output_mutation=True)
+def return_gpt2_tokenizer_model():
+    '''returns pretrained gpt2 tokenizer and gpt2 model'''
+    gpt2_tokenizer=GPT2Tokenizer.from_pretrained("gpt2")
+    tf_gpt2_model=TFGPT2LMHeadModel.from_pretrained("tf_gpt2_model_2_118_50000")
+    return gpt2_tokenizer,tf_gpt2_model
+#preparing the faiss search
+qa=pd.read_pickle('train_gpt_data.pkl')
+question_bert = qa["Q_FFNN_embeds"].tolist()
+answer_bert = qa["A_FFNN_embeds"].tolist()
+question_bert = np.array(question_bert)
+answer_bert = np.array(answer_bert)
+question_bert = question_bert.astype('float32')
+answer_bert = answer_bert.astype('float32')
+answer_index = faiss.IndexFlatIP(answer_bert.shape[-1])
+question_index = faiss.IndexFlatIP(question_bert.shape[-1])
+answer_index.add(answer_bert)
+question_index.add(question_bert)
+print('finished initializing')
+#defining function to prepare the data for gpt inference
+#https://github.com/ash3n/DocProduct
+def preparing_gpt_inference_data(gpt2_tokenizer,question,question_embedding):
+  topk=20
+  scores,indices=answer_index.search(
+                  question_embedding.astype('float32'), topk)
+  q_sub=qa.iloc[indices.reshape(20)]
+  line = '`QUESTION: %s `ANSWER: ' % (
+                        question)
+  encoded_len=len(gpt2_tokenizer.encode(line))
+  for i in q_sub.iterrows():
+    line='`QUESTION: %s `ANSWER: %s ' % (i[1]['question'],i[1]['answer']) + line
+    line=line.replace('\n','')
+    encoded_len=len(gpt2_tokenizer.encode(line))
+    if encoded_len>=1024:
+      break
+  return gpt2_tokenizer.encode(line)[-1024:]
+#function to generate answer given a question and the required answer length
+def give_answer(question,answer_len):
+  preprocessed_question=preprocess(question)
+  question_len=len(preprocessed_question.split(' '))
+  truncated_question=preprocessed_question
+  if question_len>500:
+    truncated_question=' '.join(preprocessed_question.split(' ')[:500])
+  biobert_tokenizer,question_extractor_model1= return_biobert_tokenizer_model()
+  gpt2_tokenizer,tf_gpt2_model= return_gpt2_tokenizer_model()
+  encoded_question= biobert_tokenizer.encode(truncated_question)
+  max_length=512
+  padded_question=tf.keras.preprocessing.sequence.pad_sequences(
+      [encoded_question], maxlen=max_length, padding='post')
+  question_mask=[[1 if token!=0 else 0 for token in question] for question in padded_question]
+  embeddings=question_extractor_model1({'question':np.array(padded_question),'question_mask':np.array(question_mask)})
+  gpt_input=preparing_gpt_inference_data(gpt2_tokenizer,truncated_question,embeddings.numpy())
+  mask_start = len(gpt_input) - list(gpt_input[::-1]).index(4600) + 1
+  input=gpt_input[:mask_start+1]
+  if len(input)>(1024-answer_len):
+   input=input[-(1024-answer_len):]
+  gpt2_output=gpt2_tokenizer.decode(tf_gpt2_model.generate(input_ids=tf.constant([np.array(input)]),max_length=1024,temperature=0.7)[0])
+  answer=gpt2_output.rindex('`ANSWER: ')
+  return gpt2_output[answer+len('`ANSWER: '):]
+#defining the final function to generate answer assuming default answer length to be 20
+def final_func_1(question):
+  answer_len=25
+  return give_answer(question,answer_len)
+def main():
+    st.title('Medical Chatbot')
+    question=st.text_input('Question',"Type Here")
+    result=""
+    if st.button('ask'):
+        #with st.spinner("You Know! an apple a day keeps doctor away!"):
+        start=datetime.now()
+        result=final_func_1(question)
+        end_time =datetime.now()
+        st.success("Here is the answer")
+        st.text(result)
+        st.text("result recieved within "+str((end_time-start).total_seconds()))
+if __name__=='__main__':
+    main()

question_extractor_model_2_11/keras_metadata.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2eadb8131f377ce917571a19da0e644ebb369921e2a94178c208b76937f350ea
+size 150810

question_extractor_model_2_11/saved_model.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0158efad4ac4618241e29c652d5d24c5c7a641328af6d1d9e1cd993a3274c60f
+size 6893930

question_extractor_model_2_11/variables/variables.data-00000-of-00001 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50c81fe8ad9b3813d279bab35d6c029029183e9f5585f9bd2edc674133113cb6
+size 435721428

question_extractor_model_2_11/variables/variables.index ADDED Viewed

Binary file (11.8 kB). View file

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+tensorflow
+Keras
+opencv-python-headless
+streamlit
+transformers
+faiss-cpu
+nltk

streamlit_app.py ADDED Viewed

	@@ -0,0 +1,180 @@

+# -*- coding: utf-8 -*-
+"""Untitled0.ipynb
+Automatically generated by Colaboratory.
+Original file is located at
+    https://colab.research.google.com/drive/13kE5uGoL2gfzSwTJli-WZolqCNBZXxNV
+"""
+import tensorflow as tf
+import numpy as np
+import pandas as pd
+import streamlit as st
+import re
+import os
+import csv
+from tqdm import tqdm
+import faiss
+from nltk.translate.bleu_score import sentence_bleu
+from datetime import datetime
+def decontractions(phrase):
+    """decontracted takes text and convert contractions into natural form.
+     ref: https://stackoverflow.com/questions/19790188/expanding-english-language-contractions-in-python/47091490#47091490"""
+    # specific
+    phrase = re.sub(r"won\'t", "will not", phrase)
+    phrase = re.sub(r"can\'t", "can not", phrase)
+    phrase = re.sub(r"won\’t", "will not", phrase)
+    phrase = re.sub(r"can\’t", "can not", phrase)
+    # general
+    phrase = re.sub(r"n\'t", " not", phrase)
+    phrase = re.sub(r"\'re", " are", phrase)
+    phrase = re.sub(r"\'s", " is", phrase)
+    phrase = re.sub(r"\'d", " would", phrase)
+    phrase = re.sub(r"\'ll", " will", phrase)
+    phrase = re.sub(r"\'t", " not", phrase)
+    phrase = re.sub(r"\'ve", " have", phrase)
+    phrase = re.sub(r"\'m", " am", phrase)
+    phrase = re.sub(r"n\’t", " not", phrase)
+    phrase = re.sub(r"\’re", " are", phrase)
+    phrase = re.sub(r"\’s", " is", phrase)
+    phrase = re.sub(r"\’d", " would", phrase)
+    phrase = re.sub(r"\’ll", " will", phrase)
+    phrase = re.sub(r"\’t", " not", phrase)
+    phrase = re.sub(r"\’ve", " have", phrase)
+    phrase = re.sub(r"\’m", " am", phrase)
+    return phrase
+def preprocess(text):
+    # convert all the text into lower letters
+    # remove the words betweent brakets ()
+    # remove these characters: {'$', ')', '?', '"', '’', '.',  '°', '!', ';', '/', "'", '€', '%', ':', ',', '('}
+    # replace these spl characters with space: '\u200b', '\xa0', '-', '/'
+    text = text.lower()
+    text = decontractions(text)
+    text = re.sub('[$)\?"’.°!;\'€%:,(/]', '', text)
+    text = re.sub('\u200b', ' ', text)
+    text = re.sub('\xa0', ' ', text)
+    text = re.sub('-', ' ', text)
+    return text
+#importing bert tokenizer and loading the trained question embedding extractor model
+from transformers import AutoTokenizer, TFGPT2Model
+@st.cache(allow_output_mutation=True)
+def return_biobert_tokenizer_model():
+    '''returns pretrained biobert tokenizer and question extractor model'''
+    biobert_tokenizer = AutoTokenizer.from_pretrained("cambridgeltl/BioRedditBERT-uncased")
+    question_extractor_model1=tf.keras.models.load_model('question_extractor_model_2_11')
+    return biobert_tokenizer,question_extractor_model1
+#importing gpt2 tokenizer and loading the trained gpt2 model
+from transformers import GPT2Tokenizer,TFGPT2LMHeadModel
+@st.cache(allow_output_mutation=True)
+def return_gpt2_tokenizer_model():
+    '''returns pretrained gpt2 tokenizer and gpt2 model'''
+    gpt2_tokenizer=GPT2Tokenizer.from_pretrained("gpt2")
+    tf_gpt2_model=TFGPT2LMHeadModel.from_pretrained("tf_gpt2_model_2_118_50000")
+    return gpt2_tokenizer,tf_gpt2_model
+#preparing the faiss search
+qa=pd.read_pickle('train_gpt_data.pkl')
+question_bert = qa["Q_FFNN_embeds"].tolist()
+answer_bert = qa["A_FFNN_embeds"].tolist()
+question_bert = np.array(question_bert)
+answer_bert = np.array(answer_bert)
+question_bert = question_bert.astype('float32')
+answer_bert = answer_bert.astype('float32')
+answer_index = faiss.IndexFlatIP(answer_bert.shape[-1])
+question_index = faiss.IndexFlatIP(question_bert.shape[-1])
+answer_index.add(answer_bert)
+question_index.add(question_bert)
+print('finished initializing')
+#defining function to prepare the data for gpt inference
+#https://github.com/ash3n/DocProduct
+def preparing_gpt_inference_data(gpt2_tokenizer,question,question_embedding):
+  topk=20
+  scores,indices=answer_index.search(
+                  question_embedding.astype('float32'), topk)
+  q_sub=qa.iloc[indices.reshape(20)]
+  line = '`QUESTION: %s `ANSWER: ' % (
+                        question)
+  encoded_len=len(gpt2_tokenizer.encode(line))
+  for i in q_sub.iterrows():
+    line='`QUESTION: %s `ANSWER: %s ' % (i[1]['question'],i[1]['answer']) + line
+    line=line.replace('\n','')
+    encoded_len=len(gpt2_tokenizer.encode(line))
+    if encoded_len>=1024:
+      break
+  return gpt2_tokenizer.encode(line)[-1024:]
+#function to generate answer given a question and the required answer length
+def give_answer(question,answer_len):
+  preprocessed_question=preprocess(question)
+  question_len=len(preprocessed_question.split(' '))
+  truncated_question=preprocessed_question
+  if question_len>500:
+    truncated_question=' '.join(preprocessed_question.split(' ')[:500])
+  biobert_tokenizer,question_extractor_model1= return_biobert_tokenizer_model()
+  gpt2_tokenizer,tf_gpt2_model= return_gpt2_tokenizer_model()
+  encoded_question= biobert_tokenizer.encode(truncated_question)
+  max_length=512
+  padded_question=tf.keras.preprocessing.sequence.pad_sequences(
+      [encoded_question], maxlen=max_length, padding='post')
+  question_mask=[[1 if token!=0 else 0 for token in question] for question in padded_question]
+  embeddings=question_extractor_model1({'question':np.array(padded_question),'question_mask':np.array(question_mask)})
+  gpt_input=preparing_gpt_inference_data(gpt2_tokenizer,truncated_question,embeddings.numpy())
+  mask_start = len(gpt_input) - list(gpt_input[::-1]).index(4600) + 1
+  input=gpt_input[:mask_start+1]
+  if len(input)>(1024-answer_len):
+   input=input[-(1024-answer_len):]
+  gpt2_output=gpt2_tokenizer.decode(tf_gpt2_model.generate(input_ids=tf.constant([np.array(input)]),max_length=1024,temperature=0.7)[0])
+  answer=gpt2_output.rindex('`ANSWER: ')
+  return gpt2_output[answer+len('`ANSWER: '):]
+#defining the final function to generate answer assuming default answer length to be 20
+def final_func_1(question):
+  answer_len=25
+  return give_answer(question,answer_len)
+def main():
+    st.title('Medical Chatbot')
+    question=st.text_input('Question',"Type Here")
+    result=""
+    if st.button('ask'):
+        #with st.spinner("You Know! an apple a day keeps doctor away!"):
+        start=datetime.now()
+        result=final_func_1(question)
+        end_time =datetime.now()
+        st.success("Here is the answer")
+        st.text(result)
+        st.text("result recieved within "+str((end_time-start).total_seconds()))
+if __name__=='__main__':
+    main()

tf_gpt2_model_2_118_50000/config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_name_or_path": "/kaggle/input/data45",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "transformers_version": "4.20.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

tf_gpt2_model_2_118_50000/tf_model.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acb1d9c174d87de89ebb18e21b1c9aea878a2aefb49135e387e3a5fdd4abe776
+size 497934896

train_gpt_data.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:944f5a6e1822cbbe49c3d4658faaa417f8207bc94cabb43c7018779c26abaee2
+size 86799441