Spaces:

bangaboy
/

gliner

Building

App Files Files Community

bangaboy commited on Oct 15, 2024

Commit

9d80ed8

verified ·

1 Parent(s): dca5336

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -19

app.py CHANGED Viewed

@@ -1,22 +1,15 @@
 import streamlit as st
-from pyngrok import ngrok
 import google.generativeai as genai
 import fitz  # PyMuPDF for PDF text extraction
 import spacy
 from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from docx import Document
 import re
-from nltk.corpus import words
 import dateparser
 from datetime import datetime
 import os
-# Replace with your ngrok auth token
-ngrok.set_auth_token("2keP9BS91BCtRFtnf5Ss4tOpzq4_2c6463MYzXPqFM3a95gUM")
-url = ngrok.connect(8501)
-print(f"Public URL: {url}")
 # Load SpaCy model
 nlp_spacy = spacy.load('en_core_web_sm')
@@ -29,6 +22,12 @@ nlp_ner = pipeline('ner', model=model_ner, tokenizer=tokenizer_ner, aggregation_
 gliner_tokenizer = AutoTokenizer.from_pretrained("DAMO-NLP-SG/gliner-large")
 gliner_model = AutoModelForSeq2SeqLM.from_pretrained("DAMO-NLP-SG/gliner-large")
 class EnhancedNERPipeline:
     def __init__(self, nlp_spacy, nlp_ner, gliner_model, gliner_tokenizer):
         self.nlp_spacy = nlp_spacy
@@ -37,24 +36,29 @@ class EnhancedNERPipeline:
         self.gliner_tokenizer = gliner_tokenizer
     def __call__(self, text):
         doc = self.nlp_spacy(text)
         ner_results = self.nlp_ner(text)
         gliner_companies = extract_info_with_gliner(text, "company names")
         gliner_experience = extract_info_with_gliner(text, "years of experience")
         gliner_education = extract_info_with_gliner(text, "educational institutions")
         combined_entities = doc.ents + tuple(ner_results)
         doc._.gliner_companies = gliner_companies.split(', ')
         doc._.gliner_experience = gliner_experience
         doc._.gliner_education = gliner_education.split(', ')
         doc.ents = [ent for ent in combined_entities if ent.label_ not in ["ORG"]]
-        return doc
-def extract_info_with_gliner(text, info_type):
-    input_text = f"Extract {info_type} from: {text}"
-    input_ids = gliner_tokenizer(input_text, return_tensors="pt").input_ids
-    outputs = gliner_model.generate(input_ids, max_length=100)
-    return gliner_tokenizer.decode(outputs[0], skip_special_tokens=True)
 # Create the enhanced pipeline
 enhanced_nlp = EnhancedNERPipeline(nlp_spacy, nlp_ner, gliner_model, gliner_tokenizer)
@@ -74,10 +78,35 @@ def extract_education(doc):
     spacy_babelscape_education = set([ent.text for ent in doc.ents if ent.label_ == "ORG" and any(keyword in ent.text.lower() for keyword in ["university", "college", "institute", "school"])])
     return list(gliner_education.union(spacy_babelscape_education))
 def main():
     st.title("Enhanced Resume Analyzer with GLinER Focus")
-    api_key = st.text_input("Enter your Google Gemini API key", type="password")
     uploaded_file = st.file_uploader("Choose a PDF or DOCX file", type=["pdf", "docx"])
     if uploaded_file is not None and api_key:
@@ -94,12 +123,14 @@ def main():
                 st.error("Unsupported file format.")
                 return
             doc = enhanced_nlp(resume_text)
             companies = extract_companies(doc)
             experience = extract_experience(doc)
             education = extract_education(doc)
             phone = extract_info_with_gliner(resume_text, "phone number")
             email = extract_info_with_gliner(resume_text, "email address")
             linkedin = extract_info_with_gliner(resume_text, "LinkedIn profile")
@@ -120,4 +151,4 @@ def main():
             st.error(f"Error during processing: {e}")
 if __name__ == "__main__":
-    main()

 import streamlit as st
 import google.generativeai as genai
 import fitz  # PyMuPDF for PDF text extraction
 import spacy
 from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
+from transformers import AutoModelForSeq2SeqLM
 from docx import Document
 import re
 import dateparser
 from datetime import datetime
 import os
 # Load SpaCy model
 nlp_spacy = spacy.load('en_core_web_sm')
 gliner_tokenizer = AutoTokenizer.from_pretrained("DAMO-NLP-SG/gliner-large")
 gliner_model = AutoModelForSeq2SeqLM.from_pretrained("DAMO-NLP-SG/gliner-large")
+def extract_info_with_gliner(text, info_type):
+    input_text = f"Extract {info_type} from: {text}"
+    input_ids = gliner_tokenizer(input_text, return_tensors="pt").input_ids
+    outputs = gliner_model.generate(input_ids, max_length=100)
+    return gliner_tokenizer.decode(outputs[0], skip_special_tokens=True)
 class EnhancedNERPipeline:
     def __init__(self, nlp_spacy, nlp_ner, gliner_model, gliner_tokenizer):
         self.nlp_spacy = nlp_spacy
         self.gliner_tokenizer = gliner_tokenizer
     def __call__(self, text):
+        # SpaCy processing
         doc = self.nlp_spacy(text)
+        # Babelscape NER processing
         ner_results = self.nlp_ner(text)
+        # GLinER processing
         gliner_companies = extract_info_with_gliner(text, "company names")
         gliner_experience = extract_info_with_gliner(text, "years of experience")
         gliner_education = extract_info_with_gliner(text, "educational institutions")
+        # Combine results
         combined_entities = doc.ents + tuple(ner_results)
+        # Add GLinER results as custom attributes
         doc._.gliner_companies = gliner_companies.split(', ')
         doc._.gliner_experience = gliner_experience
         doc._.gliner_education = gliner_education.split(', ')
+        # Update doc.ents with combined results for other entity types
         doc.ents = [ent for ent in combined_entities if ent.label_ not in ["ORG"]]
+        return doc
 # Create the enhanced pipeline
 enhanced_nlp = EnhancedNERPipeline(nlp_spacy, nlp_ner, gliner_model, gliner_tokenizer)
     spacy_babelscape_education = set([ent.text for ent in doc.ents if ent.label_ == "ORG" and any(keyword in ent.text.lower() for keyword in ["university", "college", "institute", "school"])])
     return list(gliner_education.union(spacy_babelscape_education))
+def extract_text_from_pdf(file):
+    pdf = fitz.open(stream=file.read(), filetype="pdf")
+    text = ""
+    for page in pdf:
+        text += page.get_text()
+    return text
+def extract_text_from_doc(file):
+    doc = Document(file)
+    return " ".join([paragraph.text for paragraph in doc.paragraphs])
+def authenticate_gemini(api_key):
+    try:
+        genai.configure(api_key=api_key)
+        model = genai.GenerativeModel('gemini-pro')
+        return model
+    except Exception as e:
+        st.error(f"Authentication failed: {e}")
+        return None
+def generate_summary(text, model):
+    prompt = f"Summarize the following resume:\n\n{text}\n\nProvide a brief overview of the candidate's qualifications, experience, and key skills."
+    response = model.generate_content(prompt)
+    return response.text
 def main():
     st.title("Enhanced Resume Analyzer with GLinER Focus")
+    api_key = os.environ.get("GOOGLE_GEMINI_API_KEY")
     uploaded_file = st.file_uploader("Choose a PDF or DOCX file", type=["pdf", "docx"])
     if uploaded_file is not None and api_key:
                 st.error("Unsupported file format.")
                 return
+            # Process the resume text with the enhanced pipeline
             doc = enhanced_nlp(resume_text)
             companies = extract_companies(doc)
             experience = extract_experience(doc)
             education = extract_education(doc)
+            # Use GLinER for other extractions
             phone = extract_info_with_gliner(resume_text, "phone number")
             email = extract_info_with_gliner(resume_text, "email address")
             linkedin = extract_info_with_gliner(resume_text, "LinkedIn profile")
             st.error(f"Error during processing: {e}")
 if __name__ == "__main__":
+    main()