Spaces:

amj808
/

talent

Sleeping

App Files Files Community

Alastair Jepps commited on Jul 20, 2024

Commit

0dd7290

0 Parent(s):

Initial

Browse files

Files changed (6) hide show

.DS_Store +0 -0
.gitattributes +35 -0
.gitignore +2 -0
README.md +6 -0
environment.yml +19 -0
index.py +194 -0

.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ generations/*
2	+ .env

README.md ADDED Viewed

	@@ -0,0 +1,6 @@

+---
+title: sd3_gradio
+app_file: index.py
+sdk: gradio
+sdk_version: 4.36.1
+---

environment.yml ADDED Viewed

	@@ -0,0 +1,19 @@

+name: talent_gradio
+channels:
+  - conda-forge
+  - defaults
+dependencies:
+  - python-docx
+  - pypdf2
+  - python=3.11
+  - gradio=4.29.0
+  - python-dotenv
+  - pip
+  - pip:
+    - langchain-anthropic
+    - langchain
+    - langsmith
+    - langchainhub
+    - pdfminer.six
+    - pytesseract
+    - pdf2image

index.py ADDED Viewed

	@@ -0,0 +1,194 @@

+import gradio as gr
+import os
+import json
+import time
+import io
+from dotenv import load_dotenv
+from docx import Document
+import PyPDF2
+from langchain_anthropic import ChatAnthropic
+from pdfminer.high_level import extract_text
+import re
+from langchain_core.output_parsers import StrOutputParser
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_core.prompts import ChatPromptTemplate, HumanMessagePromptTemplate, SystemMessagePromptTemplate
+from langchain import hub
+import pytesseract
+from pdf2image import convert_from_path
+import io
+# Load environment variables from .env file
+load_dotenv()
+model = ChatAnthropic(model="claude-3-5-sonnet-20240620",  api_key=os.getenv("ANTHROPIC_API_KEY"))
+hub_prompt = hub.pull("talent_assistant")
+def check_password(username, password):
+    return username == os.getenv("GRADIO_USERNAME") and password == os.getenv("GRADIO_PASSWORD")
+def extract_human_message_template(chat_prompt):
+    for message in chat_prompt.messages:
+        if isinstance(message, HumanMessagePromptTemplate):
+            return message.prompt
+    return None
+def clean_bullet_points(text):
+    # Replace standalone 'e' at the beginning of a line with a bullet point
+    text = re.sub(r'(?m)^e\s', '• ', text)
+    # Replace 'eo' at the beginning of a line with a nested bullet point
+    text = re.sub(r'(?m)^eo\s', '  ◦ ', text)
+    text = re.sub(r'(?m)^\+\s', '• ', text)
+    return text
+def pdf_to_text_ocr(file_path):
+    # Convert PDF to list of images
+    images = convert_from_path(file_path)
+    # Perform OCR on each image
+    text = ""
+    for image in images:
+        # Perform OCR directly on the PIL Image object
+        page_text = pytesseract.image_to_string(image, config='--psm 6')
+        # Try to handle encoding
+        try:
+            page_text = page_text.encode('utf-8', errors='ignore').decode('utf-8')
+        except UnicodeEncodeError:
+            # If UTF-8 fails, try another common encoding
+            page_text = page_text.encode('iso-8859-1', errors='ignore').decode('iso-8859-1')
+        text += page_text + "\n\n"  # Add extra newline between pages
+    # Post-processing
+    # Remove hyphenation
+    text = text.replace('-\n', '')
+    # Clean up whitespace while preserving line breaks
+    text = re.sub(r' +', ' ', text)  # Replace multiple spaces with a single space
+    text = re.sub(r'\n{3,}', '\n\n', text)  # Replace 3 or more newlines with 2
+    # Replace any remaining non-printable characters
+    text = re.sub(r'[^\x20-\x7E\n]', '', text)
+    text = text.strip()  # Remove leading/trailing whitespace
+    text = clean_bullet_points(text)
+    return text
+def process_match(*args):
+    global hub_prompt
+    prompt = extract_human_message_template(hub_prompt)
+    if prompt:
+        prompt.template = prompt.template.replace('{{CV}}', '{CV}')
+        prompt.template = prompt.template.replace('{{JOB_DESCRIPTION}}', '{JOB_DESCRIPTION}')
+    chain = prompt | model | StrOutputParser()
+    response = chain.invoke({"JOB_DESCRIPTION": args[1], "CV": args[0]})
+    return response
+def pdf_to_text_miner(file_path):
+    # Extract text
+    text = extract_text(file_path)
+    # Post-processing
+    # Remove excessive newlines
+    text = re.sub(r'\n\s*\n', '\n\n', text)
+    # Ensure consistent newlines for section breaks
+    text = re.sub(r'([A-Z]+)(\n|.)*?:', r'\n\1:\n', text)
+    # Remove any leading/trailing whitespace
+    text = text.strip()
+    return text
+def pdf_to_text(file_path):
+    text = ""
+    with open(file_path, "rb") as file:
+        reader = PyPDF2.PdfFileReader(file)
+        for page in range(reader.getNumPages()):
+            text += reader.getPage(page).extract_text() + "\n"
+    return text
+def create_app():
+    with gr.Blocks() as app:
+        gr.Markdown("# Kingmakers Talent Prototype")
+        active_tab = gr.State("CV/JD Match")
+        def file_process(file):
+            if file.endswith('.pdf'):
+                return  pdf_to_text_ocr(file)
+            else:
+                return open(file, 'r').read()
+            # Convert job description file to text
+            """
+            if job_description_file.name.endswith('.docx'):
+                job_description_text = docx_to_text(job_description_file.name)
+            elif job_description_file.name.endswith('.pdf'):
+                job_description_text = pdf_to_text(job_description_file.name)
+            else:
+                job_description_text = job_description_file.read().decode('utf-8')
+            if cv_file.name.endswith('.docx'):
+                cv_text = docx_to_text(cv_file.name)
+            elif cv_file.name.endswith('.pdf'):
+                cv_text = pdf_to_text(cv_file.name)
+            else:
+                cv_text = cv_file.read().decode('utf-8')
+            """
+            return "It worked!"
+        def update_active_tab(tab_name):
+            return tab_name
+        with gr.Tabs() as generation_mode_tabs:
+            with gr.TabItem("Generate"):
+                with gr.Row():
+                    with gr.Column(scale=1):
+                        with gr.Tabs() as mode_tabs:
+                            with gr.TabItem("CV/JD Match") as text_to_image_tab:
+                                jd = gr.Textbox(label="Job Description")
+                                jd_file = gr.File(label=".pdf, .doc or .txt" , file_types=[".pdf", ".doc", ".txt"])
+                                jd_file.change(fn=file_process, inputs=jd_file,outputs=jd)
+                                cv = gr.Textbox(label="CV")
+                                cv_file = gr.File(label=".pdf, .doc or .txt" , file_types=[".pdf", ".doc", ".txt"])
+                                cv_file.change(fn=file_process,inputs=cv_file,outputs=cv)
+                        generate_btn = gr.Button("Generate")
+                    with gr.Column(scale=1):
+                        score = gr.Textbox(label="Score")
+                        save_btn = gr.Button("Send to Greenhouse")
+                generate_btn.click(
+                    fn=process_match,
+                    inputs=[
+                        cv, jd
+                             ],
+                    outputs=[score]
+                )
+    return app
+if __name__ == "__main__":
+    app = create_app()
+    app.launch(debug=True)  # auth=check_password Added share=True to create a public link