Spaces:

Hemasagar
/

Pdf-to-csv-audio-to-text

Sleeping

Hemasagar commited on May 30, 2024

Commit

8512dad

verified ·

1 Parent(s): 127478b

Update utils.py

Files changed (1) hide show

utils.py CHANGED Viewed

@@ -48,38 +48,38 @@ def create_docs(user_pdf_list):
-    for filename in user_pdf_list:
-        print(filename)
-        raw_data=get_pdf_text(filename)
-        print("pdf_Data",raw_data)
-        # print("extracted raw data")
-        llm_extracted_data=extracted_data(raw_data)
-        print("llm_extracted_data",llm_extracted_data)
-        #print(llm_extracted_data)
-        #print("llm extracted data")
-        #Adding items to our list - Adding data & its metadata
-        pattern = r'{(.+)}'
-        match = re.search(pattern, llm_extracted_data, re.DOTALL)
-        if match:
-            extracted_text = match.group(1)
-            # Converting the extracted text to a dictionary
-            data_dict = eval('{' + extracted_text + '}')
-            print(data_dict)
-        else:
-            print("No match found.")
-            # Initialize data_dict
-            data_dict = {}
-        df=df.append([data_dict], ignore_index=True)
         print("********************DONE***************")
         # df=df.append(save_to_dataframe(llm_extracted_data), ignore_index=True)
-    df.head()
-    return df

+    # for filename in user_pdf_list:
+    print(filename)
+    raw_data=get_pdf_text(filename)
+    print("pdf_Data",raw_data)
+    # print("extracted raw data")
+    llm_extracted_data=extracted_data(raw_data)
+    print("llm_extracted_data",llm_extracted_data)
+    #print(llm_extracted_data)
+    #print("llm extracted data")
+    #Adding items to our list - Adding data & its metadata
+    pattern = r'{(.+)}'
+    match = re.search(pattern, llm_extracted_data, re.DOTALL)
+    if match:
+        extracted_text = match.group(1)
+        # Converting the extracted text to a dictionary
+        data_dict = eval('{' + extracted_text + '}')
+        print(data_dict)
+    else:
+        print("No match found.")
+        # Initialize data_dict
+        data_dict = {}
+        # df=df.append([data_dict], ignore_index=True)
         print("********************DONE***************")
         # df=df.append(save_to_dataframe(llm_extracted_data), ignore_index=True)
+    llm_extracted_data
+    return llm_extracted_data