Spaces:

seanpedrickcase
/

llm_topic_modelling

Sleeping

App Files Files Community

seanpedrickcase commited on Dec 12, 2024

Commit

cc6683a

1 Parent(s): adc03a0

Added presentation of summary table outputs

Browse files

Files changed (3) hide show

app.py +3 -2
tools/helper_functions.py +83 -26
tools/llm_api_call.py +10 -4

app.py CHANGED Viewed

@@ -136,6 +136,7 @@ with app:
             summarisation_in_previous_data_files_status = gr.Textbox(value = "", label="Previous file input", visible=False)
             summarise_previous_data_btn = gr.Button("Summarise existing topics", variant="primary")
             summary_output_files = gr.File(label="Summarised output files", interactive=False)
     with gr.Tab(label="Continue previous topic extraction"):
         gr.Markdown(
@@ -226,9 +227,9 @@ with app:
     summarise_previous_data_btn.click(empty_output_vars_summarise, inputs=None, outputs=[summary_reference_table_sample_state, master_unique_topics_df_revised_summaries_state, master_reference_df_revised_summaries_state, summary_output_files, summarised_outputs_list, latest_summary_completed_num, conversation_metadata_textbox]).\
     then(load_in_previous_data_files, inputs=[summarisation_in_previous_data_files], outputs=[master_reference_df_state, master_unique_topics_df_state, latest_batch_completed_no_loop, summarisation_in_previous_data_files_status, data_file_names_textbox]).\
     then(sample_reference_table_summaries, inputs=[master_reference_df_state, master_unique_topics_df_state, random_seed], outputs=[summary_reference_table_sample_state, summarised_references_markdown, master_reference_df_state, master_unique_topics_df_state]).\
-    then(summarise_output_topics, inputs=[summary_reference_table_sample_state, master_unique_topics_df_state, master_reference_df_state, model_choice, in_api_key, summarised_references_markdown, temperature_slide, data_file_names_textbox, summarised_outputs_list, latest_summary_completed_num, conversation_metadata_textbox], outputs=[summary_reference_table_sample_state, master_unique_topics_df_revised_summaries_state, master_reference_df_revised_summaries_state, summary_output_files, summarised_outputs_list, latest_summary_completed_num, conversation_metadata_textbox])
-    latest_summary_completed_num.change(summarise_output_topics, inputs=[summary_reference_table_sample_state, master_unique_topics_df_state, master_reference_df_state, model_choice, in_api_key, summarised_references_markdown, temperature_slide, data_file_names_textbox, summarised_outputs_list, latest_summary_completed_num, conversation_metadata_textbox], outputs=[summary_reference_table_sample_state, master_unique_topics_df_revised_summaries_state, master_reference_df_revised_summaries_state, summary_output_files, summarised_outputs_list, latest_summary_completed_num, conversation_metadata_textbox])
     # If uploaded partially completed consultation files do this. This should then start up the 'latest_batch_completed' change action above to continue extracting topics.
     continue_previous_data_files_btn.click(

             summarisation_in_previous_data_files_status = gr.Textbox(value = "", label="Previous file input", visible=False)
             summarise_previous_data_btn = gr.Button("Summarise existing topics", variant="primary")
             summary_output_files = gr.File(label="Summarised output files", interactive=False)
+            summarised_output_markdown = gr.Markdown(value="### Summarised table will appear here")
     with gr.Tab(label="Continue previous topic extraction"):
         gr.Markdown(
     summarise_previous_data_btn.click(empty_output_vars_summarise, inputs=None, outputs=[summary_reference_table_sample_state, master_unique_topics_df_revised_summaries_state, master_reference_df_revised_summaries_state, summary_output_files, summarised_outputs_list, latest_summary_completed_num, conversation_metadata_textbox]).\
     then(load_in_previous_data_files, inputs=[summarisation_in_previous_data_files], outputs=[master_reference_df_state, master_unique_topics_df_state, latest_batch_completed_no_loop, summarisation_in_previous_data_files_status, data_file_names_textbox]).\
     then(sample_reference_table_summaries, inputs=[master_reference_df_state, master_unique_topics_df_state, random_seed], outputs=[summary_reference_table_sample_state, summarised_references_markdown, master_reference_df_state, master_unique_topics_df_state]).\
+    then(summarise_output_topics, inputs=[summary_reference_table_sample_state, master_unique_topics_df_state, master_reference_df_state, model_choice, in_api_key, summarised_references_markdown, temperature_slide, data_file_names_textbox, summarised_outputs_list, latest_summary_completed_num, conversation_metadata_textbox], outputs=[summary_reference_table_sample_state, master_unique_topics_df_revised_summaries_state, master_reference_df_revised_summaries_state, summary_output_files, summarised_outputs_list, latest_summary_completed_num, conversation_metadata_textbox, summarised_output_markdown])
+    latest_summary_completed_num.change(summarise_output_topics, inputs=[summary_reference_table_sample_state, master_unique_topics_df_state, master_reference_df_state, model_choice, in_api_key, summarised_references_markdown, temperature_slide, data_file_names_textbox, summarised_outputs_list, latest_summary_completed_num, conversation_metadata_textbox], outputs=[summary_reference_table_sample_state, master_unique_topics_df_revised_summaries_state, master_reference_df_revised_summaries_state, summary_output_files, summarised_outputs_list, latest_summary_completed_num, conversation_metadata_textbox, summarised_output_markdown])
     # If uploaded partially completed consultation files do this. This should then start up the 'latest_batch_completed' change action above to continue extracting topics.
     continue_previous_data_files_btn.click(

tools/helper_functions.py CHANGED Viewed

@@ -116,35 +116,92 @@ def read_file(filename):
         return pd.read_excel(filename)
     elif file_type == 'parquet':
         return pd.read_parquet(filename)
-def view_table(file_path: str, max_width: int = 60):  # Added max_width parameter
-    df = pd.read_csv(file_path)
-    df_cleaned = df.replace('\n', ' ', regex=True)
-    # Wrap text in each column to the specified max width, including whole words
-    def wrap_text(text):
-        if isinstance(text, str):
-            words = text.split(' ')
-            wrapped_lines = []
-            current_line = ""
-            for word in words:
-                # Check if adding the next word exceeds the max width
-                if len(current_line) + len(word) + 1 > max_width:  # +1 for the space
-                    wrapped_lines.append(current_line)
-                    current_line = word  # Start a new line with the current word
                 else:
-                    if current_line:  # If current_line is not empty, add a space
-                        current_line += ' '
-                    current_line += word
-            # Add any remaining text in current_line to wrapped_lines
-            if current_line:
-                wrapped_lines.append(current_line)
-            return '<br>'.join(wrapped_lines)  # Join lines with <br>
-        return text
     # Use apply with axis=1 to apply wrap_text to each element
     df_cleaned = df_cleaned.apply(lambda col: col.map(wrap_text))

         return pd.read_excel(filename)
     elif file_type == 'parquet':
         return pd.read_parquet(filename)
+# Wrap text in each column to the specified max width, including whole words
+def wrap_text(text, max_width=60):
+    if not isinstance(text, str):
+        return text
+    words = text.split()
+    if not words:
+        return text
+    # First pass: initial word wrapping
+    wrapped_lines = []
+    current_line = []
+    current_length = 0
+    def add_line():
+        if current_line:
+            wrapped_lines.append(' '.join(current_line))
+            current_line.clear()
+    for i, word in enumerate(words):
+        word_length = len(word)
+        # Handle words longer than max_width
+        if word_length > max_width:
+            add_line()
+            wrapped_lines.append(word)
+            current_length = 0
+            continue
+        # Calculate space needed for this word
+        space_needed = word_length if not current_line else word_length + 1
+        # Check if adding this word would exceed max_width
+        if current_length + space_needed > max_width:
+            add_line()
+            current_line.append(word)
+            current_length = word_length
+        else:
+            current_line.append(word)
+            current_length += space_needed
+    add_line()  # Add any remaining text
+    # Second pass: redistribute words from lines following single-word lines
+    def can_fit_in_previous_line(prev_line, word):
+        return len(prev_line) + 1 + len(word) <= max_width
+    i = 0
+    while i < len(wrapped_lines) - 1:
+        words_in_line = wrapped_lines[i].split()
+        next_line_words = wrapped_lines[i + 1].split()
+        # If current line has only one word and isn't too long
+        if len(words_in_line) == 1 and len(words_in_line[0]) < max_width * 0.8:
+            # Try to bring words back from the next line
+            words_to_bring_back = []
+            remaining_words = []
+            current_length = len(words_in_line[0])
+            for word in next_line_words:
+                if current_length + len(word) + 1 <= max_width:
+                    words_to_bring_back.append(word)
+                    current_length += len(word) + 1
+                else:
+                    remaining_words.append(word)
+            if words_to_bring_back:
+                # Update current line with additional words
+                wrapped_lines[i] = ' '.join(words_in_line + words_to_bring_back)
+                # Update next line with remaining words
+                if remaining_words:
+                    wrapped_lines[i + 1] = ' '.join(remaining_words)
                 else:
+                    wrapped_lines.pop(i + 1)
+                    continue  # Don't increment i if we removed a line
+        i += 1
+    return '<br>'.join(wrapped_lines)
+def view_table(file_path: str):  # Added max_width parameter
+    df = pd.read_csv(file_path)
+    df_cleaned = df.replace('\n', ' ', regex=True)
     # Use apply with axis=1 to apply wrap_text to each element
     df_cleaned = df_cleaned.apply(lambda col: col.map(wrap_text))

tools/llm_api_call.py CHANGED Viewed

@@ -20,7 +20,7 @@ from io import StringIO
 GradioFileData = gr.FileData
 from tools.prompts import initial_table_prompt, prompt2, prompt3, system_prompt, summarise_topic_descriptions_prompt, summarise_topic_descriptions_system_prompt, add_existing_topics_system_prompt, add_existing_topics_prompt, create_general_topics_system_prompt, create_general_topics_prompt
-from tools.helper_functions import output_folder, detect_file_type, get_file_path_end, read_file, get_or_create_env_var, model_name_map, put_columns_in_df
 from tools.chatfuncs import LlamaCPPGenerationConfig, call_llama_cpp_model, load_model, RUN_LOCAL_MODEL
 # ResponseObject class for AWS Bedrock calls
@@ -1636,6 +1636,7 @@ def summarise_output_topics(summarised_references:pd.DataFrame,
     '''
     out_metadata = []
     local_model = []
     print("In summarise_output_topics function.")
@@ -1646,6 +1647,7 @@ def summarise_output_topics(summarised_references:pd.DataFrame,
     #print("latest_summary_completed:", latest_summary_completed)
     #print("length_all_summaries:", length_all_summaries)
     if latest_summary_completed >= length_all_summaries:
         print("All summaries completed. Creating outputs.")
@@ -1691,7 +1693,11 @@ def summarise_output_topics(summarised_references:pd.DataFrame,
         output_files.extend([reference_table_df_revised_path, unique_table_df_revised_path])
-        return summarised_references, unique_table_df_revised, reference_table_df_revised, output_files, summarised_outputs, latest_summary_completed, out_metadata_str
     tic = time.perf_counter()
@@ -1742,6 +1748,6 @@ def summarise_output_topics(summarised_references:pd.DataFrame,
     # If all summaries completeed
     if latest_summary_completed >= length_all_summaries:
-        print("At last summary.")
-    return summarised_references, unique_table_df, reference_table_df, output_files, summarised_outputs, latest_summary_completed, out_metadata_str

 GradioFileData = gr.FileData
 from tools.prompts import initial_table_prompt, prompt2, prompt3, system_prompt, summarise_topic_descriptions_prompt, summarise_topic_descriptions_system_prompt, add_existing_topics_system_prompt, add_existing_topics_prompt, create_general_topics_system_prompt, create_general_topics_prompt
+from tools.helper_functions import output_folder, detect_file_type, get_file_path_end, read_file, get_or_create_env_var, model_name_map, put_columns_in_df, wrap_text
 from tools.chatfuncs import LlamaCPPGenerationConfig, call_llama_cpp_model, load_model, RUN_LOCAL_MODEL
 # ResponseObject class for AWS Bedrock calls
     '''
     out_metadata = []
     local_model = []
+    summarised_output_markdown = ""
     print("In summarise_output_topics function.")
     #print("latest_summary_completed:", latest_summary_completed)
     #print("length_all_summaries:", length_all_summaries)
+    # If all summaries completed, make final outputs
     if latest_summary_completed >= length_all_summaries:
         print("All summaries completed. Creating outputs.")
         output_files.extend([reference_table_df_revised_path, unique_table_df_revised_path])
+        unique_table_df_revised_display = unique_table_df_revised.apply(lambda col: col.map(wrap_text))
+        summarised_output_markdown = unique_table_df_revised_display.to_markdown(index=False)
+        return summarised_references, unique_table_df_revised, reference_table_df_revised, output_files, summarised_outputs, latest_summary_completed, out_metadata_str, summarised_output_markdown
     tic = time.perf_counter()
     # If all summaries completeed
     if latest_summary_completed >= length_all_summaries:
+        print("At last summary.")
+    return summarised_references, unique_table_df, reference_table_df, output_files, summarised_outputs, latest_summary_completed, out_metadata_str, summarised_output_markdown