isai

Runtime error

App Files Files Community

vagmi

janwari commited on Oct 21, 2023

Commit

315fa5e

1 Parent(s): f11cb5f

Allow Gradio to be accessible when running inside container (#3)

Browse files

- Allow Gradio to be accessible when running inside container (cbe4686e15637c65111bd0f94fee239c114d8750)

Co-authored-by: Jahangir <[email protected]>

Files changed (1) hide show

app.py +18 -15

app.py CHANGED Viewed

@@ -11,13 +11,14 @@ import logging
 import json
 import os
 import re
 import pandas as pd
-import importlib
 modeling_MERT = importlib.import_module("MERT-v1-95M.modeling_MERT")
-from Prediction_Head.MTGGenre_head import MLPProberBase
 # input cr: https://huggingface.co/spaces/thealphhamerc/audio-to-text/blob/main/app.py
@@ -33,12 +34,12 @@ logger.addHandler(ch)
 inputs = [
-    gr.components.Audio(type="filepath", label="Add music audio file"),
 ]
 title = "Isai - toward better music understanding"
 description = "This space uses MERT-95M model to peform various music information retrieval tasks."
 audio_examples = [
     ["samples/143.mp3"],
     ["samples/205.mp3"],
@@ -78,7 +79,7 @@ MERT_BEST_LAYER_IDX = {
     'NSynthP': 1,
     'VocalSetS': 2,
     'VocalSetT': 9,
-}
 MERT_BEST_LAYER_IDX = {
     'EMO': 5,
@@ -93,7 +94,7 @@ MERT_BEST_LAYER_IDX = {
     'NSynthP': 1,
     'VocalSetS': 2,
     'VocalSetT': 9,
-}
 CLASSIFIERS = {
 }
@@ -135,7 +136,7 @@ def model_infernce(inputs):
         # print(f'setting rate from {sample_rate} to {resample_rate}')
         resampler = T.Resample(sample_rate, resample_rate)
         waveform = resampler(waveform)
     waveform = waveform.view(-1,) # make it (n_sample, )
     model_inputs = processor(waveform, sampling_rate=resample_rate, return_tensors="pt")
     model_inputs.to(device)
@@ -159,12 +160,12 @@ def model_infernce(inputs):
         else:
             logits = CLASSIFIERS[task](all_layer_hidden_states[:, MERT_BEST_LAYER_IDX[task]])
         # print(f'task {task} logits:', logits.shape, 'num class:', num_class)
-        sorted_idx = torch.argsort(logits, dim = -1, descending=True)[0] # batch =1
         sorted_prob,_ = torch.sort(nn.functional.softmax(logits[0], dim=-1), dim=-1, descending=True)
         # print(sorted_prob)
         # print(sorted_prob.shape)
         top_n_show = 5 if num_class >= 5 else num_class
         # task_output_texts = task_output_texts + f"TASK {task} output:\n" + "\n".join([str(ID2CLASS[task][str(sorted_idx[idx].item())])+f', probability: {sorted_prob[idx].item():.2%}' for idx in range(top_n_show)]) + '\n'
         # task_output_texts = task_output_texts + '----------------------\n'
@@ -185,17 +186,17 @@ def model_infernce(inputs):
         df_objects.append(row_elements)
     df = pd.DataFrame(df_objects, columns=['Task', 'Top 1', 'Top 2', 'Top 3', 'Top 4', 'Top 5'])
     return df
 def convert_audio(inputs, microphone):
     if (microphone is not None):
         inputs = microphone
-    df = model_infernce(inputs)
     return df
 def live_convert_audio(microphone):
     if (microphone is not None):
         inputs = microphone
-    df = model_infernce(inputs)
     return df
 audio_chunked = gr.Interface(
@@ -228,11 +229,13 @@ audio_chunked = gr.Interface(
 #         [
 #             audio_chunked,
 #             live_audio_chunked,
-#         ],
 #         [
 #             "Audio File or Recording",
 #             "Live Streaming Music"
 #         ]
 #     )
 # demo.queue(concurrency_count=1, max_size=5)
-audio_chunked.launch(show_api=False)

 import json
 import os
 import re
+import os
 import pandas as pd
+import importlib
 modeling_MERT = importlib.import_module("MERT-v1-95M.modeling_MERT")
+from Prediction_Head.MTGGenre_head import MLPProberBase
 # input cr: https://huggingface.co/spaces/thealphhamerc/audio-to-text/blob/main/app.py
 inputs = [
+    gr.components.Audio(type="filepath", label="Add music audio file"),
 ]
 title = "Isai - toward better music understanding"
 description = "This space uses MERT-95M model to peform various music information retrieval tasks."
 audio_examples = [
     ["samples/143.mp3"],
     ["samples/205.mp3"],
     'NSynthP': 1,
     'VocalSetS': 2,
     'VocalSetT': 9,
+}
 MERT_BEST_LAYER_IDX = {
     'EMO': 5,
     'NSynthP': 1,
     'VocalSetS': 2,
     'VocalSetT': 9,
+}
 CLASSIFIERS = {
 }
         # print(f'setting rate from {sample_rate} to {resample_rate}')
         resampler = T.Resample(sample_rate, resample_rate)
         waveform = resampler(waveform)
     waveform = waveform.view(-1,) # make it (n_sample, )
     model_inputs = processor(waveform, sampling_rate=resample_rate, return_tensors="pt")
     model_inputs.to(device)
         else:
             logits = CLASSIFIERS[task](all_layer_hidden_states[:, MERT_BEST_LAYER_IDX[task]])
         # print(f'task {task} logits:', logits.shape, 'num class:', num_class)
+        sorted_idx = torch.argsort(logits, dim = -1, descending=True)[0] # batch =1
         sorted_prob,_ = torch.sort(nn.functional.softmax(logits[0], dim=-1), dim=-1, descending=True)
         # print(sorted_prob)
         # print(sorted_prob.shape)
         top_n_show = 5 if num_class >= 5 else num_class
         # task_output_texts = task_output_texts + f"TASK {task} output:\n" + "\n".join([str(ID2CLASS[task][str(sorted_idx[idx].item())])+f', probability: {sorted_prob[idx].item():.2%}' for idx in range(top_n_show)]) + '\n'
         # task_output_texts = task_output_texts + '----------------------\n'
         df_objects.append(row_elements)
     df = pd.DataFrame(df_objects, columns=['Task', 'Top 1', 'Top 2', 'Top 3', 'Top 4', 'Top 5'])
     return df
 def convert_audio(inputs, microphone):
     if (microphone is not None):
         inputs = microphone
+    df = model_infernce(inputs)
     return df
 def live_convert_audio(microphone):
     if (microphone is not None):
         inputs = microphone
+    df = model_infernce(inputs)
     return df
 audio_chunked = gr.Interface(
 #         [
 #             audio_chunked,
 #             live_audio_chunked,
+#         ],
 #         [
 #             "Audio File or Recording",
 #             "Live Streaming Music"
 #         ]
 #     )
 # demo.queue(concurrency_count=1, max_size=5)
+server_name = os.environ.get('GRADIO_SERVER_NAME', "127.0.0.1")
+audio_chunked.launch(server_name=server_name, show_api=False)