Spaces:

andromeda01111
/

SENTIMENT_ANALYSIS

Running

App Files Files Community

andromeda01111 commited on Nov 21, 2024

Commit

8080438

verified ·

1 Parent(s): 2b8003b

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -18

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
@@ -11,14 +12,11 @@ import numpy as np
 import pandas as pd
 import os
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model_name_or_path = ""
 config = AutoConfig.from_pretrained(model_name_or_path)
 feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name_or_path)
 sampling_rate = feature_extractor.sampling_rate
-model = Wav2Vec2ForSpeechClassification.from_pretrained(model_name_or_path).to(device)
 def speech_file_to_array_fn(path, sampling_rate):
     speech_array, _sampling_rate = torchaudio.load(path)
@@ -26,31 +24,38 @@ def speech_file_to_array_fn(path, sampling_rate):
     speech = resampler(speech_array).squeeze().numpy()
     return speech
 def predict(path, sampling_rate):
     speech = speech_file_to_array_fn(path, sampling_rate)
     features = feature_extractor(speech, sampling_rate=sampling_rate, return_tensors="pt", padding=True)
-    input_values = features.input_values.to(device)
-    attention_mask = features.attention_mask.to(device)
     with torch.no_grad():
         logits = model(input_values, attention_mask=attention_mask).logits
     scores = F.softmax(logits, dim=1).detach().cpu().numpy()[0]
     outputs = [{"Emotion": config.id2label[i], "Score": f"{round(score * 100, 3):.1f}%"} for i, score in enumerate(scores)]
     return outputs
-demo = gr.Interface(
-    fn=predict,
-    inputs=gr.Audio(source="upload", type="filepath"),
-    outputs="text"
-    title="Sentiment anlysis",
-    # description=description,
-    # examples=examples,
-    # allow_flagging="never"
-    )
 if __name__ == "__main__":
-    demo.launch()

+import gradio as gr
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
 import pandas as pd
 import os
+model_name_or_path = "andromeda01111/Malayalam_SA"
 config = AutoConfig.from_pretrained(model_name_or_path)
 feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name_or_path)
 sampling_rate = feature_extractor.sampling_rate
+model = Wav2Vec2ForSpeechClassification.from_pretrained(model_name_or_path)
 def speech_file_to_array_fn(path, sampling_rate):
     speech_array, _sampling_rate = torchaudio.load(path)
     speech = resampler(speech_array).squeeze().numpy()
     return speech
 def predict(path, sampling_rate):
     speech = speech_file_to_array_fn(path, sampling_rate)
     features = feature_extractor(speech, sampling_rate=sampling_rate, return_tensors="pt", padding=True)
+    input_values = features.input_values
+    attention_mask = features.attention_mask
     with torch.no_grad():
         logits = model(input_values, attention_mask=attention_mask).logits
     scores = F.softmax(logits, dim=1).detach().cpu().numpy()[0]
     outputs = [{"Emotion": config.id2label[i], "Score": f"{round(score * 100, 3):.1f}%"} for i, score in enumerate(scores)]
     return outputs
+# Wrapper function for Gradio
+def gradio_predict(audio):
+    predictions = predict(audio)
+    return [f"{pred['Emotion']}: {pred['Score']}" for pred in predictions]
+# Gradio interface
+emotions = [config.id2label[i] for i in range(len(config.id2label))]
+outputs = [gr.Textbox(label=emotion, interactive=False) for emotion in emotions]
+interface = gr.Interface(
+    fn=gradio_predict,
+    inputs=gr.Audio(source="upload", type="filepath", label="Upload Audio"),
+    outputs=outputs,
+    title="Emotion Recognition",
+    description="Upload an audio file to predict emotions and their corresponding percentages.",
+)
+# Launch the app
 if __name__ == "__main__":
+    interface.launch()