Spaces:

invincible-jha
/

MentalHealthVocalBiomarkers

Sleeping

App Files Files Community

invincible-jha commited on Nov 27, 2024

Commit

183c824

verified ·

1 Parent(s): 2cce526

Upload app.py

Browse files

Files changed (1) hide show

app.py +270 -48

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import gradio as gr
 import torch
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
@@ -8,109 +9,326 @@ import plotly.graph_objects as go
 import warnings
 import os
 from scipy.stats import kurtosis, skew
 warnings.filterwarnings('ignore')
-# Global variables to store models
 processor = None
 whisper_model = None
 emotion_tokenizer = None
 emotion_model = None
 def load_models():
-    """Initialize and load all required models with proper error handling"""
     global processor, whisper_model, emotion_tokenizer, emotion_model
     try:
         print("Loading Whisper model...")
         processor = WhisperProcessor.from_pretrained("openai/whisper-tiny")
         whisper_model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-tiny")
         print("Loading emotion model...")
         emotion_tokenizer = AutoTokenizer.from_pretrained("j-hartmann/emotion-english-distilroberta-base")
         emotion_model = AutoModelForSequenceClassification.from_pretrained("j-hartmann/emotion-english-distilroberta-base")
-        # Move models to appropriate device
-        device = "cpu"  # Force CPU usage for stability
         whisper_model.to(device)
         emotion_model.to(device)
         print("Models loaded successfully!")
         return True
     except Exception as e:
         print(f"Error loading models: {str(e)}")
         return False
-# Your existing feature extraction functions remain the same
 def extract_prosodic_features(waveform, sr):
-    """Extract prosodic features from audio"""
     try:
         features = {}
-        # ... (rest of your existing function)
         return features
     except Exception as e:
-        print(f"Error in extract_prosodic_features: {str(e)}")
         return None
 def create_feature_plots(features):
-    """Create visualizations for audio features"""
     try:
-        # ... (rest of your existing function)
         return fig.to_html(include_plotlyjs=True)
     except Exception as e:
         print(f"Error in create_feature_plots: {str(e)}")
         return None
 def create_emotion_plot(emotions):
-    """Create emotion analysis visualization"""
     try:
-        # ... (rest of your existing function)
         return fig.to_html(include_plotlyjs=True)
     except Exception as e:
         print(f"Error in create_emotion_plot: {str(e)}")
         return None
 def analyze_audio(audio_input):
-    """Main function to analyze audio input"""
-    global processor, whisper_model, emotion_tokenizer, emotion_model
     try:
         if audio_input is None:
             return "Please provide an audio input", None, None
-        print(f"Processing audio input: {type(audio_input)}")
-        # Handle audio input
         if isinstance(audio_input, tuple):
             audio_path = audio_input[0]
         else:
             audio_path = audio_input
-        print(f"Loading audio from path: {audio_path}")
-        # Load audio
-        waveform, sr = librosa.load(audio_path, sr=16000)
-        print(f"Audio loaded: {waveform.shape}, SR: {sr}")
         # Extract voice features
-        print("Extracting voice features...")
         features = extract_prosodic_features(waveform, sr)
         if features is None:
-            return "Error extracting voice features", None, None
-        # Create feature plots
-        print("Creating feature visualizations...")
         feature_viz = create_feature_plots(features)
-        # Transcribe audio
-        print("Transcribing audio...")
         inputs = processor(waveform, sampling_rate=sr, return_tensors="pt").input_features
         with torch.no_grad():
             predicted_ids = whisper_model.generate(inputs)
         transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
         # Analyze emotions
-        print("Analyzing emotions...")
         emotion_inputs = emotion_tokenizer(
             transcription,
             return_tensors="pt",
@@ -131,7 +349,7 @@ def analyze_audio(audio_input):
         emotion_viz = create_emotion_plot(emotion_scores)
-        # Create analysis summary
         summary = f"""Voice Analysis Summary:
 Speech Content:
@@ -144,6 +362,9 @@ Voice Characteristics:
 - Voice Energy: {features['energy_mean']:.4f}
 Dominant Emotion: {max(emotion_scores.items(), key=lambda x: x[1])[0]}
 """
         return summary, emotion_viz, feature_viz
@@ -158,15 +379,14 @@ try:
     print("===== Application Startup =====")
     if not load_models():
         raise RuntimeError("Failed to load required models")
-    print("Models loaded successfully, creating Gradio interface...")
-    # Create Gradio interface
     demo = gr.Interface(
         fn=analyze_audio,
         inputs=gr.Audio(
             sources=["microphone", "upload"],
             type="filepath",
-            label="Audio Input"
         ),
         outputs=[
             gr.Textbox(label="Analysis Summary", lines=10),
@@ -175,33 +395,35 @@ try:
         ],
         title="Voice Analysis System",
         description="""
-        This application analyzes voice recordings to extract various characteristics:
         1. Voice Features:
-           - Pitch analysis
-           - Energy patterns
-           - Speech rate
-           - Voice quality
         2. Emotional Content:
-           - Emotion detection
-           - Emotional intensity
         3. Speech Content:
-           - Text transcription
         Upload an audio file or record directly through your microphone.
-        """,
-        examples=None,
-        cache_examples=False
     )
-    print("Gradio interface created successfully")
     # Launch the interface
     if __name__ == "__main__":
-        print("Launching application...")
         demo.launch()
 except Exception as e:
     print(f"Error during application startup: {str(e)}")
     raise

+# Import necessary libraries for the voice analysis system
 import gradio as gr
 import torch
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import warnings
 import os
 from scipy.stats import kurtosis, skew
+# Suppress unnecessary warnings for cleaner output
 warnings.filterwarnings('ignore')
+# Initialize global variables for model storage
 processor = None
 whisper_model = None
 emotion_tokenizer = None
 emotion_model = None
 def load_models():
+    """Initialize and load all required machine learning models.
+    This function handles the loading of both the Whisper speech recognition model
+    and the emotion detection model. It includes proper error handling and
+    device management for optimal performance.
+    Returns:
+        bool: True if all models loaded successfully, False otherwise
+    """
     global processor, whisper_model, emotion_tokenizer, emotion_model
     try:
+        # Load the Whisper model for speech recognition
         print("Loading Whisper model...")
         processor = WhisperProcessor.from_pretrained("openai/whisper-tiny")
         whisper_model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-tiny")
+        # Load the emotion detection model
         print("Loading emotion model...")
         emotion_tokenizer = AutoTokenizer.from_pretrained("j-hartmann/emotion-english-distilroberta-base")
         emotion_model = AutoModelForSequenceClassification.from_pretrained("j-hartmann/emotion-english-distilroberta-base")
+        # Move models to CPU for consistent performance
+        device = "cpu"
         whisper_model.to(device)
         emotion_model.to(device)
         print("Models loaded successfully!")
         return True
     except Exception as e:
         print(f"Error loading models: {str(e)}")
         return False
 def extract_prosodic_features(waveform, sr):
+    """Extract voice characteristics from audio data with enhanced error handling.
+    This function analyzes the audio waveform to extract various voice features
+    including pitch, energy, rhythm, and voice quality metrics. It includes
+    robust error handling and validation for each feature.
+    Args:
+        waveform (numpy.ndarray): Audio signal
+        sr (int): Sampling rate of the audio
+    Returns:
+        dict: Dictionary containing extracted features or None if extraction fails
+    """
     try:
+        # Validate input waveform
+        if waveform is None or len(waveform) == 0:
+            print("Error: Empty or invalid waveform")
+            return None
         features = {}
+        # Extract pitch features with enhanced reliability
+        try:
+            # Configure pitch detection parameters for optimal results
+            pitches, magnitudes = librosa.piptrack(
+                y=waveform,
+                sr=sr,
+                fmin=50,      # Minimum frequency for human voice
+                fmax=2000,    # Maximum frequency for human voice
+                n_mels=128,   # Frequency resolution
+                hop_length=512,  # Time resolution
+                win_length=2048  # Analysis window size
+            )
+            # Extract and validate pitch contour
+            f0_contour = []
+            for t in range(pitches.shape[1]):
+                index = magnitudes[:, t].argmax()
+                pitch = pitches[index, t]
+                if 50 <= pitch <= 2000:  # Physiologically valid range
+                    f0_contour.append(pitch)
+            f0_contour = np.array(f0_contour)
+            # Calculate pitch statistics with validation
+            if len(f0_contour) > 0:
+                features['pitch_mean'] = float(np.mean(f0_contour))
+                features['pitch_std'] = float(np.std(f0_contour))
+                features['pitch_range'] = float(np.ptp(f0_contour))
+            else:
+                # Use default values if no valid pitch detected
+                features['pitch_mean'] = 160.0  # Average adult speaking pitch
+                features['pitch_std'] = 0.0
+                features['pitch_range'] = 0.0
+        except Exception as e:
+            print(f"Error in pitch extraction: {str(e)}")
+            features['pitch_mean'] = 160.0
+            features['pitch_std'] = 0.0
+            features['pitch_range'] = 0.0
+        # Extract energy features with noise reduction
+        try:
+            rms = librosa.feature.rms(
+                y=waveform,
+                frame_length=2048,
+                hop_length=512,
+                center=True
+            )[0]
+            features['energy_mean'] = float(np.mean(rms))
+            features['energy_std'] = float(np.std(rms))
+            features['energy_range'] = float(np.ptp(rms))
+        except Exception as e:
+            print(f"Error in energy extraction: {str(e)}")
+            features['energy_mean'] = 0.02
+            features['energy_std'] = 0.0
+            features['energy_range'] = 0.0
+        # Extract rhythm features with improved accuracy
+        try:
+            onset_env = librosa.onset.onset_strength(
+                y=waveform,
+                sr=sr,
+                hop_length=512,
+                aggregate=np.median
+            )
+            tempo = librosa.beat.tempo(
+                onset_envelope=onset_env,
+                sr=sr,
+                hop_length=512,
+                aggregate=None
+            )
+            # Validate tempo within normal speech range
+            if 40 <= tempo[0] <= 240:
+                features['tempo'] = float(tempo[0])
+            else:
+                features['tempo'] = 120.0  # Default speaking rate
+        except Exception as e:
+            print(f"Error in rhythm extraction: {str(e)}")
+            features['tempo'] = 120.0
+        # Verify all required features are present
+        required_features = [
+            'pitch_mean', 'pitch_std', 'pitch_range',
+            'energy_mean', 'energy_std', 'energy_range',
+            'tempo'
+        ]
+        for feature in required_features:
+            if feature not in features or not isinstance(features[feature], (int, float)):
+                print(f"Warning: Invalid or missing feature: {feature}")
+                features[feature] = 0.0
         return features
     except Exception as e:
+        print(f"Critical error in extract_prosodic_features: {str(e)}")
         return None
 def create_feature_plots(features):
+    """Create visualizations for the extracted voice features.
+    This function generates interactive plots showing the various voice
+    characteristics including pitch, energy, and rhythm features.
+    Args:
+        features (dict): Dictionary containing the extracted voice features
+    Returns:
+        str: HTML representation of the plots or None if visualization fails
+    """
     try:
+        fig = go.Figure()
+        # Add pitch feature visualization
+        pitch_data = {
+            'Mean': features['pitch_mean'],
+            'Std Dev': features['pitch_std'],
+            'Range': features['pitch_range']
+        }
+        fig.add_trace(go.Bar(
+            name='Pitch Features (Hz)',
+            x=list(pitch_data.keys()),
+            y=list(pitch_data.values()),
+            marker_color='blue'
+        ))
+        # Add energy feature visualization
+        energy_data = {
+            'Mean': features['energy_mean'],
+            'Std Dev': features['energy_std'],
+            'Range': features['energy_range']
+        }
+        fig.add_trace(go.Bar(
+            name='Energy Features',
+            x=[f"Energy {k}" for k in energy_data.keys()],
+            y=list(energy_data.values()),
+            marker_color='red'
+        ))
+        # Add tempo indicator
+        fig.add_trace(go.Scatter(
+            name='Speech Rate (BPM)',
+            x=['Tempo'],
+            y=[features['tempo']],
+            mode='markers',
+            marker=dict(size=15, color='green')
+        ))
+        # Configure layout for better visualization
+        fig.update_layout(
+            title='Voice Feature Analysis',
+            showlegend=True,
+            height=600,
+            barmode='group',
+            xaxis_title='Feature Type',
+            yaxis_title='Value',
+            template='plotly_white'
+        )
         return fig.to_html(include_plotlyjs=True)
     except Exception as e:
         print(f"Error in create_feature_plots: {str(e)}")
         return None
 def create_emotion_plot(emotions):
+    """Create visualization for emotion analysis results.
+    Args:
+        emotions (dict): Dictionary containing emotion scores
+    Returns:
+        str: HTML representation of the emotion plot or None if visualization fails
+    """
     try:
+        fig = go.Figure(data=[
+            go.Bar(
+                x=list(emotions.keys()),
+                y=list(emotions.values()),
+                marker_color=['#FF9999', '#66B2FF', '#99FF99',
+                            '#FFCC99', '#FF99CC', '#99FFFF']
+            )
+        ])
+        fig.update_layout(
+            title='Emotion Analysis',
+            xaxis_title='Emotion',
+            yaxis_title='Confidence Score',
+            yaxis_range=[0, 1],
+            template='plotly_white',
+            height=400
+        )
         return fig.to_html(include_plotlyjs=True)
     except Exception as e:
         print(f"Error in create_emotion_plot: {str(e)}")
         return None
 def analyze_audio(audio_input):
+    """Main function for analyzing audio input with comprehensive error handling.
+    This function coordinates the entire analysis pipeline including:
+    - Audio loading and validation
+    - Feature extraction
+    - Speech recognition
+    - Emotion analysis
+    - Visualization generation
+    Args:
+        audio_input: Audio file path or tuple containing audio data
+    Returns:
+        tuple: (analysis_summary, emotion_visualization, feature_visualization)
+    """
     try:
         if audio_input is None:
             return "Please provide an audio input", None, None
+        # Handle audio input and validate format
         if isinstance(audio_input, tuple):
             audio_path = audio_input[0]
         else:
             audio_path = audio_input
+        # Load and validate audio
+        waveform, sr = librosa.load(audio_path, sr=16000, duration=30)
+        duration = len(waveform) / sr
+        if duration < 0.5:
+            return "Audio too short. Please provide a recording of at least 0.5 seconds.", None, None
         # Extract voice features
         features = extract_prosodic_features(waveform, sr)
         if features is None:
+            return "Error extracting voice features. Please try recording again.", None, None
+        # Create visualizations
         feature_viz = create_feature_plots(features)
+        # Perform speech recognition
         inputs = processor(waveform, sampling_rate=sr, return_tensors="pt").input_features
         with torch.no_grad():
             predicted_ids = whisper_model.generate(inputs)
         transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
         # Analyze emotions
         emotion_inputs = emotion_tokenizer(
             transcription,
             return_tensors="pt",
         emotion_viz = create_emotion_plot(emotion_scores)
+        # Generate comprehensive analysis summary
         summary = f"""Voice Analysis Summary:
 Speech Content:
 - Voice Energy: {features['energy_mean']:.4f}
 Dominant Emotion: {max(emotion_scores.items(), key=lambda x: x[1])[0]}
+Emotion Confidence: {max(emotion_scores.values()):.2%}
+Recording Duration: {duration:.2f} seconds
 """
         return summary, emotion_viz, feature_viz
     print("===== Application Startup =====")
     if not load_models():
         raise RuntimeError("Failed to load required models")
+    # Create Gradio interface with enhanced user guidance
     demo = gr.Interface(
         fn=analyze_audio,
         inputs=gr.Audio(
             sources=["microphone", "upload"],
             type="filepath",
+            label="Audio Input (Recommended: 1-5 seconds of clear speech)"
         ),
         outputs=[
             gr.Textbox(label="Analysis Summary", lines=10),
         ],
         title="Voice Analysis System",
         description="""
+        This application provides detailed voice analysis through multiple components:
         1. Voice Features:
+           - Pitch analysis (fundamental frequency and variation)
+           - Energy patterns (volume and intensity)
+           - Speech rate (words per minute)
+           - Voice quality metrics
         2. Emotional Content:
+           - Emotion detection (6 basic emotions)
+           - Emotional intensity analysis
         3. Speech Content:
+           - Accurate text transcription
+        For optimal results:
+        - Record in a quiet environment
+        - Speak clearly and naturally
+        - Keep recordings between 1-5 seconds
+        - Maintain consistent volume
         Upload an audio file or record directly through your microphone.
+        """
     )
     # Launch the interface
     if __name__ == "__main__":
         demo.launch()
 except Exception as e:
     print(f"Error during application startup: {str(e)}")
     raise