flax-community
/

hubert-dementia-screening

Feature Extraction

Transformers

JAX

hubert

Inference Endpoints

Model card Files Files and versions Community

birgermoell commited on Jul 8, 2021

Commit

8093841

1 Parent(s): a875c0d

Update resampling

Browse files

Files changed (2) hide show

feature_extractor.py +25 -20
readme.MD +1 -1

feature_extractor.py CHANGED Viewed

@@ -6,13 +6,13 @@ from transformers import AutoTokenizer, Wav2Vec2ForCTC
 import torch
 import numpy as np
 import glob
 import numpy
 import os.path
 processor = AutoTokenizer.from_pretrained("facebook/wav2vec2-large-960h-lv60")
 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60")
 # Dementia path
 # /home/bmoell/data/media.talkbank.org/dementia/English/Pitt
 # cookie dementia /home/bmoell/data/media.talkbank.org/dementia/English/Pitt/Dementia/cookie
@@ -35,28 +35,33 @@ def feature_extractor(path):
         if not os.path.isfile(wav_file + ".wav2vec2.pt"):
             get_wav2vecembeddings_from_audiofile(wav_file)
 def get_wav2vecembeddings_from_audiofile(wav_file):
     print("the file is", wav_file)
     speech, sample_rate = sf.read(wav_file)
-    input_values = processor(wav_file, return_tensors="pt", padding=True) # there is no truncation param anymore
     print("input values", input_values)
-    file_info = os.stat(wav_file)
-    file_size = file_info.st_size
-    print("the size is", file_size)
-    if file_size > 250:
-        with torch.no_grad():
-            encoded_states = model(
-                input_values=input_values["input_ids"],
-                attention_mask=input_values["attention_mask"],
-                output_hidden_states=True
-            )
-            last_hidden_state = encoded_states.hidden_states[-1] # The last hidden-state is the first element of the output tuple
-            print("getting wav2vec2 embeddings")
-            print(last_hidden_state)
-            torch.save(last_hidden_state, wav_file + '.wav2vec2.pt')

 import torch
 import numpy as np
 import glob
+import librosa
 import numpy
 import os.path
 processor = AutoTokenizer.from_pretrained("facebook/wav2vec2-large-960h-lv60")
 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60")
+new_sample_rate = 16000
 # Dementia path
 # /home/bmoell/data/media.talkbank.org/dementia/English/Pitt
 # cookie dementia /home/bmoell/data/media.talkbank.org/dementia/English/Pitt/Dementia/cookie
         if not os.path.isfile(wav_file + ".wav2vec2.pt"):
             get_wav2vecembeddings_from_audiofile(wav_file)
+def change_sample_rate(y, sample_rate, new_sample_rate):
+    value = librosa.resample(y, sample_rate, new_sample_rate)
+    return value
 def get_wav2vecembeddings_from_audiofile(wav_file):
     print("the file is", wav_file)
     speech, sample_rate = sf.read(wav_file)
+     # change sample rate to 16 000 hertz
+    resampled = change_sample_rate(speech, sample_rate, new_sample_rate)
+    print("the speech is", speech)
+    input_values = processor(resampled, return_tensors="pt", padding=True, sampling_rate=new_sample_rate) # there is no truncation param anymore
     print("input values", input_values)
+    # import pdb
+    # pdb.set_trace()
+    with torch.no_grad():
+        encoded_states = model(
+            **input_values,
+            # attention_mask=input_values["attention_mask"],
+            output_hidden_states=True
+        )
+        last_hidden_state = encoded_states.hidden_states[-1] # The last hidden-state is the first element of the output tuple
+        print("getting wav2vec2 embeddings")
+        print(last_hidden_state)
+        torch.save(last_hidden_state, wav_file + '.wav2vec2.pt')

readme.MD CHANGED Viewed

@@ -6,7 +6,7 @@ train
 # Important readmes
 https://github.com/huggingface/transformers/tree/f42a0abf4bd765ad08e14b347a3acbe9fade31b9/examples/research_projects/jax-projects/wav2vec2
-# path to files
 # cookie control
 data/media.talkbank.org/dementia/English/Pitt/Control/cookie

 # Important readmes
 https://github.com/huggingface/transformers/tree/f42a0abf4bd765ad08e14b347a3acbe9fade31b9/examples/research_projects/jax-projects/wav2vec2
+# path to file
 # cookie control
 data/media.talkbank.org/dementia/English/Pitt/Control/cookie