|
--- |
|
license: ecl-2.0 |
|
datasets: |
|
- mozilla-foundation/common_voice_11_0 |
|
language: |
|
- es |
|
- en |
|
metrics: |
|
- accuracy |
|
library_name: transformers |
|
tags: |
|
- code |
|
--- |
|
|
|
# Clasificador de Sotaques de Español |
|
|
|
🎙️🤖🇪🇸 |
|
|
|
Este proyecto es un clasificador de acentos que distingue entre el español y otros acentos. |
|
|
|
## Resumen del Proyecto |
|
|
|
Esta aplicación utiliza un modelo entrenado para clasificar acentos de habla en dos categorías: |
|
1. Español |
|
2. Otro |
|
|
|
El modelo se basa en el trabajo del autor [resultados] y utiliza la porción en español del conjunto de datos Common Voice (versión 11.0) de la Fundación Mozilla. |
|
|
|
## Conjunto de Datos |
|
|
|
El proyecto utiliza el subconjunto en español del conjunto de datos Common Voice: |
|
- Conjunto de datos: "mozilla-foundation/common_voice_11_0", "es" |
|
|
|
Acentos en español incluidos en el conjunto de datos: |
|
- Español de España |
|
- Español de México |
|
- Español de Argentina |
|
- Español de Colombia |
|
- Y varias mezclas regionales |
|
|
|
## Modelo y Procesador |
|
|
|
El proyecto utiliza el siguiente modelo y procesador: |
|
- Modelo Base: "facebook/wav2vec2-base-960h" |
|
- Procesador: Wav2Vec2Processor.from_pretrained |
|
|
|
## Versiones del Modelo |
|
|
|
Se entrenaron tres versiones del modelo con diferentes configuraciones: |
|
|
|
1. **(NUEVO) v 1.0**: |
|
- Épocas: 20 |
|
- Muestras de entrenamiento: 5000 |
|
- Muestras de validación: 1000 |
|
|
|
Todos los modelos se entrenaron utilizando GPU de alta RAM en Google Colab Pro. |
|
|
|
## Estructura del Modelo (archivos) |
|
|
|
Cada versión del modelo incluye los siguientes archivos: |
|
- config.json |
|
- preprocessor_config.json |
|
- model.safetensors |
|
- special_tokens_map.json |
|
- tokenizer_config.json |
|
- vocab.json |
|
|
|
## Cómo Usar |
|
|
|
Prueba grabando o subiendo un archivo de audio. Para probar, recomiendo frases cortas. |
|
|
|
## Licencia |
|
|
|
Este proyecto está licenciado bajo la Licencia Pública de Eclipse 2.0 (ECL-2.0). |
|
|
|
## Información del Desarrollador |
|
|
|
Desarrollado por Ramon Mayor Martins (2024) |
|
- Email: [email protected] |
|
- Página web: https://rmayormartins.github.io/ |
|
- Twitter: @rmayormartins |
|
- GitHub: https://github.com/rmayormartins |
|
|
|
## Agradecimientos |
|
|
|
Agradecimientos especiales al Instituto Federal de Santa Catarina (Instituto Federal de Santa Catarina) IFSC-São José-Brasil. |
|
|
|
## Contacto |
|
|
|
Para cualquier consulta o sugerencia, por favor contacte al desarrollador utilizando la información proporcionada anteriormente. |
|
|
|
|