40 CONACIC 2024

Conacic Nacional

25 Sept 202407:11

Summary

TLDREste proyecto presenta una aplicación capaz de identificar el género de una persona a partir de un audio capturado por micrófono. Utilizando redes neuronales y espectrogramas para analizar características acústicas, como el tono y timbre de la voz, se entrena un modelo de aprendizaje automático con un conjunto de datos balanceado. El sistema alcanzó una precisión cercana al 80% en la clasificación de género. Además, se proponen futuras mejoras, como la ampliación del dataset, optimización del modelo y adaptación de la aplicación para diferentes plataformas.

Takeaways

📊 El proyecto presentado se titula 'Identificador de género mediante audio' y fue desarrollado por estudiantes de la Universidad Politécnica de Victoria y el Instituto de Astrofísica, Óptica y Electrónica.
🧠 Las redes neuronales son utilizadas en el proyecto para clasificar el género a partir del análisis de audio, imitando la forma en que el cerebro humano procesa patrones.
🗂️ Un dataset de audios es esencial para entrenar y evaluar el modelo. Este dataset está compuesto por audios de voces masculinas y femeninas etiquetadas correctamente.
📈 El espectrograma se usa como herramienta visual para representar la señal de audio y sus frecuencias en el tiempo, lo que facilita el análisis de las características acústicas.
🔍 El proyecto enfrenta desafíos en la identificación del género, como la variación en tonos y acentos de las voces dentro de los géneros masculino y femenino.
🖥️ Se propone una aplicación de escritorio que graba audio desde un micrófono, lo convierte en espectrograma, y clasifica el género de la persona usando aprendizaje automático.
✅ El dataset utilizado incluyó 145 audios masculinos y 145 femeninos. Se realizaron 52 pruebas, de las cuales 42 fueron exitosas, resultando en tasas de precisión del 79.3% para hombres y 82.6% para mujeres.
🎙️ Las características acústicas como la frecuencia fundamental, el timbre, la duración de los vocales y las formantes fueron clave para la clasificación de género.
🔧 Se destaca la importancia de contar con un dataset balanceado y bien representado para evitar sesgos en el modelo de aprendizaje.
📚 Como trabajo futuro, se propone ampliar el conjunto de datos, optimizar el modelo y adaptarlo a más plataformas y dispositivos para mejorar su accesibilidad.

Q & A

¿Cuál es el título del proyecto presentado?
-El proyecto se titula 'Identificador de género mediante audio'.
¿Quiénes son los autores del proyecto?
-Los autores son Juan Daniel Torres Colorado, Melchor Hernández Díaz, Jesús Antonio Barbosa Rodríguez, Jimena Abigail Moreno Lerma, Marco Aurelio Niño Maganda y José Hugo Barrón Zambrano.
¿A qué instituciones pertenecen los autores?
-Los autores pertenecen a la Universidad Politécnica de Victoria Tamaulipas, México, y José Hugo Barrón Zambrano pertenece al Instituto de Astrofísica, Óptica y Electrónica en Puebla, México.
¿Qué son las redes neuronales y cómo se utilizan en el proyecto?
-Las redes neuronales son modelos computacionales inspirados en el cerebro humano, capaces de aprender y reconocer patrones. En el proyecto, se utilizan para procesar espectrogramas de audio y clasificar el género de una persona.
¿Qué es un dataset y cuál es su importancia en este proyecto?
-Un dataset es una colección de información estructurada utilizada para entrenar y evaluar modelos de aprendizaje automático. En este proyecto, es fundamental para entrenar el modelo de clasificación de género.
¿Qué es un espectrograma y qué papel juega en este proyecto?
-Un espectrograma es una representación visual del espectro de frecuencia de una señal en función del tiempo. En el proyecto, se utiliza para analizar señales de audio y extraer características relevantes para clasificar el género.
¿Cuáles son algunos de los retos en la identificación de género mediante audio?
-Uno de los retos es la variación en los tonos y acentos de las voces, así como la necesidad de un dataset representativo y balanceado para evitar sesgos en el modelo de clasificación.
¿Qué características acústicas se toman en cuenta para clasificar el género?
-Se consideran la frecuencia fundamental (tono), el timbre, la duración de los vocales, la modulación de la frecuencia y las formantes.
¿Cómo fue validado el dataset utilizado en el proyecto?
-El dataset fue validado asegurando que los audios representaran adecuadamente las características acústicas de cada género y que el número de muestras por género fuera equilibrado.
¿Cuál fue la tasa de acierto del modelo de clasificación?
-Para el género masculino, la tasa de acierto fue del 79.3%, mientras que para el género femenino fue del 82.6%.
¿Cuáles son las áreas de mejora propuestas para futuras investigaciones?
-Se sugiere ampliar el conjunto de datos, optimizar el modelo con diferentes arquitecturas de redes neuronales y preprocesamientos, e implementar la aplicación en diferentes plataformas.