40 CONACIC 2024
Summary
TLDREste proyecto presenta una aplicación capaz de identificar el género de una persona a partir de un audio capturado por micrófono. Utilizando redes neuronales y espectrogramas para analizar características acústicas, como el tono y timbre de la voz, se entrena un modelo de aprendizaje automático con un conjunto de datos balanceado. El sistema alcanzó una precisión cercana al 80% en la clasificación de género. Además, se proponen futuras mejoras, como la ampliación del dataset, optimización del modelo y adaptación de la aplicación para diferentes plataformas.
Takeaways
- 📊 El proyecto presentado se titula 'Identificador de género mediante audio' y fue desarrollado por estudiantes de la Universidad Politécnica de Victoria y el Instituto de Astrofísica, Óptica y Electrónica.
- 🧠 Las redes neuronales son utilizadas en el proyecto para clasificar el género a partir del análisis de audio, imitando la forma en que el cerebro humano procesa patrones.
- 🗂️ Un dataset de audios es esencial para entrenar y evaluar el modelo. Este dataset está compuesto por audios de voces masculinas y femeninas etiquetadas correctamente.
- 📈 El espectrograma se usa como herramienta visual para representar la señal de audio y sus frecuencias en el tiempo, lo que facilita el análisis de las características acústicas.
- 🔍 El proyecto enfrenta desafíos en la identificación del género, como la variación en tonos y acentos de las voces dentro de los géneros masculino y femenino.
- 🖥️ Se propone una aplicación de escritorio que graba audio desde un micrófono, lo convierte en espectrograma, y clasifica el género de la persona usando aprendizaje automático.
- ✅ El dataset utilizado incluyó 145 audios masculinos y 145 femeninos. Se realizaron 52 pruebas, de las cuales 42 fueron exitosas, resultando en tasas de precisión del 79.3% para hombres y 82.6% para mujeres.
- 🎙️ Las características acústicas como la frecuencia fundamental, el timbre, la duración de los vocales y las formantes fueron clave para la clasificación de género.
- 🔧 Se destaca la importancia de contar con un dataset balanceado y bien representado para evitar sesgos en el modelo de aprendizaje.
- 📚 Como trabajo futuro, se propone ampliar el conjunto de datos, optimizar el modelo y adaptarlo a más plataformas y dispositivos para mejorar su accesibilidad.
Q & A
¿Cuál es el título del proyecto presentado?
-El proyecto se titula 'Identificador de género mediante audio'.
¿Quiénes son los autores del proyecto?
-Los autores son Juan Daniel Torres Colorado, Melchor Hernández Díaz, Jesús Antonio Barbosa Rodríguez, Jimena Abigail Moreno Lerma, Marco Aurelio Niño Maganda y José Hugo Barrón Zambrano.
¿A qué instituciones pertenecen los autores?
-Los autores pertenecen a la Universidad Politécnica de Victoria Tamaulipas, México, y José Hugo Barrón Zambrano pertenece al Instituto de Astrofísica, Óptica y Electrónica en Puebla, México.
¿Qué son las redes neuronales y cómo se utilizan en el proyecto?
-Las redes neuronales son modelos computacionales inspirados en el cerebro humano, capaces de aprender y reconocer patrones. En el proyecto, se utilizan para procesar espectrogramas de audio y clasificar el género de una persona.
¿Qué es un dataset y cuál es su importancia en este proyecto?
-Un dataset es una colección de información estructurada utilizada para entrenar y evaluar modelos de aprendizaje automático. En este proyecto, es fundamental para entrenar el modelo de clasificación de género.
¿Qué es un espectrograma y qué papel juega en este proyecto?
-Un espectrograma es una representación visual del espectro de frecuencia de una señal en función del tiempo. En el proyecto, se utiliza para analizar señales de audio y extraer características relevantes para clasificar el género.
¿Cuáles son algunos de los retos en la identificación de género mediante audio?
-Uno de los retos es la variación en los tonos y acentos de las voces, así como la necesidad de un dataset representativo y balanceado para evitar sesgos en el modelo de clasificación.
¿Qué características acústicas se toman en cuenta para clasificar el género?
-Se consideran la frecuencia fundamental (tono), el timbre, la duración de los vocales, la modulación de la frecuencia y las formantes.
¿Cómo fue validado el dataset utilizado en el proyecto?
-El dataset fue validado asegurando que los audios representaran adecuadamente las características acústicas de cada género y que el número de muestras por género fuera equilibrado.
¿Cuál fue la tasa de acierto del modelo de clasificación?
-Para el género masculino, la tasa de acierto fue del 79.3%, mientras que para el género femenino fue del 82.6%.
¿Cuáles son las áreas de mejora propuestas para futuras investigaciones?
-Se sugiere ampliar el conjunto de datos, optimizar el modelo con diferentes arquitecturas de redes neuronales y preprocesamientos, e implementar la aplicación en diferentes plataformas.
Outlines
This section is available to paid users only. Please upgrade to access this part.
Upgrade NowMindmap
This section is available to paid users only. Please upgrade to access this part.
Upgrade NowKeywords
This section is available to paid users only. Please upgrade to access this part.
Upgrade NowHighlights
This section is available to paid users only. Please upgrade to access this part.
Upgrade NowTranscripts
This section is available to paid users only. Please upgrade to access this part.
Upgrade NowBrowse More Related Video
Tu primer clasificador de imágenes con Python y Tensorflow
Modelo predictivo de precio de vehículos usados - Proyecto de Data Science, IA y Machine Learning
Tu Primer Modelo de Machine Learning | Data Science con Python | Inteligencia Artificial
EVALUACIÓN FINAL - GRUPO MERAKI
¿CÓMO FUNCIONA MACHINE LEARNING?
Del perceptrón a la red neuronal
5.0 / 5 (0 votes)