40 CONACIC 2024
Summary
TLDREste proyecto presenta una aplicación capaz de identificar el género de una persona a partir de un audio capturado por micrófono. Utilizando redes neuronales y espectrogramas para analizar características acústicas, como el tono y timbre de la voz, se entrena un modelo de aprendizaje automático con un conjunto de datos balanceado. El sistema alcanzó una precisión cercana al 80% en la clasificación de género. Además, se proponen futuras mejoras, como la ampliación del dataset, optimización del modelo y adaptación de la aplicación para diferentes plataformas.
Takeaways
- 📊 El proyecto presentado se titula 'Identificador de género mediante audio' y fue desarrollado por estudiantes de la Universidad Politécnica de Victoria y el Instituto de Astrofísica, Óptica y Electrónica.
- 🧠 Las redes neuronales son utilizadas en el proyecto para clasificar el género a partir del análisis de audio, imitando la forma en que el cerebro humano procesa patrones.
- 🗂️ Un dataset de audios es esencial para entrenar y evaluar el modelo. Este dataset está compuesto por audios de voces masculinas y femeninas etiquetadas correctamente.
- 📈 El espectrograma se usa como herramienta visual para representar la señal de audio y sus frecuencias en el tiempo, lo que facilita el análisis de las características acústicas.
- 🔍 El proyecto enfrenta desafíos en la identificación del género, como la variación en tonos y acentos de las voces dentro de los géneros masculino y femenino.
- 🖥️ Se propone una aplicación de escritorio que graba audio desde un micrófono, lo convierte en espectrograma, y clasifica el género de la persona usando aprendizaje automático.
- ✅ El dataset utilizado incluyó 145 audios masculinos y 145 femeninos. Se realizaron 52 pruebas, de las cuales 42 fueron exitosas, resultando en tasas de precisión del 79.3% para hombres y 82.6% para mujeres.
- 🎙️ Las características acústicas como la frecuencia fundamental, el timbre, la duración de los vocales y las formantes fueron clave para la clasificación de género.
- 🔧 Se destaca la importancia de contar con un dataset balanceado y bien representado para evitar sesgos en el modelo de aprendizaje.
- 📚 Como trabajo futuro, se propone ampliar el conjunto de datos, optimizar el modelo y adaptarlo a más plataformas y dispositivos para mejorar su accesibilidad.
Q & A
¿Cuál es el título del proyecto presentado?
-El proyecto se titula 'Identificador de género mediante audio'.
¿Quiénes son los autores del proyecto?
-Los autores son Juan Daniel Torres Colorado, Melchor Hernández Díaz, Jesús Antonio Barbosa Rodríguez, Jimena Abigail Moreno Lerma, Marco Aurelio Niño Maganda y José Hugo Barrón Zambrano.
¿A qué instituciones pertenecen los autores?
-Los autores pertenecen a la Universidad Politécnica de Victoria Tamaulipas, México, y José Hugo Barrón Zambrano pertenece al Instituto de Astrofísica, Óptica y Electrónica en Puebla, México.
¿Qué son las redes neuronales y cómo se utilizan en el proyecto?
-Las redes neuronales son modelos computacionales inspirados en el cerebro humano, capaces de aprender y reconocer patrones. En el proyecto, se utilizan para procesar espectrogramas de audio y clasificar el género de una persona.
¿Qué es un dataset y cuál es su importancia en este proyecto?
-Un dataset es una colección de información estructurada utilizada para entrenar y evaluar modelos de aprendizaje automático. En este proyecto, es fundamental para entrenar el modelo de clasificación de género.
¿Qué es un espectrograma y qué papel juega en este proyecto?
-Un espectrograma es una representación visual del espectro de frecuencia de una señal en función del tiempo. En el proyecto, se utiliza para analizar señales de audio y extraer características relevantes para clasificar el género.
¿Cuáles son algunos de los retos en la identificación de género mediante audio?
-Uno de los retos es la variación en los tonos y acentos de las voces, así como la necesidad de un dataset representativo y balanceado para evitar sesgos en el modelo de clasificación.
¿Qué características acústicas se toman en cuenta para clasificar el género?
-Se consideran la frecuencia fundamental (tono), el timbre, la duración de los vocales, la modulación de la frecuencia y las formantes.
¿Cómo fue validado el dataset utilizado en el proyecto?
-El dataset fue validado asegurando que los audios representaran adecuadamente las características acústicas de cada género y que el número de muestras por género fuera equilibrado.
¿Cuál fue la tasa de acierto del modelo de clasificación?
-Para el género masculino, la tasa de acierto fue del 79.3%, mientras que para el género femenino fue del 82.6%.
¿Cuáles son las áreas de mejora propuestas para futuras investigaciones?
-Se sugiere ampliar el conjunto de datos, optimizar el modelo con diferentes arquitecturas de redes neuronales y preprocesamientos, e implementar la aplicación en diferentes plataformas.
Outlines
このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。
今すぐアップグレードMindmap
このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。
今すぐアップグレードKeywords
このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。
今すぐアップグレードHighlights
このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。
今すぐアップグレードTranscripts
このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。
今すぐアップグレード関連動画をさらに表示
Tu primer clasificador de imágenes con Python y Tensorflow
Modelo predictivo de precio de vehículos usados - Proyecto de Data Science, IA y Machine Learning
Tu Primer Modelo de Machine Learning | Data Science con Python | Inteligencia Artificial
EVALUACIÓN FINAL - GRUPO MERAKI
¿CÓMO FUNCIONA MACHINE LEARNING?
Del perceptrón a la red neuronal
5.0 / 5 (0 votes)