Herramientas de Aprendizaje Automático Pueden Predecir Emociones en Voces en Solo un Segundo
Las palabras son importantes para expresarnos. Sin embargo, lo que no decimos puede ser aún más instrumental para transmitir emociones. Los humanos a menudo pueden percibir cómo se sienten las personas a su alrededor a través de señales no verbales incrustadas en nuestra voz.
Ahora, investigadores en Alemania han buscado descubrir si las herramientas técnicas también pueden predecir con precisión los matices emocionales en fragmentos de grabaciones de voz. Para hacerlo, compararon la precisión de tres modelos de ML para reconocer diversas emociones en extractos de audio. Sus resultados fueron publicados en Frontiers in Psychology.
“Aquí mostramos que el aprendizaje automático se puede usar para reconocer emociones a partir de clips de audio tan cortos como 1.5 segundos,” dijo el primer autor del artículo, Hannes Diemerling, investigador en el Centro de Psicología del Ciclo de Vida en el Instituto Max Planck para el Desarrollo Humano. “Nuestros modelos lograron una precisión similar a los humanos al categorizar oraciones sin sentido con coloración emocional habladas por actores.”
Escuchando cómo nos sentimos
Los investigadores extrajeron oraciones sin sentido de dos conjuntos de datos, uno canadiense y otro alemán, lo que les permitió investigar si los modelos de ML pueden reconocer con precisión las emociones independientemente del idioma, las sutilezas culturales y el contenido semántico.
Cada clip se acortó a una longitud de 1.5 segundos, ya que esto es lo que los humanos necesitan para reconocer la emoción en el habla. También es la longitud de audio más corta posible en la que se puede evitar la superposición de emociones. Las emociones incluidas en el estudio fueron alegría, enojo, tristeza, miedo, asco y neutro.
Basado en datos de entrenamiento, los investigadores generaron modelos de ML que funcionaban de una de tres maneras: Las redes neuronales profundas (DNNs) son como filtros complejos que analizan componentes de sonido como la frecuencia o el tono —por ejemplo, cuando una voz es más fuerte porque el hablante está enojado— para identificar emociones subyacentes.
Las redes neuronales convolucionales (CNNs) buscan patrones en la representación visual de las pistas de sonido, mucho como identificar emociones a partir del ritmo y la textura de una voz. El modelo híbrido (C-DNN) fusiona ambas técnicas, utilizando tanto el audio como su espectrograma visual para predecir emociones. Los modelos luego fueron probados por su efectividad en ambos conjuntos de datos.
“Encontramos que los DNNs y C-DNNs logran una mejor precisión que solo usando espectrogramas en CNNs,” dijo Diemerling. “Independientemente del modelo, la clasificación de emoción fue correcta con una probabilidad más alta que la que se puede lograr a través de adivinanzas y fue comparable a la precisión de los humanos.”
Tan buenos como cualquier humano
“Queríamos situar nuestros modelos en un contexto realista y usamos las habilidades de predicción humanas como un punto de referencia,” explicó Diemerling. “Si los modelos hubieran superado a los humanos, podría significar que podría haber patrones que no son reconocibles por nosotros.” El hecho de que los humanos no entrenados y los modelos se desempeñaron de manera similar puede significar que ambos dependen de patrones de reconocimiento parecidos, dijeron los investigadores.
Los hallazgos actuales también muestran que es posible desarrollar sistemas que pueden interpretar instantáneamente señales emocionales para proporcionar retroalimentación inmediata e intuitiva en una amplia gama de situaciones. Esto podría conducir a aplicaciones escalables y rentables en varios dominios donde comprender el contexto emocional es crucial, como la terapia y la tecnología de comunicación interpersonal.
Los investigadores también señalaron algunas limitaciones en su estudio, por ejemplo, que las oraciones de muestra habladas por actores pueden no transmitir el espectro completo de la emoción real, espontánea. También dijeron que trabajos futuros deberían investigar segmentos de audio que duren más o menos de 1.5 segundos para averiguar cuál duración es óptima para el reconocimiento de emociones.
---
🔷 Si quieres seguir al día con la Inteligencia Artificial pero desde el punto de vista práctico, lo que te sirve REALMENTE para conseguir más clientes o para crecer más en tu actividad profesional, solo tienes que suscribirte a nuestro Newsletter (que es gratuito) y te mantendremos al tanto de lo nuevo que vaya saliendo y que sea muy interesante y útil para ti. ¡Ya somos más de 23.000 miembros! Puedes Suscribirte gratuitamente aquí>
Javier Galué