La materia tiene como objetivo introducir conceptos esenciales relacionados con el procesamiento de señales, audio y habla, abordando tanto técnicas tradicionales como actuales basadas en redes neuronales. Este curso proporcionará a los participantes una primera exposición a los fundamentos del procesamiento de señales, incluyendo filtros y análisis de Fourier, para luego pasar a métodos basados en redes neuronales como el aprendizaje de representaciones mediante aprendizaje auto-supervisado y la generación de audio. Asi mismo se veran temas de acústica y producción de habla, modelado de secuencias y del lenguaje. Dentro de las aplicaciones, se veran temas como reconocimiento de eventos sonoros, géneros musicales, identificación de hablantes, detección de emociones y reconocimiento del habla.
Docente: Pablo Riera (LIAA/ICC)
Clases: Jueves 9 a 13. Primer Cuatrimestre 2025.
Introducción al Procesamiento de Señales
¿Qué es el procesamiento de señales? Señales continuas vs. señales discretas. Muestreo y cuantización.
Convolución y correlación. Auto-correlación y cross-correlación.
Filtrado en el dominio del tiempo.
Análisis en el Dominio de la Frecuencia
Análisis de Fourier: series de Fourier y transformadas de Fourier.
Transformada de Fourier Discreta (DFT) y Transformada Rápida de Fourier (FFT).
Análisis en el Dominio de la Frecuencia
Transformada de Fourier de Tiempo Corto.
Filtrado y convolución en el dominio de la frecuencia.
Teorema de la convolución. Análisis espectral.
Procesamiento Estadístico de Señales
Detección y estimación en señales ruidosas.
Modelado de señales con distribuciones de probabilidad. Modelos gaussianos y no gaussianos.
Modelo ARMA, filtro de Wiener.
Procesamiento de señales
Procesamiento digital de señales en tiempo real
Procesamiento de señales en grafos
Introducción al Procesamiento de Audio y Habla
Características acústicas de las señales de audio y habla.
Fundamentos de la producción y percepción de sonidos ambientales, musicales y habla.
Atributos para el reconocimiento de música y habla. Wavelets, MFCC, Chromagramas.
Descubrimiento de unidades
Clustering. GMMs.
Segmentación de señales. Identificación de anomalías.
Modelado de secuencias
Autómatas de estados finitos.
Modelos Ocultos de Markov (HMMs).
Reconocimiento de Habla Clásico
GMM-HMM.
Decodificación con transductores de estados finitos (FSTs).
Introducción al Aprendizaje Profundo
Arquitectura de redes neuronales. Backpropagation y descenso de gradiente. Funciones de activación y funciones de pérdida.
Introducción a redes neuronales profundas para señales. Redes Neuronales Convolucionales (CNNs) y Redes Neuronales Recurrentes (RNNs).
Atención. Transformers.
Aprendizaje Profundo en el Procesamiento de Señales
Arquitecturas autoencoder, secuencia a secuencia.
Modelos autoregresivos. Modelos encoder-decoder.
Aprendizaje auto-supervisado. Aprendizaje por transferencia para el procesamiento de señales.
Modelos generativos para síntesis de audio
Síntesis de audio clásico. Síntesis con redes neuronales.
Compresión de audio, supresión de ruido, separación de fuentes, etc.
Reconocimiento de Habla 2
DNN-HMM.
Reconocimiento de habla de extremo a extremo con aprendizaje profundo. CTC/RNNT.
Reconocimiento automático en audio
Extracción de información del hablante (identidad, emociones, etc).
Reconocimiento de eventos sonoros, reconocimiento de géneros musicales.
Smith, J. O. (2007). Introduction to digital filters: with audio applications (Vol. 2). Julius Smith.
Daniel Jurafsky & James H. Martin, "Speech and Language Processing" (2nd edition). Prentice Hall, 2009. (https://web.stanford.edu/~jurafsky/slp3/)
Keith Johnson, "Acoustic and Auditory Phonetics" (2nd edition). Blackwell, 2003.
Jacob Benesty, M. Mohan Sondhi & Yiteng Huang (Eds.), "Springer Handbook of Speech Processing". Springer-Verlag, 2008.
"Deep Learning" by Ian Goodfellow, Yoshua Bengio, and Aaron Courville.
Prabhavalkar, R., Hori, T., Sainath, T. N., Schlüter, R., & Watanabe, S. (2023). End-to-end speech recognition: A survey. IEEE/ACM Transactions on Audio, Speech, and Language Processing.
Liu, S., Mallol-Ragolta, A., Parada-Cabaleiro, E., Qian, K., Jing, X., Kathan, A., ... & Schuller, B. W. (2022). Audio self-supervised learning: A survey. Patterns, 3(12).
Zaman, K., Sah, M., Direkoglu, C., & Unoki, M. (2023). A Survey of Audio Classification Using Deep Learning. IEEE Access.
Purwins, H., Li, B., Virtanen, T., Schlüter, J., Chang, S. Y., & Sainath, T. (2019). Deep learning for audio signal processing. IEEE Journal of Selected Topics in Signal Processing, 13(2), 206-219.
Mehrish, A., Majumder, N., Bharadwaj, R., Mihalcea, R., & Poria, S. (2023). A review of deep learning techniques for speech processing. Information Fusion, 101869.
Natsiou, A., & O’Leary, S. (2021, November). Audio representations for deep learning in sound synthesis: A review. In 2021 IEEE/ACS 18th International Conference on Computer Systems and Applications (AICCSA) (pp. 1-8). IEEE.