<< Fases Ir a "detalles" Fase de Entrenamiento >>
VoxID te 0ye
Fase de Captura
La entrada a este proceso es un archivo de audio en formato WAV. Este archivo puede haberse encontrado en el disco duro o haber sido grabado en el momento con un micrófono.
El primer paso es dividir esta entrada en ventanas de tiempo. Cada ventana de tiempo tiene un largo definido de puntos de información de audio. Cada ventana será procesada utilizando 3 algoritmos: FFT, cambio de dominio a mel-frequency y cálculo de cepstrum.
Después de que se han aplicado estos 3 algoritmos sobre una ventana, se repite con otra ventana, la cual esta separada a una distancia definida de la otra (suele ser una distancia menor al largo de una ventana).
La ventana no correspode exactamente a la información original contenida en la sección correspondiente del archivo, sino que se le aplica una función hamming para transformarla en una ventana hamming.
El algoritmo FFT calcula la transformada rápida de Fourier para la señal contenida en la ventana hamming. Los coeficientes de esta transformada se pasan por filtros mel y funciones de frecuencia mel, para cambiar el recorrido de la señal y la ponderación de ciertos coeficientes. Finalmente, se calcula el cepstrum para los coeficientes obtenidos.
El resultado es un vector de coeficientes que puede pensarse como un vector de características de la voz de un individuo.
La transformada de Fourier permite representar las componentes de una señal, lo que podría pensarse como una representación del timbre de voz de una persona. Pasar a dominio de frecuencia mel acerca la señal a la forma como escuchamos los seres humanos. Finalmente, el cálculo del cepstrum permite separar características que son propias de la voz de aquellas que se producen por distorsiones en la cavidad bucal.
|