| Resumenes Vol. 38 No.4 de 2006 |
|
|
DETECCIÓN DE EXTREMOS EN SEÑALES DE VOZ UTILIZANDO CARACTERÍSTICAS
DE ENERGÍA Y ENTROPÍA |
E. A. Rueda, Y. Torres |
En el tratamiento digital de la voz es necesario e importante conocer donde empieza y donde termina
la señal de voz con exactitud, por ejemplo, en aplicaciones como las de reconocimiento de
voz es necesario procesar previamente la señal; la cual consiste de segmentos de voz, silencio y
otros considerados como ruido.
Se propone un algoritmo para la solución de este problema. Teniendo en cuenta los siguientes requerimientos:
Robustez (funcione en ambientes adversos), Baja complejidad computacional (fácil
implementación), rápido tiempo de respuesta y, exactitud a la hora de encontrar los puntos de inicio
y de fin de la voz. El algoritmo se diseño en tres etapas: La primera etapa viene asociada con el
requerimiento de robustez al ruido a través de la técnica de substracción espectral; en la segunda
etapa se mejora la calidad de la señal de voz a través de filtros y otras técnicas; en la tercera y última
etapa se encuentran los limites de la señal. Para lograrlo, lo primero que se hace es extraer los
parámetros que sirven como discriminantes entre segmentos que tienen voz y los que no. Para esto
se utilizan las características de energía y entropía de la señal. Finalmente, la señal es enviada a
una máquina de decisión que se encarga de clasificar los segmentos voz, y no voz. Durante todo el
proceso se hace una evaluación de los resultados y se compara el resultado obtenido con los reportados
para las técnicas de la energía y de la entropía..
Palabras claves: Detección de voz, puntos de inicio y fin, substracción espectral. |
Currently, many applications of speech are in development. In these applications it is necessary to
know exactly where the signal of speech begins and ends, or "endpoint detection". In applications
like voice recognition, it is necessary to preprocess signals. The voice signal is composed of
speech signal, silence and noise segments. An algorithm to solve this problem is proposed. The
algorithm seeks to fulfill the following requirements: Robustness (it works in adverse noises), low
complexity (easy computational implementation), fast time of response and mainly, accurate to
find the beginning and end points. The proposed algorithm is designed in three stages: The first
stage comes associated to the robustness requirement and uses the spectral subtraction technique
for noise reduction; the second stage improves the quality and the SNR ratio of the voice signal
through the application of filters and other techniques; in the third or last stage, the algorithm
seeks to find the limits of speech. The algorithm extracts different parameters to make speech and
non-speech discriminations. For this, energy characteristics and signal entropy are used. Finally,
the signal is sent to a decision machine to classify between speech and non-speech. Throughout
the algorithm, an evaluation process is made of the results to compare them to those reported for
the techniques of algorithm energy and entropy.
|
| keywords: Speech detection, endpoint, spectral subtraction |
|
|