Capítulo 2. La señal de audio

Resumen: Este capítulo explica qué es la señal de audio y, en concreto, la señal musical. Muestra diferentes formas en las que se puede representar el sonido, tanto para almacenarlo y reproducirlo, como para analizarlo. Así mismo, mediante vídeos realizados a partir de Matlab describe en qué consiste la digitalización del sonido y presenta algunas herramientas que sirven para estudiar y manipular la vibración sonora, como el editor de sonido y el osciloscopio, las cuales van a ser utilizadas en los capítulos posteriores.

Representación del sonido

Dada la rapidez y el reducido rango de las oscilaciones de la presión del aire que dan lugar al sonido, nosotros no podemos observarlo directamente. Sin embargo, con el avance de la tecnología, se han desarrollado diversos sistemas capaces de registrar el movimiento vibratorio que lo constituye, lo que ha permitido, por un lado, reproducirlo más tarde a voluntad y, por otro, estudiarlo y hasta manipularlo. Todos estos métodos están basados en conseguir que la forma de la vibración sonora deje un rastro, una huella, es decir, una señal.
En efecto, toda la información que lleva consigo el sonido está contenida dentro de la forma de la vibración. La señal de audio es el dibujo que esa vibración traza en el tiempo. En el caso del aire, la señal de audio viene dada por la forma de la oscilación de la presión en torno a su valor medio, en un punto determinado del espacio. Bastará, así pues, con obtener el dibujo de esa oscilación de la presión para lograr una representación del sonido. Cuando el contenido de la vibración sonora es una pieza o un fragmento de música, a esa representación del sonido se la denomina señal musical.
Desde mediados del siglo XIX se desarrollaron varios ingenios para atrapar el sonido, es decir, para guardarlo y volver a reproducirlo posteriormente. Surgieron los primeros fonógrafos, que, como su nombre indica, pretendían “escribir el sonido”. Aquellos fonógrafos consistían en una membrana capaz de vibrar solidariamente con el aire y que, a través de una serie de palancas intermedias que ampliaban la vibración, transmitía su movimiento a un fino estilete. El estilete iba dibujando la forma de la oscilación en una capa de cera o en un papel ahumado colocado sobre la superficie de un cilindro que rotaba. De esta manera, la huella de la vibración quedaba registrada.

Figura 1. Un fonógrafo. Dibujo de la época.
Figura 1. Un fonógrafo. Dibujo de la época.

Con el desarrollo de la electricidad, las oscilaciones mecánicas de la membrana que captaba el sonido pasaron a transformarse en oscilaciones de la tensión eléctrica, las cuales, a su vez, podían de nuevo ser transformadas en vibraciones mecánicas. Nacían el micrófono y el altavoz eléctrico. La aparición de las válvulas electrónicas y, luego, de los transistores permitió controlar la amplificación y mejorar la fidelidad del registro sonoro, así como difundir por radio la señal a lugares remotos. Posteriormente se desarrolló el registro de la señal de audio en un soporte magnético, lo que facilitó la edición del sonido.
Todas estas representaciones del sonido que imitan de manera más o menos directa el dibujo de la vibración sonora se conocen con el nombre de señal analógica de audio, con independencia de que el soporte utilizado sea cera, vinilo, cinta magnética o cualquier otro.
Pero desde hace unas décadas el avance de la tecnología ha permitido dar un paso más y transformar la oscilación de la presión del aire en una lista de números. Para ello es necesario tomar una cantidad muy elevada de mediciones por segundo de la señal analógica. Mediante estas mediciones, que recogen con la precisión deseada el movimiento vibratorio original, se digitaliza la señal sonora. Obtenemos así la lista de números que constituye la representación digital de la vibración y que recibe, por ello, el nombre de señal digital de audio. Conforme mayor sea la cantidad de muestras obtenidas —es decir, la frecuencia del muestreo—, mejor será la aproximación al movimiento vibratorio real que obtendremos.
La transformación en números de la vibración sonora permite que el tratamiento del sonido se pueda realizar simplemente mediante operaciones matemáticas simples. Por ejemplo, amplificar un sonido consiste en multiplicar cada una de sus muestras por una cantidad constante; para mezclar dos grabaciones digitales sólo hay que sumar los valores correspondientes de cada una de sus muestras, etc. Además, la señal digital de audio, al tratarse solamente de una lista de números, no se pierde ni se deteriora por muchas veces que sea reproducida. Y a partir de esa lista de números se pueden generar con facilidad gráficas e imágenes que facilitan la observación y el estudio de los sonidos.

Un ejemplo de registro digital

Veamos mediante un ejemplo en qué consiste el registro de la señal de audio digital. Un sistema muy sencillo y al alcance de cualquiera puede estar formado simplemente por un micrófono de condensador con salida digital y conectado a un ordenador.
La cápsula de un micrófono de condensador posee una membranita muy fina que vibra como consecuencia de las variaciones de la presión del aire que llegan hasta ella. Esta membranita constituye una de las dos placas de las que consta un condensador eléctrico. Al desplazarse esta membranita, debido a la vibración del aire, se acerca o se aleja de la placa fija del condensador, lo que produce un cambio en la capacitancia de éste, un cambio que es proporcional al desplazamiento de la membranita. De esta manera las vibraciones mecánicas que dan lugar al sonido se transforman en variaciones de la tensión eléctrica.
Si a este mecanismo le unimos un sistema capaz de medir con rapidez esas variaciones de la tensión eléctrica, tendremos ya una herramienta que nos permitirá transformar en números lo que sucede en la vibración sonora. Se trata de un pequeño circuito integrado llamado Conversor Analógico Digital (CAD o ADC, por sus siglas en inglés). La cantidad de mediciones que se toman por segundo se llama frecuencia de muestreo. Una frecuencia de muestreo estándar con la que se puede conseguir ya la máxima fidelidad es 44.100 muestras por segundo.
Hay que tener en cuenta que las muestras no contienen los valores absolutos de las variaciones de la presión del aire, sino valores que son relativos entre sí, habitualmente normalizados entre 1 y -1. El valor 0 corresponde a la presión ambiental del aire en ausencia de sonido y los valores 1 y -1 a la presión sonora máxima y mínima respectivamente que el sistema puede registrar.
Por su parte, el ordenador nos proporciona un lugar para almacenar las mediciones que vamos obteniendo y nos permite también generar, a partir de esta lista de números, todo tipo de gráficas e imágenes.
Por su parte, el ordenador nos proporciona un lugar para almacenar las mediciones que vamos obteniendo y nos permite también generar, a partir de esta lista de números, todo tipo de gráficas e imágenes.
Supongamos que queremos registrar y guardar en un archivo de ordenador los compases iniciales de la Quinta Sinfonía de Beethoven interpretada por una orquesta cualquiera en un día cualquiera. Los números obtenidos —es decir, las medidas o muestras que resulten de digitalizar la oscilación de la presión del aire en torno a su valor medio en el lugar en el que hayamos colocado el micrófono— constituirán la señal de audio digital de esta interpretación concreta. Y esta lista de números será el archivo de sonido que guardaremos en el ordenador.
Para ilustrar cómo surge la señal de audio digital a partir de la vibración sonora, he fabricado un vídeo con imágenes obtenidas mediante Matlab. En el vídeo se simula, a cámara lenta, el movimiento arriba y abajo de la membranita del micrófono, provocado por la variación de la presión del aire en el punto donde se halla colocado, cuando suena un pequeñísimo fragmento del inicio de la Quinta Sinfonía de Beethoven. El resultado de ese movimiento se va dibujando en el panel de la izquierda, dibujo que da lugar a la señal analógica de ese fragmento. En el panel de la derecha va apareciendo el valor numérico de las muestras que se van obteniendo, es decir, lo que constituye la señal digital.
El movimiento que apreciamos en el vídeo está ralentizado 1.000 veces. Aunque el sonido es meramente ilustrativo, hay que tener en cuenta que el movimiento de la membrana, el dibujo de la señal y el valor numérico de las muestras que aparecen en el vídeo se corresponden a las 20 primeras milésimas de segundo de esa grabación concreta de la interpretación de la Sinfonía de Beethoven realizada por esa orquesta en ese momento.

Figura 2. Vídeo que ilustra el proceso de digitalización sobre un fragmento de 20 ms de los primeros compases de la Quinta Sinfonía de Beethoven.

El espacio de color azul viene a representar el interior de la cápsula del micrófono, mientras que la raya horizontal de color amarillo que se desplaza arriba y abajo es la membranita del micrófono que se mueve dentro de la cápsula, aunque la medida real del desplazamiento de la membranita por la cápsula del micrófono sería de unos pocos micrómetros.
La señal analógica es la gráfica de color blanco que se dibuja desde la cápsula del micrófono como consecuencia de la transformación de la oscilación de la presión del aire en oscilación de la tensión eléctrica. Las pequeñas cruces verdes que están sobre esta gráfica de la señal representan los puntos en los que se van tomando las muestras para la digitalización. Estas muestras se toman a intervalos de tiempo iguales, lo que se llama la frecuencia de muestreo, que en este caso ha sido de 25.000 muestras por segundo.
Esas mediciones van apareciendo en el recuadro de la derecha. Si detenemos el vídeo en un instante cualquiera, podemos comprobar que el último número que aparece, el situado en la parte superior de la lista, corresponde a la posición de la membranita en ese momento. La lista de todas estas muestras numéricas es la señal digital de este fragmento sonoro. Estos números se pueden almacenar en un archivo de ordenador, de modo que el sonido quede registrado.
Si continuáramos digitalizando el sonido de la Sinfonía completa a tiempo real y guardáramos la enorme lista de números, sin alteración alguna, obtendríamos exactamente esa interpretación concreta, tal como fue recogida por el micrófono. Y lo más interesante es que si conserváramos esa lista de números, no ya en un ordenador o en un CD, sino, por poner un ejemplo disparatado, uno detrás de otro en un papel, tendríamos exactamente la grabación original, sin que se perdiera nada de ella.
A partir de esta señal digital de audio que puede ser guardada en un archivo del ordenador es posible reproducir el sonido de esta interpretación. El sistema de sonido de cualquier ordenador posee un circuito integrado capaz de convertir los números en variaciones de la tensión eléctrica, un Conversor Digital Analógico (CDA, o DAC, por sus siglas en inglés). De esa manera se puede recuperar la misma forma original de la señal analógica. Idealmente, el altavoz al que tenemos conectado el ordenador vibrará siguiendo la lista de números de la señal de audio que tenemos almacenada y provocará las mismas oscilaciones de la presión de aire que habían sido registradas.

El editor de sonido

Veamos ahora cómo podemos representar y observar con ayuda de un editor de sonido la señal digital de ese fragmento sonoro. Existen muchos editores de sonido, algunos de ellos, como Audacity, de libre distribución. Mediante cualquiera de ellos podemos trazar, a partir de los números que hemos guardado en el archivo del ordenador, la gráfica de la señal que hemos registrado.
Abrimos desde el editor de sonido el archivo con la señal de audio digital de ese fragmento de música. Elegimos una presentación en la que podamos ver todo el fragmento en una sola pantalla, para lo que, probablemente, necesitaremos hacer un zoom negativo. Veremos y oiremos algo similar a lo siguiente:

Figura 3. Señal de audio de los compases iniciales de la Quinta Sinfonía de Beethoven.

En el vídeo podemos observar la representación de la señal de audio de un fragmento de aproximadamente 21 segundos de duración. El valor de la coordenada vertical representa la variación de la presión del aire en torno a su valor medio en el punto en el que estuviera colocado el micrófono en el momento de la grabación. Dado que los valores de presión que muestran las gráficas de las señales de audio no son valores absolutos, sino relativos, no se indica ninguna unidad de presión.
Comprobamos a simple vista que esa mancha verde, la señal de audio, guarda cierta relación con lo que estamos oyendo. Por ejemplo, los niveles sonoros más fuertes coinciden con desplazamientos verticales más amplios, y viceversa. Pero en realidad lo único que vemos son unas manchas más o menos amplias con un perfil bastante simétrico y muy escarpado.
En efecto, con esta presentación no apreciamos el detalle de la vibración sonora, no podemos ver cómo se ha movido la membrana del micrófono en cada instante, ni por lo tanto, cómo ha variado la presión del aire que ha hecho que nuestro tímpano vibrara. Esta gráfica consta aproximadamente de 1.000.000 de muestras, por lo que no podemos ver los detalles. Ahora bien, basta hacer sucesivos zoom —ahora positivos— en nuestro editor de sonido para acercarnos al interior de la señal. Obtendremos una gráfica similar a la siguiente:

Figura 4. Fragmento de 50 milisegundos de la señal de audio del inicio de la Quinta Sinfonía de Beethoven
Figura 4. Fragmento de 50 ms de la señal de audio del inicio de la Quinta Sinfonía de Beethoven.

En esta imagen sí podemos observar con bastante detenimiento cómo ha sido la vibración sonora en un pequeño intervalo temporal. Debido a que la gráfica está representando solamente 50 milésimas de segundo (en concreto, desde el segundo 2 hasta el segundo 2,05), ahora es posible apreciar con detalle la vibración.
Vemos que esa gráfica va dibujando un movimiento de subidas y bajadas que oscilan en torno a un valor central. Esta gráfica es el resultado de unir los valores de cada una de las muestras digitales que han sido tomadas en el momento de la grabación y que han constituido la señal de audio. Por lo tanto, podemos decir que la gráfica verde representa la oscilación del valor de la presión del aire en el punto donde estaba colocado el micrófono.
Si seguimos la forma de la gráfica verde en la pantalla utilizando un dedo o el ratón del ordenador, nos estaremos haciendo una idea bastante intuitiva, como si fuera a cámara lenta, de los pequeñísimos desplazamientos sucesivos que ha realizado la membrana del micrófono que ha registrado el sonido. Mediante el editor de audio podemos movernos por las barras de desplazamiento hacia la izquierda y la derecha y recorrer toda la señal, de modo que podemos observar toda la vibración sonora con el detenimiento que queramos.

El osciloscopio

Pero lo que realmente nos interesaría para estudiar el movimiento vibratorio que es el sonido sería ver con este mismo detalle el dibujo de la señal de audio mientras oímos lo que está representando. Con el editor de sonido podemos conseguir algo aproximado si hacemos que la ventana en la que se representa la señal se vaya actualizando conforme la música va sonando. Pero la forma idónea de representar en vivo las vibraciones sonoras es mediante un osciloscopio.
Un osciloscopio es un instrumento de observación y medición que hace pasar a tiempo real la señal de audio por una ventana de observación. En Teoría de Señal se llama ventana de observación a la función matemática que recorta un fragmento de la señal de un determinado tamaño.
Para simular un osciloscopio he realizado un vídeo en el que podemos ver y escuchar sincronizadamente la oscilación de los mismos compases iniciales de la Quinta Sinfonía de Beethoven del vídeo anterior. He elegido una ventana de observación de 50 milésimas de segundo porque ese tamaño es lo suficientemente corto como para que se pueda apreciar el detalle de la vibración y lo suficientemente largo como para permitirnos observar la forma de las oscilaciones.

Figura 5. Representación en un osciloscopio simulado de los compases iniciales de la Quinta Sinfonía de Beethoven.

Podemos entender de manera intuitiva en qué consiste un osciloscopio si imaginamos que la señal de audio, la gráfica de la vibración, va pasando por delante de nuestra ventana de observación a la vez que va sonando, entrando por la derecha y saliendo por la izquierda. Algo así como si tuviéramos la gráfica de la señal de todo el fragmento sonoro escondida a la derecha de la ventana del osciloscopio (una ventana en la que caben 50 milésimas de segundo) y la hiciéramos pasar de derecha a izquierda por delante de nuestra ventana a la misma velocidad con la que está sonando.
El hecho de ver casi simultáneamente un fragmento de 50 milésimas de segundo nos permite estudiar una realidad como la vibración sonora que cambia tan rápidamente que de otro modo sería imposible observar. Mediante esta especie de osciloscopio digital podremos apreciar la forma de la vibración que está sonando y su evolución conforme el sonido va cambiando. Podemos parar el vídeo en cualquier momento y analizar la forma de la vibración en las 50 milésimas de segundo correspondientes al momento en el que lo hemos detenido.
Mediante este vídeo-osciloscopio podemos apreciar que cuando suena una nota musical aislada las formas de la vibración tienden a repetirse, lo que nos produce la impresión de que en ese momento el movimiento de la gráfica se hubiera detenido o ralentizado. En realidad estamos viendo pasar la gráfica a la misma velocidad que antes, pero, como las formas de la oscilación se repiten muchas veces con escasas variaciones, la sensación óptica que obtenemos es más estática.
Esta repetición, unida al ritmo en el que se actualizan los cuadros en el vídeo y a la persistencia en nuestra retina de las imágenes, nos produce diferentes ilusiones ópticas: a veces parece que las formas de la oscilación se dirigieran a la derecha, otras a la izquierda, otras parecen casi detenerse y en otras ocasiones da la impresión de que se superpusieran dos vibraciones distintas. Pero estas ilusiones ópticas no nos interesan ahora, pues nuestra atención solamente debe estar dirigida a la forma de la vibración y a su evolución.

Conclusión

Al margen de las numerosas utilidades prácticas en los campos del registro, edición y difusión de las obras musicales o de los acontecimientos sonoros de todo tipo, la representación digital del sonido ofrece muchas posibilidades para el estudio acústico. Puesto que la señal de audio digital es una representación fidedigna de la vibración sonora, a partir de ella podemos obtener con facilidad todo tipo de gráficas e imágenes que nos ayudarán a entender el sonido y la relación entre los parámetros físicos de la vibración y nuestra percepción. Así mismo, podremos utilizar técnicas numéricas para extraer la información que contiene.


2 comentarios:

Unknown dijo...

Hola, me parece muy buena tu publicación, pues no soy electrónico ni sonidista, pero si un autodidacta que memas que comprar cosas, me gusta hacer las cosas para un uso determinado.
Llegue a tu publicación porque busco información sobre como conectar un micrófono que captar señales de una filtración de agua, a un osciloscopio, esto para ¨ver¨ el ruido de la filtración y determinar su ubicación.
Un buen equipo de estas características es muy caro y según lo que veo se podría hacer y tener buenos resultados.
Si me puedes apoyar, te lo agradezco.

Luis Colomer dijo...

Hola. Me parece que lo que buscas es un programa de ordenador que te sirva de osciloscopio. Supongo que lo que te interesaría es conectar el micrófono al ordenador, a la entrada de sonido, y ver la señal en la pantalla como si fuera un osciloscopio de verdad. Si es eso, tienes en internet muchos programas, alguno de los cuales son gratuitos. Yo no los he usado, pero aquí tienes una página con algunos. Si buscas más igual encuentras algo mejor. Por si acaso te dejo esta página:

https://windowsreport.com/oscilloscope-software-pc-laptop/

Saludos, Luis