Capítulo 6. Mezcla e interferencias de dos sonidos simples

Resumen: Este capítulo analiza los fenómenos acústicos y psicoacústicos que se producen cuando se superponen dos sonidos simples. Mediante vídeos construidos a partir de Matlab, muestra que estos fenómenos dependen tanto de la distancia entre las frecuencias de los sonidos que se mezclan, como de la razón matemática que hay entre ellas. Además, puesto que estos fenómenos están presentes en la combinación de cualquier número de componentes, permite entender los fundamentos acústicos de la mezcla armónica, la cual es la propia del sonido musical. Muestra también que las consonancias entre sonidos simples se producen cuando sus frecuencias están en razón de conmensurabilidad próxima. Además, explica por qué se producen interferencias entre sonidos de frecuencias muy próximas (batidos de primer orden) o de frecuencias muy próximas a relaciones consonantes (batidos de segundo orden) y cómo esas interferencias sirven para afinar los instrumentos musicales. Por último, muestra el efecto de la distorsión en la mezcla de sonidos simples.

Introducción

Los sonidos que oímos todos los días, sean o no musicales, no suelen ser sonidos simples, sino el resultado de la superposición de un conjunto de vibraciones que coinciden en un momento dado. En el caso de la música, que es lo que nos interesa ahora, estas superposiciones se pueden producir en cualquier lugar: en el cuerpo mismo de los instrumentos, en el espacio por el que se transmiten las ondas sonoras o en el interior de nuestro oído.
Cuando se mezclan las vibraciones sonoras se producen diversos fenómenos acústicos, fenómenos que dan lugar a las diferentes cualidades sonoras que oímos. Estas mezclas, dependiendo de sus características, pueden ser combinaciones armónicas que percibimos como notas musicales o pueden ser otro tipo de combinaciones en las que apreciamos simplemente ruido. En efecto, los fenómenos acústicos derivados de las distintas combinaciones de sonidos simples (es decir, de componentes sinusoidales) generan buena parte de la riqueza sonora de nuestro entorno. En lo que concierne a la música, los fenómenos que se crean al combinarse las vibraciones de distintos sonidos o de distintos componentes de un mismo sonido constituyen buena parte del fundamento acústico de nuestro sistema musical.
Como se estudia en el capítulo siguiente, el sonido armónico o musical, hablando en general, está formado por una serie de componentes simples cuyas vibraciones se superponen de una manera especial. Las características de las mezclas y combinaciones de sonidos simples que dan lugar al sonido musical son la causa de su particular naturaleza sonora. Estas características explican, además, los principios físicos que rigen las consonancias, los pilares del lenguaje musical.
En este sentido, este capítulo prepara el estudio del sonido armónico, es decir, de la estructura armónica creada por la combinación de componentes simples que mantienen entre sí unas determinadas relaciones. Puesto que los principios que rigen la superposición de dos componentes simples son los mismos que los que están detrás de la mezcla de cualquier número de componentes, conviene experimentar cómo son los fenómenos que se crean cuando interfieren entre sí las vibraciones de dos sonidos simples y analizar a qué se deben esos fenómenos. Después será sencillo entender las especiales relaciones de conmensurabilidad que se establecen entre las frecuencias de un número cualquiera de componentes simples cuando se superponen unos con otros para formar un sonido armónico.
Así pues, en este capítulo vamos a comprobar que los fenómenos acústicos que se crean en las diferentes tipos de mezclas de sonidos simples son el resultado bien de la diferencia aritmética entre las frecuencias de los sonidos que se superponen o bien de la razón numérica que hay entre esas frecuencias, y que estos fenómenos están condicionados por la anchura de la banda crítica correspondiente a sus respectivas frecuencias. Además, vamos a atender a los fundamentos acústicos de las consonancias musicales, es decir, a los fenómenos que se producen cuando se mezclan dos sonidos simples cuyas frecuencias mantienen unas especiales relaciones de conmensurabilidad.
Por otra parte, al estudiar todos estos fenómenos, vamos a entender el mecanismo acústico que permite la afinación de los instrumentos musicales. Comprenderemos cómo, a lo largo de la historia, de manera natural y sin recurrir a ninguna herramienta externa, ha sido posible afinar con precisión los instrumentos y, a partir de esas afinaciones, han sido establecidas las diferentes escalas musicales. En efecto, podremos experimentar que las interferencias que se crean cuando se mezclan entre sí los sonidos permiten determinar de manera empírica las alturas tonales que dan lugar a los intervalos y a las escalas, y que eso se hace con tanta exactitud que muy ligeras variaciones son interpretadas por nuestra percepción como extrañas a esa escala o desafinadas.
Experimentaremos también los límites de nuestra capacidad para discernir individualmente sonidos simultáneos, comprobando que estos límites dependen de la anchura de la banda crítica correspondiente a cada zona frecuencial.
Y, por último, mediante la introducción de una distorsión artificial en la señal, comprobaremos los efectos que ésta puede ocasionar en la mezcla de sonidos simples, al dar lugar a la aparición de componentes espurios. Esta es la razón de que, para poder apreciar correctamente las características sonoras que se muestran en los vídeos, sea necesario que la distorsión del equipo de audio en el que los reproduzcamos sea pequeña, como he indicado en el capítulo introductorio.
A mi juicio, el modo más sencillo que tenemos hoy en día para estudiar los fenómenos acústicos y psicoacústicos que se crean al mezclarse los sonidos es observar como se comportan dos sonidos fabricados por ordenador. El hecho de utilizar sonidos artificiales nos garantiza su estabilidad y permite que sus parámetros estén perfectamente controlados. Mediante vídeos que simulan un osciloscopio creados a partir de Matlab, a lo largo de este capítulo vamos a escuchar cómo suenan las diferentes mezclas de interés musical de dos sonidos simples y observar la forma de la vibración de la señal resultante, atendiendo tanto a los fenómenos acústicos en sí mismos, como a la manera en la que nosotros los percibimos.

El Principio de Superposición Lineal de Ondas

Antes de analizar cada uno de los casos de interés musical que se producen cuando se mezclan dos sonidos simples, vamos a prestar atención brevemente al principio general que rige toda mezcla de sonidos. Puesto que el sonido es un movimiento vibratorio que se transmite en forma de ondas, cuando se mezclan dos sonidos en las situaciones habituales se cumple el Principio de Superposición Lineal de Ondas. El Principio de Superposición Lineal de Ondas dice que cuando en un tiempo dado coinciden en un punto dos o más ondas la alteración total que se produce en ese punto es igual a la suma de las alteraciones que cada onda individual habría producido. Es decir, cuando dos ondas interfieren, el comportamiento individual de cada una de ellas no se ve afectado por el de la otra.
Si pensamos en términos de señal de audio, podemos decir que la señal que resulta de la reunión de dos señales independientes es una nueva señal cuyas muestras son simplemente la suma de las muestras de cada una de ellas.
Hay que tener en cuenta que para que se cumpla el Principio de Superposición Lineal de Ondas es necesario que el medio por el que se transmite el sonido no altere la forma de la vibración, es decir, que no distorsione la señal de audio. Si esto no se cumple (por ejemplo, si el equipo reproductor de sonido presenta una distorsión significativa) surgirán componentes extraños no presentes en la señal original. Un ejemplo de los efectos de tales distorsiones son los llamados Tonos de Tartini, que no son componentes reales que pertenezcan a la vibración sonora en sí misma, sino el resultado de la pequeñísima distorsión que introduce nuestro propio oído.
A continuación vamos a estudiar una serie de fenómenos físicos, todos ellos de interés musical, que surgen al mezclarse dos sonidos simples. Todos estos fenómenos, así como la forma en la que nosotros los percibimos, dependen de tres factores: la distancia aritmética entre las frecuencias de los sonidos que se mezclan; la razón numérica que se establece entre sus frecuencias; y la región frecuencial a la que pertenecen. Generalizados a la mezcla de cualquier número de componentes, estos fenómenos y la forma en la que nosotros los percibimos constituyen el fundamento acústico sobre el que se ha construido nuestro Sistema Musical.

Mezcla de dos sonidos simples de la misma frecuencia: Unísono

Empecemos analizando lo que ocurre cuando se superponen en el mismo espacio y tiempo dos sonidos simples que tienen exactamente la misma frecuencia, es decir, que forman un unísono.
He confeccionado un vídeo que nos va a permitir observar que el resultado de la superposición de dos sonidos simples de igual frecuencia es siempre otro sonido simple de la misma frecuencia, cuya amplitud depende no solo de la de cada sonido, sino también del desfase que hay entre ellos.
En el vídeo se emiten cinco veces dos sonidos simultáneos que tienen la misma frecuencia, 220 Hz, un la3 en la afinación estándar. En cada emisión oímos el sonido resultante de la mezcla de ambos componentes.
Para reconocer con facilidad la forma de la señal de cada componente en el simulador del osciloscopio, he generado los sonidos con una ligera diferencia entre sus amplitudes. Si fueran exactamente iguales, las gráficas de ambas señales se superpondrían y no podríamos distinguirlos, particularmente en el momento en el que están en fase. La amplitud de la señal azul es 0,20 y la de la señal magenta 0,22.
En cada repetición los sonidos componentes se van desfasando entre sí: la primera vez que suenan tienen la misma fase inicial; luego la fase inicial del sonido representado por la señal azul se adelanta un poco, de modo que los dos sonidos quedan desfasados entre sí 45º; a continuación la señal azul se adelanta todavía más, siendo el desfase entre los componentes de 90º; luego el desfase es de 135º; y, finalmente, de 180º, es decir, ambos sonidos están en oposición de fase.

Figura 1. Vídeo con dos sonidos unísonos que van incrementando su desfase.

Podemos ver en el osciloscopio dos señales finas sinusoidales de amplitudes muy parecidas, una magenta y otra azul, que representan los sonidos simples componentes. Vemos también una señal más gruesa de color verde, que es la resultante de la mezcla y que corresponde al sonido que estamos escuchando en el vídeo.
En cada una de las cinco repeticiones percibimos un solo sonido simple. Comprobamos, así pues, que la mezcla de dos sonidos simples de la misma frecuencia produce un sonido simple que conserva el mismo periodo y, por lo tanto, la misma frecuencia que los componentes, en este caso 220 Hz. En efecto, en el osciloscopio vemos que la gráfica de la señal resultante, de color verde, es también una señal sinusoidal. Al escuchar como suenan podemos apreciar que la mezcla ha sido tan perfecta que los sonidos que la han compuesto han sido fundidos, de modo que oímos un solo sonido simple.
Veamos ahora en qué se diferencian las distintas repeticiones de esa nota. Enseguida nos damos cuenta de que el volumen sonoro que percibimos es diferente en cada caso. No voy a explicar ahora cómo se puede calcular la amplitud y la fase inicial del sonido resultante de la mezcla, pues no es relevante para nuestro objetivo; nos basta comprobar en el osciloscopio que la amplitud de la señal verde, la del sonido que oímos, disminuye conforme aumentan los desfases en las sucesivas emisiones. Como casos especiales podemos observar que cuando los dos sonidos están en fase —la primera emisión, desfase de 0º— , la amplitud del sonido resultante es la suma de las amplitudes de cada uno de los componentes (0,20 + 0,22 = 0,42), mientras que cuando ambas señales están en oposición de fase —la última emisión, desfase de 180º—, la amplitud de la señal resultante es la diferencia de las amplitudes de los componentes (0,22 – 0,20 = 0,02).
Para ver en detalle lo que sucede, la figura de abajo presenta una instantánea de la forma de la vibración en cada una de las cinco emisiones, de modo que cada gráfica corresponde a uno de los desfases que hemos visto en el vídeo.

Figura 2. Formas de la vibración de dos sonidos simples unísonos con diferentes desfases.
Figura 2. Formas de la vibración de dos sonidos simples unísonos con diferentes desfases.

Puesto que cada muestra de la señal resultante es, según el Principio de Superposición Lineal, la suma de las correspondientes muestras de las señales componentes, vemos que, conforme se van incrementando los desfases, la pérdida de sincronía da lugar a que la amplitud resultante vaya disminuyendo. En la gráfica de la quinta fila, en la que ambas señales están en oposición de fase, podemos apreciar que los valores de todas las muestras son prácticamente opuestos, de modo que resulta fácil deducir que si ambos componentes hubieran tenido la misma amplitud, el sonido resultante hubiera tenido una amplitud de 0, es decir, hubiera desaparecido por completo.
Así pues, en este vídeo hemos podido observar que el resultado de la mezcla de dos sonidos simples de igual frecuencia siempre es otro sonido simple de la misma frecuencia y que el cambio en la fase inicial sólo modifica la amplitud del sonido simple resultante y, por lo tanto, solo repercute en el volumen sonoro que apreciamos, sin que afecte a la cualidad sonora que percibimos.
Los cambios en el volumen sonoro derivados de los desfases entre dos sonidos unísonos explican algunos problemas que pueden surgir al realizar una grabación en un estudio. En el caso de que la misma fuente sonora sea recogida por dos micrófonos, pudiera suceder que algunos componentes llegaran a cada micrófono casi en oposición de fase, lo que podría dar lugar a que, al realizarse la mezcla, esos componentes quedaran significativamente atenuados. Si esto ocurre se puede percibir una especie de agujero acústico en el sonido grabado. Para evitar este problema las mesas de mezclas suelen llevar un dispositivo que permite invertir la fase de cada señal de entrada. En la audición directa este problema queda minimizado por el hecho de que disponemos de dos oídos y porque los sonidos habitualmente llegan hasta nosotros con múltiples desfases, debido a que, por regla general, provienen de diversos lugares, como consecuencia de las reflexiones en las paredes, techos y suelos.

Mezcla de dos sonidos simples de frecuencias muy próximas: Batidos de primer orden

Vamos a estudiar ahora lo que ocurre cuando se mezclan dos sonidos simples cuyas frecuencias están separadas entre sí por una pequeña distancia, menos de 15 Hz aproximadamente. El fenómeno acústico que se produce se denomina “batidos de primer orden” y ha sido empleado desde tiempos muy antiguos para la afinación de los instrumentos musicales y la determinación de las escalas.

Los batidos de primer orden

Para experimentar cómo son los batidos o pulsaciones, he fabricado un vídeo en el que se oyen sucesivamente seis sonidos, cada uno de los cuales es el resultado de la mezcla de dos componentes simples de frecuencias muy próximas. En cada nuevo sonido las frecuencias de los dos componentes están cada vez más cercanas.

Figura 3. Vídeo con diferentes casos de batidos de primer orden.

En el osciloscopio se representan dos señales finas, que pertenecen a cada uno de los dos componentes que se mezclan y una señal más gruesa, que es la del sonido resultante de la mezcla y que es el que oímos. La señal de color magenta es la del componente más grave y la de color azul es la del componente más agudo, mientras que la de color verde pertenece al sonido resultante. Para poder distinguir bien cada uno de los dos componentes y para que la profundidad del batido no sea excesiva, he elegido amplitudes diferentes para cada componente: la amplitud del primero es 0,2 y la del segundo es 0,1.
En cada uno de los seis sonidos que escuchamos, la frecuencia del primer componente es de 220 Hz (un la3 en la afinación estándar) mientras que la del segundo va cambiando, de modo que la diferencia entre los dos componentes es cada vez más pequeña, hasta llegar a coincidir en el último sonido: en el primer sonido la frecuencia del componente agudo es de 228 Hz, por lo que la diferencia respecto al componente grave es de 8 Hz; en el segundo, el componente agudo tiene una frecuencia de 224 Hz, de modo que tiene una diferencia de 4 Hz respecto al grave; en el tercero, la frecuencia del componente agudo es de 222 Hz, por lo que están a 2 Hz de distancia del grave; en el cuarto caso la frecuencia del agudo es de 221 Hz, estando sólo a 1 Hz del primer componente; en el quinto sonido la frecuencia del agudo es de 220,5 Hz, por lo que solo están separados 0,5 Hz; y, finalmente, en el último caso, los dos componentes tienen la frecuencia de 220 Hz, de modo que suenan al unísono.
A excepción del último sonido, en todos los casos oímos una especie de sonido tremolado, es decir, unos batidos o pulsaciones que se repiten de manera periódica y que coinciden con la oscilación de la amplitud de la señal verde que vemos en el osciloscopio. Si prestamos atención al vídeo comprobamos que el número de batidos por segundo que oímos (es decir, la frecuencia de los batidos) coincide con la diferencia que hay entre la frecuencia de los dos componentes que han intervenido en la mezcla. En efecto, en el primer caso oímos 8 batidos por segundo; en el segundo 4; en el tercero 2; en el cuarto 1; en el quinto 1 batido cada dos segundos (es decir, 0,5 cada segundo); y en el último los batidos desaparecen y los dos componentes se quedan fundidos plenamente en un solo sonido estable y continuo.
Ahora bien, si detenemos el vídeo en cualquier momento, con independencia de que haya o no batidos, observaremos que en todos los casos la vibración sigue teniendo una forma sinusoidal. Esto explica que en todos esos sonidos, incluso cuando están formados por dos componentes de diferente frecuencia, oímos un solo sonido simple, con una altura tonal bien definida.
En resumen, cuando se producen los batidos de primer orden la amplitud del sonido oscila periódicamente, pero su frecuencia permanece estable durante toda su duración.
Si tenemos un oído muy fino podremos apreciar que la altura tonal desciende ligerísimamente de un sonido a otro, conforme se van aproximando más las frecuencias de los dos sonidos componentes. La frecuencia del sonido resultante depende de la frecuencia y la amplitud de los componentes que lo forman. Si la amplitud de ambos componentes hubiera sido la misma, la frecuencia resultante de la mezcla hubiera sido la media aritmética de las frecuencias de los dos componentes; pero como en todos los casos de este vídeo el componente más grave tiene mayor amplitud, la frecuencia resultante se aproxima más a la de este componente. Por ello la frecuencia de los seis sonidos que oímos desciende ligeramente de un caso a otro: desde 222 Hz en el primero, hasta 220 Hz en el último cuando desaparecen los batidos y ambos componentes suenan al unísono.

Causas de los batidos de primer orden

Para ver en detalle a qué se debe este fenómeno, vamos a centrar nuestra atención en las señales del primer caso del vídeo, cuando las frecuencias de los dos componentes están a una distancia de 8 Hz. Veamos una gráfica que corresponde a 2 décimas de segundo de este primer sonido, en concreto, las que están entre los segundos 1 y 1,2. En esta gráfica las señales están más comprimidas que en la ventana del osciloscopio, donde se representan sólo 50 milésimas de segundo, con lo que ahora podremos apreciar la forma de los batidos.

Figura 4. Detalle de un batido de primer orden.
Figura 4. Detalle de un batido de primer orden.

La gráfica representa algo más de un batido y medio. En ella podemos ver que la ligera diferencia entre las frecuencias de los dos componentes provoca unos desfases que van cambiando durante toda la emisión del sonido. Así, vemos que la señal azul y la señal magenta (que, recordemos, corresponden respectivamente al componente de 220 Hz y al de 228 Hz) pasan alternativamente por momentos en los que están en fase y por momentos en los que están en oposición de fase. En el primer caso la señal resultante tiene la máxima amplitud y en el segundo, la mínima.
Por ejemplo, podemos observar que en torno a los segundos 1,07 y 1,20 las señales magenta y azul coinciden en sus fases, con lo que en ese momento, al sumarse la amplitud de ambos componentes, la señal verde adquiere su máxima amplitud (0,2 + 0,1 = 0,3). Por el contrario, en torno a los segundos 1,00 y 1,13 ambas señales se encuentran en oposición de fase, por lo que en ese momento la amplitud resultante es la diferencia entre la amplitud de ambos componentes, teniendo su valor más bajo (0,3 – 0,2 = 0,1). La profundidad del batido es la diferencia entre la amplitud máxima y mínima de la señal resultante, por lo que en este caso es de 0,2 (como en el resto de los sonidos del vídeo en los que hay batidos).
La variación en los desfases entre los componentes es la causa de que la amplitud de la señal resultante vaya modificándose a lo largo del tiempo, oscilando también de una forma sinusoidal. Ese cambio periódico de la amplitud es lo que origina los batidos que escuchamos. El ritmo de los batidos o pulsaciones es la diferencia aritmética entre las frecuencias de los componentes.
Para entenderlo mejor podemos imaginarnos la señal de cada componente simple como si fuera el resultado de un movimiento circular uniforme, similar al del panel de la izquierda del vídeo de la figura 2 del capítulo 4. En un segundo el componente de color magenta dará 220 vueltas, mientras que el componente de color azul dará 228 vueltas. Por lo tanto, como si se tratara de una carrera de coches, en un segundo el componente magenta habrá “doblado” 8 veces al componente azul. Y cada vez que lo “doble” sus fases volverán a sincronizarse, de modo que en la vuelta de después de la sincronización, en la que ambos componentes irán casi a la vez, se producirá la máxima amplitud del sonido resultante; por el contrario, como consecuencia de los desfases, cuando ambos componentes estén en oposición, el sonido resultante alcanzará su amplitud mínima.
En resumen, cuando se mezclan dos sonidos de frecuencias muy próximas, el resultado es un solo sonido simple, cuya frecuencia se encuentra entre la de los dos componentes y cuya amplitud oscila de forma sinusoidal tantas veces por segundo como la diferencia que hay entre la frecuencia de los dos componentes, dando lugar a los batidos de primer orden.
Hay que tener en cuenta que para que se perciban los batidos la diferencia entre las frecuencias de los componentes debe ser inferior a 15 Hz, aproximadamente, pues nuestro sistema perceptivo no tiene capacidad para distinguir con nitidez cambios más rápidos en la variación de los parámetros sonoros.

Batidos y afinación

Cualquier músico que tiene que afinar su instrumento está habituado a “poner el oído”, es decir, a prestar atención y escuchar las pequeñas oscilaciones en el volumen sonoro que se producen cuando las frecuencias de dos sonidos distintos que se emiten simultáneamente están muy próximas, pero no son idénticas. En efecto, como el fenómeno de los batidos se produce de manera natural siempre que se mezclan sonidos de frecuencias muy próximas, su observación ha sido el método habitualmente utilizado para afinar los instrumentos musicales: si se conoce la frecuencia de un sonido que se utiliza de referencia, este método permite la determinación precisa de la frecuencia de otro.
El vídeo de la figura 3 nos sirve para entender cómo se utilizan los batidos para la afinación. Por ejemplo, para afinar la cuerda de una guitarra, tomando como referencia la nota ya afinada de una cuerda inferior, empezaremos tensándola de manera aproximada para acercarla al sonido de referencia y, una vez en ese rango, iremos ajustando su tensión hasta que los batidos desaparezcan por completo. En el vídeo vemos que, conforme las frecuencias de los componentes están más próximas, el ritmo de los batidos va disminuyendo, hasta desaparecer cuando los sonidos están completamente afinados.
Incluso cuando no se busca una coincidencia exacta, el número de batidos que se produce cada cierto tiempo proporciona al músico una medida precisa de la diferencia entre las frecuencias de los dos sonidos. El número de batidos que se produce por segundo (es decir, la frecuencia de los batidos) es un medio para determinar con precisión el grado de desafinación.
Este procedimiento no sólo es válido para afinar notas unísonas, sino también para determinar la afinación de las principales consonancias musicales y, a partir de ahí, la escala entera. Aunque en este capítulo estamos estudiando el modelo de dos sonidos simples cuyas frecuencias se superponen en un momento dado, tenemos que tener presente que la mayoría de los sonidos que emiten los instrumentos musicales no son simples, sino que están formados por muchos componentes armónicos, como se estudia en el capítulo 7. Por ello, en la afinación natural la frecuencia de algún importante componente armónico de una nota coincidirá exactamente con la frecuencia de otro armónico de la otra nota. En la afinación temperada, donde ya no se produce esa coincidencia exacta, el número de batidos permite bajar con precisión las quintas, exactamente en la pequeña cantidad requerida. Éste es el método habitualmente utilizado por los afinadores de pianos.

Mezclas de dos sonidos simples en función de la distancia entre sus frecuencias y de la anchura de su banda crítica

Debido a las características de nuestro sistema auditivo, cuando se mezclan dos sonidos simples de diferente frecuencia es necesario que entre ellos exista suficiente distancia frecuencial para que podamos percibirlos individualmente. Esta separación mínima, a la que llamamos “anchura de la banda crítica”, no es igual en todas las regiones frecuenciales, pues la capacidad de resolución de nuestra percepción auditiva depende de la zona frecuencial en la que están situados los sonidos que se mezclan.
En efecto, según la separación entre las frecuencias de dos sonidos simples emitidos simultáneamente, se pueden producir cuatro situaciones diferentes:
a) Cuando la diferencia es menor de unos 15 Hz oímos un solo sonido tremolado, los batidos de primer orden que acabamos de ver.
b) A partir de 15 Hz, aproximadamente, de distancia entre ellos, dejamos de oír un solo sonido tremolado y empezamos a escuchar una especie de zumbido áspero, sin que todavía seamos capaces de distinguir dos alturas tonales diferenciadas.
c) Cuando la separación está cerca de la anchura de la banda crítica correspondiente a la zona frecuencial en la que se hallan los dos componentes que se mezclan, comenzamos a distinguir ya dos sonidos, pero la cualidad sonora de la mezcla sigue siendo áspera y rugosa.
d) Conforme aumenta la distancia entre las frecuencias de los dos componentes, la cualidad sonora se va haciendo cada vez menos rugosa, hasta que, una vez superada holgadamente la anchura de su banda crítica, llega un momento en el que percibimos con nitidez los dos sonidos.
Para experimentar esto, he fabricado, a partir de fotogramas construidos mediante Matlab, un vídeo con cuatro sonidos en los que se mezclan dos componentes simples de la misma amplitud. Las frecuencias de los dos componentes se van distanciando progresivamente: en todos los casos la frecuencia del componente grave es 220 Hz, un la3 temperado; en el primer sonido, la frecuencia del componente agudo es 233,1 Hz, que corresponde al sib3 de la escala temperada habitual, de modo que la distancia frecuencial respecto al componente grave es de 13,1 Hz; en el segundo sonido, la frecuencia del componente agudo es 246,9 Hz, el si3 de la escala temperada, con lo que la distancia respecto al grave es de 26,9 Hz; en el tercer sonido, la frecuencia del componente agudo es 261,6 Hz, el do4 de la escala temperada, con lo que la distancia respecto al grave es de 41,6 Hz; y en el cuarto sonido la frecuencia del componente agudo es 311,1 Hz, el mib4 de la escala temperada, de modo que la diferencia con el componente grave es de 91,1 Hz.

Figura 5. Vídeo que muestra la importancia de la banda crítica en la percepción individual de dos sonidos próximos.

En el primer sonido, donde los componentes están separados 13,1 Hz, oímos una nota simple tremolada, con unos batidos muy rápidos y muy profundos, similares a los que hemos oído en los primeros casos del vídeo de la figura 3. En efecto, como la distancia frecuencial es menor de 15 Hz, estamos ante un caso de una mezcla en la que se percibe un solo sonido, pero en la que se producen batidos de primer orden, como hemos visto en el apartado anterior. Lo he incluido aquí para que podamos comparar su sonido con el de los siguientes casos. La altura tonal que percibimos corresponde a una nota situada entre el la3 y el sib3, pues, al ser igual la amplitud de ambos componentes, la frecuencia del sonido resultante es la media aritmética entre ellos, es decir, 226,6 Hz.
En el segundo sonido, cuando la distancia entre las frecuencias de los dos componentes es de 26,9 Hz, no oímos ya ninguna nota musical, ni una sola nota tremolada, ni tampoco las dos notas por separado, sino un sonido áspero y rugoso, como un zumbido. Ello se debe a que, cuando la diferencia aritmética entre las frecuencias de los dos componentes supera los 15 Hz aproximadamente, la frecuencia de los batidos es tan rápida que nuestro sistema auditivo es incapaz de seguirlos. Por eso ya no podemos distinguir un solo sonido simple tremolado, sino que oímos un sonido sucio y rugoso, un zumbido borroso en el que no oímos en absoluto los componentes individuales de la mezcla.
En el tercer sonido, en el que la distancia entre las frecuencias es de 41,6 Hz, podemos apreciar ya las dos notas por separado, el la3 y el do4, aunque la cualidad de la mezcla que oímos sea sucia y borrosa.
En el cuarto sonido, sin embargo, cuando la distancia entre las frecuencias es de 91,1 Hz, distinguimos con nitidez dos notas individuales, el la3 y el mib4, y el carácter rugoso de la mezcla anterior ha desaparecido, siendo sustituido por una sonoridad mucho más clara y eufónica.
Estos fenómenos son de orden psicoacústico, es decir, se deben a las peculiaridades de nuestro sistema auditivo, en concreto, a la fisiología de nuestro oído interno. Como consecuencia de ello, para poder distinguir dos sonidos simples simultáneos es necesario que la separación entre ellos supere una distancia mínima. La anchura de la banda crítica varía en función de la zona frecuencial de los sonidos que se superponen, incrementándose conforme los sonidos son más agudos. En los casos del vídeo la anchura de la banda crítica está en torno a los 40 Hz. Ello explica que no hayamos sido capaces de distinguir en el vídeo los componentes simples cuando la distancia entre sus frecuencias era inferior a esta cantidad y, sin embargo, en el último caso, cuando la separación excede en mucho a la anchura de la banda crítica de esta región frecuencial los oímos con claridad.
Es oportuno aclarar que, si en lugar de sonidos simples, se hubieran superpuesto notas normales —es decir, compuestas por varios armónicos—, hubiéramos podido distinguirlas con facilidad, pues la distancia entre sus armónicos superiores hubiera excedido la anchura de su banda crítica correspondiente.

Mezcla de dos sonidos simples cuyas frecuencias están en relación de conmensurabilidad próxima: Consonancias

Cuando las distancias entre las frecuencias de dos sonidos simples que se superponen sobrepasan holgadamente la anchura de la banda crítica, de modo que ya no percibimos zumbidos o rugosidades, hay ocasiones en las que se produce una mezcla tan bien amalgamada que los dos sonidos casi parecen fundirse en uno. Esta mezcla recibe el nombre de consonancia.
Antes de continuar, conviene hacer una aclaración. El concepto de consonancia que vamos a estudiar en estos capítulos no hace referencia al carácter más o menos eufónico que resulta de la mezcla de los sonidos, sino al especial acoplamiento físico entre las vibraciones sonoras que se produce cuando sus frecuencias son cercanamente conmensurables. Por ejemplo, el acorde de séptima disminuida puede perfectamente ser considerado hoy en día eufónico, pero nunca será una combinación consonante.
Si bien las consonancias entre los sonidos reales de la música, cada uno de ellos formado habitualmente por muchos componentes armónicos, se estudiarán más adelante (en el capítulo dedicado al modo en el que reconocemos el sonido musical), primero es conveniente entender en qué consiste la consonancia entre sonidos simples. Así pues, a continuación vamos comprobar, mediante nuestra experiencia auditiva directa, que cuando se superponen dos sonidos simples cuyas frecuencias mantienen entre sí una relación de conmensurabilidad próxima se produce una consonancia.

Conmensurabilidad próxima

Empecemos puntualizando qué es la conmensurabilidad próxima. Dos cantidades son conmensurables cuando tienen una medida común, es decir, cuando la relación entre ellas puede ser expresada mediante un número racional o, lo que es lo mismo, mediante el cociente de dos números enteros. Por ejemplo, 11/7 ó 23/12.
Ahora bien, en física, astronomía, otras ciencias en general y en la música en particular, hay circunstancias en las que es relevante que esa razón sea sencilla. Podemos considerar que una razón es sencilla cuando, expresada como fracción irreducible, sus términos están comprendidos entre los primeros números enteros positivos. Diremos en ese caso que su conmensurabilidad es próxima. Así pues, dos números están en razón de conmensurabilidad próxima cuando los términos de la fracción irreductible que los relaciona son alguno de los primeros números enteros positivos. Conforme menores sean los términos de la fracción irreducible, más sencilla será la razón y más próxima la conmensurabilidad. En este sentido, 2/1 es una razón más sencilla que 3/2, y ésta más sencilla que 4/3.
En lo que concierne a la música, esta sencillez tiene que ver con los límites de nuestro sistema auditivo. La proximidad de los términos de la razón entre las frecuencias de dos sonidos simples va a permitir que nuestro oído perciba su superposición como una buena mezcla y los reconozca como consonantes: cuando las dos frecuencias que se superponen son cercanamente conmensurables, las vibraciones de los sonidos coinciden de modo periódico cada pocos ciclos, lo que hace que el patrón de repetición de las coincidencias sea lo suficientemente sencillo como para que nuestro sistema perceptivo sea capaz de seguirlo. De ese modo podemos oír la mezcla como un sonido perfectamente amalgamado.
Cuando las frecuencias de los dos sonidos componentes están en una relación doble, 2/1, sucede que mientras una vibración completa un ciclo entero, la otra completa exactamente dos; cuando están en una relación sesquiáltera, 3/2, ocurre que mientras una vibración realiza dos ciclos, la otra hace exactamente tres. Por eso conforme más próxima es la conmensurabilidad, más unitaria resulta la mezcla de las vibraciones de los dos sonidos simples, hasta el punto de que en la octava, 2/1, la más perfecta de las consonancias, prácticamente oímos un solo sonido.
Así pues, la consonancia, más que un hecho físico externo, viene dada por la capacidad de nuestro oído para reconocer un sonido unitario cuando se combinan dos vibraciones cuya periodicidad coincide cada pocos ciclos. Por eso, conforme la conmensurabilidad se aleja, percibimos un sonido cada vez más complejo: cada vez oímos menos el resultado de la mezcla y los componentes individuales van adquiriendo más presencia.
La cuestión sería precisar hasta dónde podemos considerar que una razón expresa una conmensurabilidad próxima. La teoría musical creada por los antiguos, que realizaba los cálculos atendiendo a la longitud de la cuerda y no al valor de la frecuencia, consideraba que sólo los intervalos formados por razones cuyos términos estaban comprendidos entre los cuatro primeros números enteros eran consonantes. De acuerdo a este criterio, dentro del rango de la octava, serían consonantes las mezclas de sonidos que están en razón doble (2/1), es decir, que están a distancia interválica de una octava; en razón sesquiáltera (3/2), los que están a distancia de un intervalo de quinta; o en razón sesquitercia (4/3), en un intervalo de cuarta. No en vano estos intervalos son los que han estructurado las escalas musicales de Occidente.
Desde el punto de vista de nuestra percepción musical, la relación 5/4 podría incluirse también entre las razones simples, pero lo cierto es que el intervalo de tercera mayor (al que, en principio, correspondería en nuestras escalas) queda ya bastante alejado de esta razón: el intervalo de 5/4 está 14 cents por debajo de la tercera mayor temperada y 22 cents por debajo del dítono que surge en la afinación por quintas justas de 3/2.

Consonancias entre sonidos simples

Una vez entendido qué es la conmensurabilidad próxima en acústica y por qué da lugar a las mezclas consonantes, vamos ahora a experimentar cómo son las señales de audio de las mezclas de dos sonidos simples cuyas frecuencias, expresadas como fracción irreducible, son uno de los cuatro primeros números enteros positivos. Siguiendo el procedimiento habitual, he fabricado varios vídeos mediante los cuales podremos comprobar que en esos casos nuestro oído reconoce con claridad la buena mezcla, lo que llamamos la consonancia.
En el vídeo de la figura 6 podemos escuchar las consonancias que se pueden establecer entre los cuatro primeros números enteros positivos: la consonancia de octava, la de doble octava, la de octava y quinta, la de quinta y la de cuarta.
En todos los ejemplos del vídeo la frecuencia del componente grave es 220 Hz (la3). En el primer caso la frecuencia del componente agudo es 440 Hz (la4), por lo que ambos sonidos mantienen la razón 2/1, que es la que define el intervalo de octava. En el segundo, el componente agudo tiene una frecuencia de 660 Hz (mi5 natural), por lo que los dos componentes están entre sí en razón 3/1, la que define el intervalo de octava y quinta natural. En el tercero, el sonido agudo es de 880 Hz (la5) y la razón respecto al componente grave es 4/1, por lo que entre ambos forman un intervalo de doble octava. En el cuarto, el componente agudo es de 330 Hz (mi4 natural) y forma respecto al grave una razón de 3/2, que corresponde al intervalo de quinta natural. En el quinto caso, la frecuencia del sonido agudo es 293,3 Hz (re4 natural) y su razón respecto al grave es 4/3, con el que forman un intervalo de cuarta natural. Para que se distingan mejor los dos componentes, la amplitud de cada uno de ellos es diferente: la del componente grave es 0,2 y la del agudo 0,1.

Figura 6. Vídeo con las consonancias definidas por los cuatro primeros números enteros.

Si ponemos un poco de atención, en todos estos ejemplos, además del sonido resultante de la mezcla, también podemos oír cada uno de los dos componentes por separado. Solamente en el primer caso, cuando las frecuencias están en razón 2/1, predomina la tendencia a percibir un solo sonido, en lugar de dos sonidos simultáneos distintos que se mezclan bien. Pero incluso ahí, si orientamos un poco nuestra escucha para hacerla más analítica, podemos apreciar las dos notas individuales.
Para entender por qué percibimos en todos los casos la superposición de los dos sonidos componentes como una mezcla consonante, vamos a fijarnos en la forma de la vibración de cada uno de los ejemplos que vemos en el osciloscopio del vídeo. Para poder comparar unas formas con otras, la figura 7 representa un fragmento de la señal de audio de cada uno de los ejemplos del vídeo.

Figura 7. Formas de la vibración de las consonancias entre los cuatro primeros números enteros.
Figura 7. Formas de la vibración de las consonancias entre los cuatro primeros números enteros.

En los tres primeros casos podemos observar que cada vez que el componente grave, el de color magenta (el sonido de 220 Hz, que es común a todos ellos) realiza un ciclo completo, el componente agudo, el de color azul, completa exactamente un número entero de ciclos: dos ciclos en el caso de la octava (de ahí la razón 2/1); tres en el caso de la octava y quinta natural (de ahí la razón 3/1); y cuatro en el caso de la doble octava (de ahí la razón 4/1). Ello hace que en todos estos casos el sonido resultante de la mezcla tenga el mismo periodo que el del componente más grave, como podemos comprobar en las gráficas.
En la cuarta gráfica, en el caso de la quinta natural, vemos que cada dos ciclos del componente grave, el componente agudo completa exactamente tres (de ahí la razón 3/2). Por ello, el periodo del sonido resultante es el doble que el del componente más grave o, lo que es lo mismo, el triple del periodo del componente más agudo.
En la última gráfica, en el caso de la cuarta natural, observamos que cada tres ciclos del componente grave, el componente agudo completa exactamente cuatro (de ahí la razón 4/3). De esta forma, el periodo del sonido resultante es el triple del periodo del componente más grave y el cuádruple del más agudo.
Así pues, en este vídeo y en las gráficas correspondientes, hemos podemos observar que la conmensurabilidad es la causa de la aparición de una periodicidad en la mezcla resultante.
Podría parecer que esta periodicidad debería haber dado lugar a la percepción de la altura tonal correspondiente a la mezcla. Si esto hubiera sido así, en el cuarto caso, por ejemplo, deberíamos haber oído la nota la2, que correspondería al periodo de la mezcla resultante, en lugar de las notas individuales la3 y mi4 bien amalgamadas y formando la consonancia de quinta. Sin embargo, esto no ocurre así, salvo que el equipo de música en el que estemos oyendo los ejemplos distorsione y provoque la aparición de componentes espurios, como veremos un poco más adelante. La explicación de ello reside en que nuestra percepción es frecuencial, de modo que, como estudiaremos en el capítulo correspondiente, oímos dos notas y no una sola nota más grave correspondiente a la señal resultante.

De la consonancia a la disonancia

Pero, debido a los márgenes de nuestra percepción, las fronteras entre lo que nos suena consonante y lo que nos parece disonante son algo difusas.
Para observar donde acaba la consonancia y donde empieza la disonancia, he fabricado un vídeo con varios casos en los que se mezclan dos sonidos simples cuya distancia interválica está en torno a la quinta: la quinta natural o quinta justa (la que propiamente está en razón 3/2), la quinta temperada, la quinta disminuida y una quinta desafinada. He elegido el ámbito interválico de la quinta por dos razones: primero porque la quinta justa es la consonancia en la que se pueden distinguir con más facilidad los dos componentes; y, segundo, porque en nuestro sistema musical también se encuentran la quinta temperada y la quinta disminuida, por lo que estamos familiarizados con ellas y podemos compararlas. He añadido la quinta desafinada para permitir apreciar la diferencia.
En todos los ejemplos la frecuencia de la nota grave es 220 Hz (la3). En el primer caso la frecuencia de la nota aguda es 330 Hz (mi4 natural), por lo que están exactamente en razón 3/2 y forman el intervalo de quinta natural o justa. En el segundo caso la frecuencia de la nota aguda es de 329,6 (mi4 temperado) por lo que forman un intervalo de quinta temperada (700 cent) con la nota grave (la quinta temperada está solamente 2 cent por debajo de la quinta justa). En el tercer caso la frecuencia de la nota aguda es 325,8 Hz (mi4 desafinado) y forman un intervalo de quinta que está 20 cent por debajo del que formaría con el mi4 temperado. Y en el cuarto caso la frecuencia de la nota aguda es 311,1 Hz (mib4) y forma un intervalo de quinta disminuida (600 cent) con la nota grave. Para permitir que se distingan la amplitud del componente grave es 0,2 y la del agudo 0,1.

Figura 8. Vídeo que ilustra el paso de la consonancia a la disonancia.

En todos los casos oímos los dos sonidos de forma independiente, pues la distancia entre ellos excede con mucho la anchura de la banda crítica de esa zona frecuencial, que está en torno a los 55 Hz, lo cual, como hemos visto en los apartados anteriores, es una condición necesaria para que podamos reconocer con claridad ambos sonidos. Analicemos con un poco de detenimiento lo que ocurre en cada caso.
a) En el primer caso, cuando las frecuencias de los componentes están exactamente en razón 3/2 y forman la consonancia de quinta natural, oímos una mezcla muy bien amalgamada y observamos en el osciloscopio que la forma de la vibración resultante permanece totalmente estable. En efecto, el máximo común divisor de las frecuencias de los dos componentes (220 y 330) es 110. Esto quiere decir que la forma de la vibración de la mezcla resultante se repite 110 veces por segundo y que, por lo tanto, su periodo es 1/110 s, o sea, redondeando, 9 milésimas de segundo. Así pues, cada 9 ms aproximadamente ambos componentes se sincronizan: el sonido grave completa 2 ciclos mientras que el sonido agudo completa 3, como podemos comprobar en el osciloscopio si detenemos el vídeo. Este periodo de 9 ms está dentro del rango temporal en el que nuestro sistema auditivo es capaz de detectar periodicidades en la forma de la vibración. Por eso, aunque seguimos oyendo los dos componentes por separado, percibimos que se combinan muy bien, por lo que obtenemos una clara sensación de buena mezcla, una mezcla sin perturbaciones que no varía a lo largo del tiempo.
b) En el segundo caso, en el que se mezclan dos sonidos que están en intervalo de quinta temperada, la razón entre sus frecuencias, redondeadas a décimas de hercio, es 3296/2200. Esta razón expresada como fracción irreducible es 412/275, la cual no es para nada una razón sencilla, por lo que las frecuencias de los componentes están muy lejos de mantener una relación de conmensurabilidad próxima. Sin embargo, la diferencia entre la frecuencia del componente agudo (329,6 Hz) y la del componente agudo del caso de la consonancia de quinta natural (330 Hz) es solamente de cuatro décimas de hercio. En efecto, bastaría con subir 0,4 Hz la frecuencia de la nota aguda para obtener la razón simple 3/2. Por ello también ahora oímos un intervalo de quinta cuyas notas se mezclan bien, lo que coincide con la cuasi-periodicidad que observamos en la señal verde del vídeo. Ahora bien, la mezcla que oímos ya no es totalmente estable como en el caso anterior, sino que, si prestamos atención, podremos oír que va acompañada de una lenta y periódica evolución de la cualidad sonora, lo cual también se refleja en la cíclica evolución de la forma de la señal resultante que observamos en el osciloscopio, una forma que parece estirarse y encogerse como si se tratara de una goma elástica. En el siguiente apartado, en el que se estudian los batidos de segundo orden, se explica a qué se debe este fenómeno.
c) En el tercer caso, en la superposición de dos sonidos que forman un intervalo de quinta desafinada (20 cent menos que la quinta temperada), vemos que la razón entre sus frecuencias es 3258/2200, que expresada como fracción irreducible es 1629/1100, la cual está muy alejada de ser una razón simple y, por lo tanto, de mantener una conmensurabilidad próxima. El sonido agudo, el de 325,8 Hz, es 4,2 Hz más grave que el sonido agudo de la mezcla consonante justa, que tiene 330 Hz. Es decir, le faltan 4,2 Hz para mantener, respecto al sonido grave, la razón simple más cercana, en este caso la razón 3/2. Y esta diferencia es ya significativa. Por ello ahora percibimos que esta mezcla nos produce una sensación de inestabilidad. El ritmo de las modificaciones de la cualidad sonora es ya tan rápido que dificulta la buena amalgama de los dos componentes y percibimos ahora claramente los batidos de segundo orden. Podemos apreciar también esa inestabilidad en el osciloscopio del vídeo, donde la señal resultante modifica constantemente su forma.
d) En el cuarto caso, en el que se superponen dos sonidos que están en un intervalo de quinta disminuida, oímos una disonancia. Percibimos con claridad cada uno de los sonidos componentes, pero ahora ya no tenemos la sensación de que se amalgamen el uno con el otro. Así mismo vemos en el osciloscopio que la forma de la vibración cambia constantemente. Si atendemos a sus frecuencias (220 Hz y 311,1 Hz), vemos que la razón entre ellas es 3111/2200, que es ya una fracción irreducible, por lo que su conmensurabilidad es muy alejada: el sonido grave tendría que completar 2200 ciclos y el agudo 3111 para que sus fases volvieran a sincronizarse y se repitiera de nuevo la forma de la vibración. El periodo de la señal resultante sería, por lo tanto, de 10 segundos, lo que, a efectos de nuestra percepción, es equivalente a decir que no hay ningún periodo. Con la finalidad de expresar este intervalo como una razón más simple, podríamos bajar la afinación del sonido agudo 1,1 Hz y atribuirle una frecuencia de 310 Hz. En ese caso la razón simple entre las frecuencias expresada como fracción irreducible sería 31/22, por lo que cada 22 ciclos del sonido grave, el sonido agudo completaría 31. Pero, incluso en este caso, la conmensurabilidad seguiría siendo muy alejada —el periodo de la señal resultante sería ahora un segundo— por lo que percibiríamos esa mezcla también como una disonancia.
En resumen, en el intervalo de quinta natural oímos una mezcla perfecta y totalmente estable; en el de quinta temperada el ritmo con el que se producen las alteraciones de la cualidad sonora es tan lento que no apreciamos ninguna inestabilidad, por lo que la sensación de mezcla es casi perfecta, e incluso notamos que esa pequeña inexactitud dulcifica y da calor al sonido resultante; en el intervalo de quinta desafinada la mezcla está perturbada por un cierta inestabilidad provocada por unas rápidas y periódicas alteraciones de la cualidad sonora; y en el intervalo de quinta disminuida no tenemos para nada la sensación de que los componentes se hayan mezclado entre sí.
Mediante este vídeo hemos podido experimentar que, si bien solo percibimos exactamente como una buena mezcla la superposición de dos sonidos simples cuyas frecuencias están en conmensurabilidad próxima, nuestra percepción auditiva permite ciertos márgenes de tolerancia dentro de los cuales se encuentran los ajustes propios de las escalas temperadas. Hemos comprobado que, más allá de esos márgenes, cuando no se produce una razón matemática simple entre las frecuencias de los componentes, los periodos de ambas vibraciones solo se sincronizan tras un periodo de tiempo demasiado largo como para que nuestro oído sea capaz de reconocerlo, por lo que no oímos una buena mezcla, sino dos sonidos independientes que van cada uno por su lado y su combinación nos resulta disonante.
Así pues, hemos podido experimentar que la consonancia entre sonidos simples se debe al reconocimiento de una periodicidad en la vibración resultante. Esta periodicidad no da lugar a la desaparición de los sonidos individuales en la mezcla resultante, pues nuestra audición es principalmente frecuencial, pero en el caso de los sonidos simples es la única razón que explica que percibamos la especial buena mezcla a la que llamamos consonancia.

Grados de consonancia según la conmensurabilidad

Nuestra percepción auditiva no es igual para todas las consonancias, sino que el grado de perfección de la consonancia disminuye conforme la conmensurabilidad entre las frecuencias de los dos sonidos simples que se mezclan se hace más lejana. Para experimentar este fenómeno he confeccionado un vídeo con cinco ejemplos en los que se mezclan dos componentes simples, dentro del rango de una octava. En todos los casos sus frecuencias están en una razón simple próxima y, por lo tanto, forman una consonancia, pero su conmensurabilidad se va alejando, desde el unísono (1/1) hasta la consonancia de tercera mayor natural (5/4).
En todos los ejemplos la frecuencia del componente grave es 440 Hz, un la4 en la afinación habitual. La frecuencia del componente agudo va cambiando: en el primer caso es también 440 Hz, por lo que ambas notas forman un unísono (1/1); en el segundo, es 880 Hz, un la5, por lo que forman una octava (2/1); en el tercero es 660 Hz, un mi5, formando un intervalo de quinta natural (3/2); en el cuarto caso, redondeando a décimas de hercio, es 586,7 Hz, un re5, por lo que forman un intervalo de cuarta natural (4/3); y en el quinto caso la frecuencia aguda es 550 Hz, un do#5, formando una tercera mayor natural (5/4). En este vídeo he elegido como nota grave la4, una nota que está en una octava más aguda que la de los vídeos anteriores, para evitar que en la consonancia de tercera mayor las frecuencias de los dos sonidos se aproximaran a la anchura de la banda crítica y se generara alguna rugosidad en la mezcla resultante. Como referencia para nuestro oído, a fin de facilitar la escucha individualizada de los componentes del intervalo de octava, he incluido también el unísono.

Figura 9. Vídeo con las consonancias de unísono, octava, quinta, cuarta y tercera mayor.

En el osciloscopio del vídeo podemos apreciar que la forma de la vibración permanece totalmente estable en todos los casos y que en cada uno de ellos oímos con claridad una mezcla consonante. En efecto, al mantener las frecuencias de los dos sonidos una relación de conmensurabilidad próxima, el periodo de la señal resultante está dentro de los márgenes en los que nuestro sistema auditivo es capaz de detectar la sincronización de ambas vibraciones, de modo que percibimos una buena mezcla.
Pero si escuchamos con un poco de atención nos damos cuenta de que no todas las mezclas son igualmente armoniosas, sino que, a medida que avanza el vídeo y la conmensurabilidad entre las frecuencias se va alejando, se produce una pérdida progresiva de la sensación de “buena mezcla”. Conforme la conmensurabilidad de las frecuencias es más alejada, el periodo de su sincronización es mayor y la forma de la vibración resultante adquiere mayor complejidad, por lo que cada vez se hace más difícil percibir las coincidencias periódicas entre los dos sonidos. Ello da lugar a la progresiva disminución de la sensación de buena mezcla: desde la octava, en la que la amalgama de los dos componentes es tan fuerte que se hace difícil su escucha individualizada, hasta la tercera mayor natural, donde la sensación de buena mezcla es ya bastante débil.

La fase inicial en la mezcla consonante

Veamos ahora cómo afecta la fase inicial a las consonancias. En el caso de la mezcla unísona hemos visto que la diferencia de fase entre los componentes modifica notablemente la amplitud del sonido resultante y, en consecuencia, el volumen sonoro que percibimos. Pero, a diferencia del unísono, los desfases entre dos componentes consonantes, si bien modifican la forma de la vibración resultante, no alteran el volumen sonoro que oímos, ni ninguna otra cualidad sonora, al menos de un modo claramente perceptible.
Para observar que la forma de la vibración viene determinada por la fase inicial de los sonidos componentes y experimentar que nuestro oído no aprecia diferencias significativas, he confeccionado un vídeo con seis ejemplos en los que se mezclan dos sonidos simples, todos ellos en consonancia de octava, pero con diferentes desfases entre sus componentes.
En todos los casos las frecuencias de los sonidos son las mismas: 220 Hz (la3) y 440 Hz (la4). La fase inicial del componente grave es siempre 0º, pero el sonido agudo se va adelantando sucesivamente 60º respecto al caso anterior: en el primero es también de 0º; en el segundo es 60º; en el tercero, 120º; en el cuarto, 180º; en el quinto, 240º; y en el sexto, 300º. La amplitud del componente agudo es 0,3 y la del grave 0,1.

Figura 10. Vídeo de dos sonidos en consonancia de octava con diferentes desfases.

Podemos ver en el osciloscopio que la forma de la vibración es diferente en cada caso. Pero, ¿hasta qué punto las diferencias en la forma de la vibración que aparecen en el osciloscopio pueden ser percibidas por nuestro oído? Comprobamos que no es sencillo reconocer diferencias. Si prestamos mucha atención y oímos repetidas veces los diferentes ejemplos, puede que apreciemos alguna sutil diferencia entre ellos, pero se trata de algo que es prácticamente irrelevante. Como mucho, podemos reconocer un pequeño cambio de volumen o una ligerísima modificación en la cualidad sonora.
Lo mismo hubiera sucedido si hubiéramos elegido cualquier otra consonancia. La conclusión, así pues, es que las diferencias de fase entre los sonidos componentes de una mezcla consonante no son reconocidas por nuestra percepción auditiva.

Mezcla de dos sonidos simples cuyas frecuencias se alejan un poco de la conmensurabilidad próxima: Batidos de segundo orden

Cuando las frecuencias de dos sonidos simples que se superponen se alejan ligeramente de las que deberían tener para estar en una razón de conmensurabilidad próxima y ser, por lo tanto, consonantes se produce una modificación periódica de la forma de la vibración resultante, la cual es percibida por nuestro oído como una oscilación regular de la cualidad sonora. Este fenómeno recibe el nombre de “batidos de segundo orden”. Estos fenómenos recuerdan mucho a las interferencias que se producen entre sonidos muy próximos al unísono (es decir, los batidos de primer orden), pero sus causas y sus efectos no son exactamente los mismos.
He fabricado un vídeo que nos va a permitir experimentar cómo se producen los batidos de segundo orden cuando se mezclan dos sonidos cuyas frecuencias están muy próximas a la consonancia de octava. En todos los casos la frecuencia del componente más grave es de 220 Hz (la3). En el primer caso la frecuencia del componente agudo es de 446 Hz, con lo que la diferencia respecto a la frecuencia que debería tener para estar en razón doble (440 Hz) es de 6 Hz; en el segundo caso la frecuencia del componente agudo es de 444 Hz, es decir, tiene una diferencia respecto a la consonancia de octava de 4 Hz; en el tercer caso la frecuencia aguda es de 442 Hz con lo que su diferencia es de 2 Hz; y en el cuarto caso la frecuencia del sonido agudo es de 440 Hz, con lo que la razón que mantiene con el sonido grave es exactamente la de octava. Para que se distingan bien los dos componentes y para que se aprecie mejor el fenómeno de los batidos de segundo orden, la amplitud de cada componente es diferente: la del primero es 0,3 y la del segundo 0,1.

Figura 11. Vídeo con los batidos de segundo orden de dos sonidos cuyas frecuencias están muy próximas a la octava.

En los tres primeros sonidos podemos observar que la forma de la vibración resultante cambia periódicamente, como si se tratara de una goma elástica, mientras que su amplitud, al margen de los cambios de posición que acompañan la evolución de la forma, permanece prácticamente constante. En el último caso, por el contrario, cuando son perfectamente consonantes, la señal permanece totalmente estable. En todos ellos, el ritmo con el que la forma de la vibración evoluciona coincide con la variación periódica en la cualidad del sonido que oímos. Estas variaciones periódicas dan lugar a los batidos de segundo orden. Los batidos de segundo orden se repiten tantas veces por segundo como la diferencia que hay entre la frecuencia que tiene el sonido agudo y la que debería tener para mantener la razón exacta de octava (440 Hz): en el primer caso, 6 veces por segundo; en el segundo caso, 4 veces por segundo; y en el tercero, 2 veces por segundo. En el último caso, al mantener la frecuencia de los dos sonidos la razón 2/1 exacta, desaparecen los batidos y los dos sonidos se funden perfectamente.
Veamos la explicación de este fenómeno. En el vídeo de la figura 10, donde los dos sonidos mantienen exactamente la razón 2/1, hemos visto que los desfases entre los sonidos dan lugar a diferentes formas en la vibración resultante, pero, puesto que esos desfases permanecen constantes durante la emisión de cada sonido, la forma de la vibración resultante se mantiene estable en todos los casos. Pero ahora las frecuencias de los dos sonidos que se mezclan no están exactamente en la razón 2/1, sino que el sonido agudo difiere en algunos hercios del que debería tener para que la mezcla fuera exactamente una octava.
Esta ligera diferencia da lugar a que el desfase entre ambas señales vaya aumentando, haciendo que la forma de la vibración resultante no permanezca constante, sino que vaya cambiando a lo largo del tiempo. Estas modificaciones en la forma de la vibración se repiten cíclicamente, pues el progresivo incremento de los desfases hace que cada cierto periodo de tiempo ambos sonidos vuelvan a estar en fase y comience un nuevo ciclo. Los batidos de segundo orden son los cambios cíclicos en la forma de la vibración que nuestro oído percibe como una periódica oscilación en la cualidad sonora.
Así pues, la razón por la que se producen tanto los batidos de primer orden como los de segundo orden es la misma: la evolución en el desfase entre los dos componentes cuando se alejan ligeramente de los números que definen las razones exactas del unísono (1/1) o de las consonancias (2/1, 3/2, 4/3).
Sin embargo, la naturaleza de los batidos de primer orden (que se producen en lo que podríamos llamar cuasi-unísono) y los de segundo orden (que se dan en lo que podríamos llamar cuasi-consonancia) es distinta. Los primeros provocan una evolución cíclica de la amplitud y son percibidos por nuestro oído como un trémolo en el sonido resultante, mientras que los batidos de segundo orden no afectan a la amplitud de la señal resultante, sino que producen una modificación, también cíclica, de la forma de la vibración y son percibidos por nuestro oído como una variación periódica de la cualidad sonora. En el capítulo dedicado a la fisiología de la audición estudiaremos la causa de que, siendo nuestra audición frecuencial, percibamos estos batidos de segundo orden.
En el caso de la cuasi-consonancia de octava, el número de batidos por segundo es la diferencia entre la frecuencia que tiene el sonido más agudo y la que debería tener para mantener la relación exacta 2/1, como hemos podido apreciar en el vídeo de la figura 11.
En lo que respecta a la cuasi-consonancia de quinta, el número de batidos por segundo es el doble de la diferencia que hay entre la frecuencia del sonido agudo y la que debería tener para mantener la razón exacta de 3/2. En efecto, si volvemos al vídeo de la figura 8, podemos apreciar que la desafinación del intervalo de quinta provoca batidos de segundo orden. Donde se perciben más claramente es en el ejemplo en el que la quinta está bajada 20 cent. Allí el componente agudo tiene una frecuencia de 325,8 Hz, cuando debería tener 330 Hz para mantener la razón exacta de quinta, 3/2, con el componente grave de 220 Hz. La diferencia es de 4,2 Hz y el número de batidos que percibimos por segundo es 8,4, el doble de esa diferencia. En el caso de la quinta temperada la diferencia es de 0,4 Hz y el número de batidos por segundo de 0,8.
En el caso de la cuasi-consonancia de cuarta el número de batidos por segundo que percibimos es el triple de la diferencia entre la frecuencia que tiene el componente y la que debería tener para mantener la razón exacta de la cuarta, 4/3.

Distorsión y componentes espurios en la mezcla de dos sonidos simples

Por último, para concluir este capítulo quiero explicar, aunque sea brevemente, lo que puede suceder en la mezcla de dos sonidos simples si el equipo de sonido que los reproduce presenta una distorsión significativa.
En un sentido amplio, distorsión es cualquier modificación que sufre la señal de audio al pasar por un sistema, como ocurre, por ejemplo, en un equipo de música provisto de ecualizador, donde la intensidad de las diferentes bandas de frecuencia puede ser amplificada a voluntad. De hecho, toda señal que pasa por un sistema que no sea idealmente plano sufre algún tipo de distorsión, pues algunos componentes son amplificados más que otros. Por ejemplo, mediante un ecualizador, podemos reforzar la presencia de los graves o de los más agudos, o bien de los medios, y todo ello ocasionará modificaciones en la forma de la vibración y en la cualidad del sonido que oímos. Sin embargo, en otras ocasiones la alteración de la importancia de las bandas de frecuencia puede ser un problema, como cuando la acústica de una sala de conciertos refuerza en exceso unos determinados componentes en detrimento de otros.
Pero ahora vamos a referirnos a la distorsión en un sentido más limitado: aquellas deformaciones de la señal de audio que provocan la aparición de nuevos componentes frecuenciales que no estaban en la señal original. Esta distorsión es muy importante, pues no se limita a teñir o matizar los componentes de la señal original, sino que introduce en ella componentes espurios.
Cuando la señal de audio consta de un solo componente sinusoidal esta distorsión provoca que surjan en la señal nuevos componentes que son armónicos del componente original, por lo que recibe el nombre de distorsión armónica. Se llama armónica porque los componentes que se introducen son armónicos del sonido simple original, es decir, sus frecuencias son múltiplos de éste. Como veremos en el capítulo dedicado al sonido armónico, esto quiere decir que si el sonido original es un sonido simple de 220 Hz, por ejemplo, el sonido resultante será un sonido que, además de este componente original, tendrá otro u otros componentes cuyas frecuencias sean múltiplos de la de ese componente original. Es decir, será la suma del componente original de 220 Hz, más otro en 440 Hz, y tal vez otro en 660 Hz, y así sucesivamente en función de la importancia de la distorsión.
En el caso de que la señal de audio esté compuesta por dos o más sonidos simples, el resultado de la señal distorsionada estará formada no sólo por los armónicos correspondientes a la distorsión de cada uno de los sonidos que intervienen en la mezcla, sino también por nuevos componentes que serán la suma y la diferencia de las frecuencias de los componentes originales. Esta distorsión recibe el nombre de distorsión de intermodulación y altera considerablemente la señal original, de tal modo que, a partir de cierto nivel, dificulta seriamente la audición de la música.
Si bien las razones de esta distorsión exceden nuestro objetivo, a continuación voy a mostrar un caso particular de distorsión de intermodulación, la cual ha dado lugar a que en ocasiones se haya interpretado mal el fenómeno de la mezcla de dos sonidos simples. Vamos a ver lo que puede suceder si el equipo reproductor presenta cierta cantidad de distorsión cuando los dos componentes que se mezclan forman un intervalo de quinta natural (3/2). En los vídeos de la figura 6 y de la figura 8 hemos podido apreciar que ambos se oyen como una consonancia de quinta. Sin embargo ahora vamos a poder experimentar que si el equipo presenta una distorsión relevante pueden ser oídos como si se tratara de un solo sonido cuya frecuencia fuera una octava más grave que la del más grave de los dos componentes. He elegido este caso precisamente para mostrar hasta qué punto es fácil confundir el resultado de un proceso producido por la distorsión con una propiedad derivada de la mezcla entre sonidos.
En el vídeo que vamos a ver a continuación se han mezclado dos componentes simples cuyas frecuencias son de 440 Hz (la4) y 660 Hz (mi5 natural), ambos de igual amplitud.


Figura 12. Vídeo que ilustra el efecto de la distorsión en la mezcla de dos sonidos simples.

En el osciloscopio podemos ver en color verde, en torno al valor de 0,4 la señal resultante que oímos y debajo, en color azul, centrada en el valor -0,4, la señal original tomada como referencia para apreciar el efecto de la distorsión. Si nuestro reproductor de sonido no distorsiona (en caso contrario igual es buena idea probar con unos auriculares), en el primer caso debemos oír dos notas consonantes muy bien mezcladas. Vemos en el osciloscopio que la señal verde, la que estamos oyendo, y la señal azul, la original, son totalmente idénticas.
En el segundo caso, en el que artificialmente he provocado una distorsión de intermodulación, oímos un solo sonido que está a una octava más grave que el la4, es decir, oímos el la3, pero con una cualidad sonora más rica que la de un sonido simple. Si nos fijamos en la forma de la vibración (podemos parar el reproductor de vídeo) y comparamos la señal resultante, ahora distorsionada, con la referencia original de color azul podremos apreciar que la señal verde no es capaz de continuar hacia abajo cuando desciende, reproduciendo el movimiento de la señal azul, sino que da lugar a una clara deformación respecto a la señal de referencia, la original. Esta deformación provoca que la señal verde no esté ahora formada únicamente por los dos componentes originales, sino que tenga nuevos componentes.
Los componentes más destacados han sido los que resultan de la suma y de la diferencia de los componentes reales: un componente en 1100 Hz y otro en 220 Hz. Luego, los que son el doble de los originales: uno de 880 Hz y el otro de 1320 Hz. Si los reordenamos todos sucesivamente nos encontramos con que tenemos los siguientes componentes: 220, 440, 660, 880, 1100, 1320. Como veremos en el capítulo dedicado al sonido armónico, estos componentes forman una serie armónica, pues todos ellos son los sucesivos múltiplos de 220 Hz. Y ésta es la razón por la que ahora oigamos el la3 (220 Hz) como la nota fundamental y no oímos ya los dos componentes aislados, las notas la4 y mi5 formando una consonancia.
En el tercer caso tenemos la misma situación, pero ahora con una distorsión mucho más exagerada. Vemos que incluso los movimientos descendentes han sido transformados en gran medida en ascendentes. El resultado es similar al anterior, sólo que ahora todavía apreciamos una cualidad sonora más plena. Esto explica por qué, de una manera aparentemente paradójica, la distorsión puede dar lugar a un resultado engañoso y nos puede hacer pensar que la mezcla de dos componentes simples en relación de quinta ocasiona un nuevo sonido una octava más baja. Este error aparece a veces incluso en algún libro de texto y por ello me ha parecido oportuno explicarlo aquí.
Cuando lleguemos al capítulo dedicado al análisis espectral podremos entender mejor las causas de que la distorsión pueda alterar las propiedades de la mezcla de los sonidos, ya que podremos observar con más detalle los componentes espurios que surgen como consecuencia de esta distorsión de intermodulación.

Conclusión

En este capítulo hemos podido experimentar que cuando dos sonidos simples suenan simultáneamente se producen diferentes fenómenos acústicos y psicoacústicos, los cuales dependen de la diferencia aritmética entre sus frecuencias, de la anchura de la banda crítica de nuestro oído en esas frecuencias y de la razón numérica que hay entre ellas. Estos fenómenos, que fundamentan una parte importante de nuestro lenguaje musical, pueden ser resumidos de la siguiente manera:
- Si los dos sonidos simples tienen la misma frecuencia, el resultado es un solo sonido simple de esa frecuencia, cuya amplitud depende no sólo de la amplitud de sus componentes, sino también del desfase que hay entre ellos.
- Si la diferencia aritmética entre la frecuencia de los dos sonidos simples es menor de unos 15 Hz, percibimos un solo sonido simple, cuya amplitud oscila sinusoidalmente dando lugar a un efecto de trémolo (batidos de primer orden) y cuya frecuencia se sitúa entre la de los dos componentes, aproximándose más a la del que tiene mayor amplitud. La frecuencia con la que se repite la oscilación de la amplitud (el número de batidos por segundo) es la diferencia aritmética entre las frecuencias de los dos sonidos componentes. Estos batidos, al permitir determinar con precisión la diferencia entre la frecuencia de los dos componentes, posibilitan afinar con facilidad los instrumentos musicales y establecer con exactitud los intervalos que dan lugar a las escalas.
- Cuando la diferencia aritmética entre las frecuencias de los dos sonidos simples supera aproximadamente los 15 Hz, nuestro sistema auditivo no puede seguir el ritmo de los batidos y dejamos de percibir un solo sonido simple tremolado. Si esta diferencia está dentro de la anchura de la banda crítica correspondiente a esa zona frecuencial, oímos un sonido áspero y rugoso, a modo de zumbido, en el que no podemos distinguir individualmente los dos componentes. Cuando esta diferencia se aproxima al límite de la anchura de la banda crítica, aunque la cualidad del sonido siga siendo rugosa, progresivamente pasamos a reconocer los dos componentes individuales. Y cuando la diferencia supera con cierta holgura esa anchura de la banda crítica desaparece la sensación de rugosidad y percibimos ya nítidamente los dos componentes por separado.
- Cuando las frecuencias de los dos sonidos simples mantienen una relación de conmensurabilidad próxima (razones entre los primeros números enteros positivos), la mezcla sonora resultante es periódica y la forma de la vibración es lo suficientemente sencilla como para que nuestro sistema auditivo pueda reconocer las coincidencias periódicas entre los dos componentes. A consecuencia de ello, si las frecuencias de estos componentes superan la anchura de la banda crítica, percibimos una sensación de buena mezcla que explica la consonancia musical entre dos sonidos simples.
- Cuando las frecuencias de los dos sonidos simples se alejan ligeramente de una razón de conmensurabilidad próxima, percibimos un cambio periódico en la cualidad de la mezcla resultante (batidos de segundo orden). A diferencia de los batidos de primer orden, los batidos de segundo orden no son el resultado de una oscilación de la amplitud, sino que se producen porque nuestro sistema auditivo es capaz de reconocer cambios cíclicos en la forma de la vibración.
- La distorsión de intermodulación puede dar lugar a una mala interpretación de los resultados de la mezcla de sonidos.

- Capítulo siguiente: Capítulo 7. El sonido armónico

7 comentarios:

MFC dijo...

Felicitaciones, muy buen blog.
Y hago una consulta, ¿qué Software utiliza como Osciloscopio?
Muchas gracias!

Luis Colomer dijo...

Muchas gracias por tu comentario. No he utilizado ningún software para simular el osciloscopio. Con Matlab hice un programa para representar las señales y generé unas 30 imágenes por cada segundo de sonido. Luego las monté con Avidemux que es un editor de vídeo gratuito. Con las versiones actuales de Matlab se puede hacer el vídeo directamente. Si te interesa algún detalle más pregúntame lo que quieras.
Un saludo, Luis

Anónimo dijo...

Qué interesante!Fui sonidista por muchos años en estudios discográficos y músico.Creo que en algunos análisis se puede referir a sonidos binaurales é isocrónicos,tal vez?Y por otro lado,en un tema cercano,la música,otro gran componente de ella es el silencio.La música es ruido codificado,con muchos agregados.Saludos y gracias.

Luis Colomer dijo...

Sí, también estos fenómenos se producen en los sonidos binaurales. Muchas gracias por tu comentario.

Anónimo dijo...

Gracias por la respuesta.Una pregunta màs que puede parecer arrastrada de los pelos..Si yo estoy escuchando una frecuencia fija,supongamos 220 hertz a través de un oscildador de frecuencias a través de un auricular ó parlantes y padezco de tinnitus y que puede estar en 3000 hertz,estas dos frecuencias se sumarian en el cerebro dando una sumatoria de 3220 hertz,aunque las escuche diferenciadas,ó no?Gracias por tu respuesta.Saludos

Luis Colomer dijo...

Creo que seguirás oyendo el audífono de 3000 Hz. y el sonido de 220 Hz. por separado, pues corresponden a bandas de frecuencia muy distantes. Un saludo.

Anónimo dijo...

Gracias