Capítulo 13. Psicoacústica musical

Resumen: Este capítulo estudia las condiciones necesarias para que nuestra percepción sea capaz de distinguir un sonido musical dentro del entorno sonoro, explicando cómo se produce el enmascaramiento. Así mismo, muestra que el reconocimiento del patrón armónico por un lado nos permite identificar los sonidos musicales, reconstruyendo la unidad que ha sido descompuesta por la fisiología de nuestro oído, y, por otro, nos proporciona las condiciones necesarias para la percepción de la consonancia musical, donde apreciamos una buena mezcla a la vez que seguimos distinguiendo la individualidad de cada sonido. Todo ello se hace experimentando lo que oímos en vídeos elaborados con Matlab.

Introducción

A pesar de que la información musical llega hasta nuestros oídos totalmente mezclada en la vibración mecánica sobre la que viaja, nuestro sistema auditivo es capaz de determinar los sonidos musicales que contiene. De la misma manera que en la visión tenemos la capacidad de distinguir la figura del fondo e individualizar los múltiples objetos que ocupan la escena visual, en la percepción auditiva podemos aislar cada una de las entidades sonoras del entorno acústico en el que están inmersas, así como recuperar la unidad de los sonidos musicales dados por la voz o los instrumentos, los cuales, debido a la propia fisiología de nuestro oído, han sido previamente divididos en sus componentes frecuenciales.
Este capítulo estudia la capacidad de nuestra percepción para reconocer objetos musicales en un contexto sonoro y para reconstruir su unidad. Si bien en cierta medida esta capacidad está condicionada por las características fisiológicas de nuestra audición, el proceso mediante el cual percibimos el sonido musical es de orden superior. En efecto, nuestra percepción musical es el resultado de la manera en la que nuestro cerebro procesa los impulsos nerviosos producidos por la cóclea al codificar la vibración sonora. A día de hoy sólo tenemos ideas de carácter muy general sobre el proceso que realizan los diferentes núcleos cerebrales relacionados con la audición. Pero, aunque conociéramos con detenimiento los mecanismos neurológicos mediante los cuales se procesa la información acústica en el cerebro, lo que nos interesaría siempre conocer es la imagen psicoacústica que construimos a partir de esa información.
Examinaremos, en primer lugar, las limitaciones para la percepción del objeto sonoro que vienen dadas por la fisiología de nuestro oído, tales como las que afectan a la identificación de un sonido simple en un ambiente ruidoso o, dicho de otra manera, el enmascaramiento al que da lugar la coexistencia de diversos componentes en zonas próximas del espectro. En segundo lugar, veremos que nuestra capacidad para recuperar la unidad del objeto sonoro musical viene dada por nuestra predisposición natural para el reconocimiento del patrón armónico. Y en tercer lugar estudiaremos cómo el reconocimiento de un patrón armónico, o de una estructura que lo recuerde, explica la percepción de la consonancia entre sonidos armónicos compuestos y cómo también en las consonancias musicales podemos seguir percibiendo la individualidad de cada uno de los sonidos que forman parte de la mezcla gracias a nuestra capacidad para detectar las marcas tímbricas que los individualizan.
Vamos a dejar al margen las cuestiones relacionadas con la percepción de la espacialidad y con todo lo que se deriva del hecho de que tengamos dos oídos. La capacidad de nuestro sistema auditivo para localizar la procedencia de la fuente sonora es un tema de interés para la tecnología musical, en especial para lograr una reproducción sonora que nos devuelva el sonido de la forma más natural posible. Pero, dado que esta cuestión no es determinante para comprender los fundamentos psicoacústicos del lenguaje musical, vamos a prescindir en este capítulo de ella.
Finalmente, hay que tener en cuenta que la capacidad de reconocimiento del sonido musical depende, en buena medida, del entrenamiento del oyente, es decir, de su mayor o menor dedicación a la música.

Limitaciones en la percepción del objeto sonoro debidas a la fisiología del oído

Debido a la constitución de nuestro sistema auditivo, la presencia de otros componentes frecuenciales en zonas del espectro próximas al sonido que tratamos de percibir nos dificulta o incluso nos impide su reconocimiento. Como ya pudimos ver en el capítulo dedicado a la interferencia entre sonidos simples, nuestro oído requiere que exista cierta separación entre los componentes frecuenciales para poder distinguir nítidamente los sonidos. La anchura de la banda crítica es la distancia mínima que sirve de límite para que dos componentes sinusoidales puedan ser distinguidos con claridad. Esta distancia mínima está en relación directa con el hecho de que la resonancia de la membrana basilar en un punto afecta también a los puntos que están próximos, tal como hemos visto en el capítulo dedicado a la fisiología de la audición.
Para permitir experimentar este fenómeno voy a presentar, a modo de ejemplo, un vídeo con el caso más sencillo de distinción de fondo y figura en el paisaje sonoro: la percepción de un sonido simple en un entorno ruidoso. Ahora nos interesa solamente comprobar que la percepción de un sonido simple con una determinada intensidad mantenida se facilita de forma significativa cuando se encuentra en una zona libre de otros componentes. Este caso, realizado con sonidos de laboratorio, nos servirá para entender la manera en la que nuestra percepción está condicionada por la fisiología de nuestro oído. Para evitar que los otros componentes puedan provocar efectos de batidos e interferencias que obstaculizarían nuestra percepción del fenómeno, he elegido como elemento perturbador una banda de ruido. En este ejemplo el fondo consiste precisamente en esta banda de ruido, mientras que la figura está formada por dos sonidos simples que a lo largo de todo el vídeo mantienen la misma amplitud y, por lo tanto, la misma intensidad. Se trata de un la4 (440 Hz) cuya amplitud es de 0,005 (en unidades arbitrarias normalizadas como siempre entre 0 y 1) y de un la6 (1.760 Hz) cuya amplitud es de 0,3. La diferencia entre la intensidad de ambas señales es de 36 dB. La banda de ruido se extiende durante los seis primeros segundos unos 1.000 Hz arriba y abajo del componente agudo. A partir del segundo 6 se abre un hueco en esta banda de ruido que va progresivamente separándose del componente agudo.
Al disminuir la anchura de banda del ruido, disminuye también su intensidad. Si el objetivo de este vídeo fuera ser utilizado como un test para ver en qué condiciones es posible identificar un componente —es decir, medir la anchura de la banda crítica—, la intensidad del ruido debería haberse mantenido constante, aunque disminuyera la anchura de su banda. Pero nuestro objetivo ahora es simplemente ilustrar la diferencia entre la percepción que se produce en una banda ocupada y en otra sin ocupar. Que la intensidad del ruido no se adapte a la disminución de su anchura de banda nos facilita esta tarea.

Figura 1. Vídeo que permite experimentar la percepción de sonidos simples en presencia de ruido.

Durante los primeros 6 segundos del vídeo podemos comprobar que el componente de 440 Hz (la nota la4 que en el espectrograma corresponde a la línea horizontal inferior que casi no se ve) se oye con toda claridad, acompañada de un ruido de carácter más agudo; sin embargo, no somos capaces de oír el componente de 1.760 Hz, a pesar de que en el espectrograma lo podemos ver sin dificultad en medio de la banda ruidosa. A partir del segundo 6 el carácter del ruido va cambiando: en el espectrograma vemos que en medio del ruido va abriéndose un hueco que se va ensanchando progresivamente para dejar libre las bandas próximas al componente de 1.760 Hz. Por ello el componente de 440 Hz siguen oyéndose con el mismo volumen sonoro que antes, pero hasta pasado el segundo 10 no empezamos a percibir ligeramente el componente agudo de 1.760 Hz, el corrrespondiente a la nota la6 (dependiendo del volumen de nuestro reproductor y de la atención que prestemos a su aparición podemos oírlo un poco antes o un poco después). Nuestra percepción del componente agudo llega a ser cada vez más clara, hasta que, en un momento determinado, ya no cambia y al final percibimos con claridad los dos componentes individuales, manteniendo cada uno de ellos su propio volumen sonoro. Este efecto se aprecia más claramente conforme va disminuyendo la intensidad del ruido y reduciéndose la anchura de su banda.
Este fenómeno psicoacústico del enmascaramiento es utilizado por los compresores de sonido para disminuir la codificación necesaria en función de nuestras capacidades para distinguir los componentes próximos.

El reconocimiento del patrón armónico

En la naturaleza hay muchos sonidos que surgen en condiciones estacionarias, por ejemplo, las cuerdas que vibran, las columnas de aire que resuenan en cavidades, los ruidos emitidos por muchos animales, el viento que silba en las grutas, etc. Por ello el sonido armónico es tan abundante en la naturaleza. Entre los humanos, el sonido armónico no sólo constituye el material con el que se construye la música, sino que también sirve de soporte para la articulación del lenguaje hablado, como es el caso de las vocales. Esta familiaridad con un entorno sonoro armónico explica de algún modo nuestra predisposición natural para reconocerlo.
A nuestro cerebro llega, a través del nervio auditivo, la descomposición espectral de la vibración mecánica que ha realizado el oído interno y es nuestro cerebro el que lleva a cabo la tarea de reunir todos esos componentes dispersos para recuperar la unidad del objeto sonoro armónico. En nuestra mente se realizan una serie de procesos psicoacústicos encaminados al reconocimiento del patrón armónico de cada objeto musical mediante el cual agrupamos los componentes e identificamos las notas. Hay que tener en cuenta que identificar una nota musical, o el intervalo que forma con otra, no significa darle un nombre concreto; es un proceso inconsciente para la mayor parte de las personas, pero que nos permite entender y recordar una melodía. Por ejemplo, si se cambia una nota por otra en una canción conocida casi todos los oyentes se darán cuenta; y eso ocurrirá con independencia de que sepan o no música, ni de que sean capaces o no de nombrar la nota o las notas que esperaban escuchar.
La identificación de un sonido armónico no se debe a que percibamos su periodicidad en la forma de la vibración resultante, sino a que la estructura de sus componentes frecuenciales se corresponde con una estructura armónica. Así pues, el reconocimiento del patrón armónico se produce por los intentos de nuestro sistema perceptivo por organizar en estructuras armónicas todo el material sonoro que recibe.
En líneas generales, el reconocimiento del patrón armónico obedece a las leyes de la Gestalt en su aplicación al material sonoro. Vamos a ver a continuación que La ley de la completitud de la figura explica cómo reconstruimos un patrón armónico en un sonido en el que hay muchos huecos dentro de la serie armónica. Voy a presentar dos vídeos que nos van a permitir observar la manera en la que nuestra percepción auditiva organiza el material sonoro según la serie armónica, completando los huecos que el sonido musical pudiera tener. En el primero mostraré cómo reconocemos una nota musical en un sonido en el que faltan un buen número de los primeros componentes. En el segundo veremos que seguimos identificando la misma nota incluso cuando se le quitan sus primeros armónicos.
En el primer vídeo tenemos el espectrograma de la nota más grave de un sonido de piano, el la0, cuya frecuencia es de 27,5 Hz. El sonido procede de una grabación doméstica realizada con un piano vertical, donde el número e importancia de los componentes graves es considerablemente menor que en un piano de gran cola. El espectrograma ha sido realizado con una ventana de larga duración (0,2 segundos), pues aquí nos interesa observar la frecuencia de los componentes, más que su evolución temporal.

Figura 2. Vídeo con el espectrograma de la nota la0 de un piano.

Todos reconoceríamos aquí un la0, la nota más grave del piano, con lo que, en principio, deberíamos ver en el espectrograma su primer armónico, es decir, el componente de 27,5 Hz. Sin embargo, el armónico más grave que aparece en el espectrograma es el cuarto, con una frecuencia de 110 Hz; luego el quinto, el sexto y el séptimo, separados aproximadamente por una distancia de 27,5 Hz. El octavo armónico no está, pero desde el noveno hasta el decimosexto vemos que son todos consecutivos. Si seguimos hacia la parte alta del espectro observamos una considerable cantidad de componentes armónicos, todos ellos separados entre sí, salvo en los casos en los que hay huecos, por una distancia de 27,5 Hz o un poco más (hay que tener en cuenta que la ligera inarmonicidad del piano hace que se vayan separando progresivamente). En cuanto a la energía que aporta cada armónico al sonido y que afecta a su timbre, podemos apreciar que el duodécimo es el que tiene mayor amplitud y, por lo tanto, mayor intensidad.
Ahora bien, a pesar de las importantes lagunas en la estructura armónica de esta nota la0 e incluso de la ausencia de los primeros armónicos, nuestro sistema perceptivo ha apreciado varios rasgos que le han ayudado en la tarea de su reconstrucción y en la recuperación de la unidad de esa nota la0. Ha reconocido que la distancia que más abunda entre los diferentes componentes es de unos 27,5 Hz. También ha apreciado los rasgos comunes que hay entre los componentes de la nota la0: coincidencia en el tiempo del ataque, forma similar en el ataque, horizontalidad, atenuación exponencial, etc. Y a partir de todo ello ha reconocido que todos esos componentes forman parte de la nota de piano la0, con independencia de que sepamos nombrarla o no. Gracias a esta capacidad de nuestra percepción auditiva podemos oír las notas graves de cualquier obra musical en un reproductor de música de no muy buena calidad, a pesar de que, en líneas generales, éstos no acostumbran a reproducir frecuencias más bajas de 50 Hz.
En el segundo vídeo he elegido un ejemplo diferente. Empezamos oyendo la nota la2 del piano (110 Hz), pero en los sucesivos ataques le he ido quitando de forma artificial diferentes componentes de la estructura armónica. La duración de la ventana de análisis ha sido en esta ocasión 0,08 segundos, pues he pensado que, al estar los componentes más separados, esta duración era ya suficiente para apreciar con claridad la estructura armónica (insisto en que ahora nos interesa ver los componentes frecuenciales de la estructura, no su evolución temporal).

Figura 3. Vídeo con el espectrograma de la nota la2 de un piano a la que se le quitan progresivamente sucesivos armónicos.

Podemos comprobar que, aunque vayan cambiando las cualidades sonoras de la nota, en las tres ocasiones escuchamos un la2. En el primer caso, tenemos la nota emitida por el piano sin modificación alguna. La estructura armónica está completa: se aprecian claramente los primeros doce armónicos, se insinúan el decimotercero y el decimocuarto, y el decimoquinto aparece con claridad, aunque de forma intermitente. En el segundo caso he eliminado el primero y el segundo armónico, pero los cambios producidos en el sonido han sido escasos: una cierta pérdida de graves en la cualidad sonora que solamente será apreciada en un reproductor con suficiente calidad. En el tercer caso he eliminado los cinco primeros armónicos. Apreciamos ahora que el cambio en la cualidad sonora ha sido muy importante, casi no parece una nota de piano, pero la identificación de la altura tonal de la nota como un la2 no ha sufrido en absoluto.
Así pues, con estos dos ejemplos hemos podido experimentar cómo actúa nuestra percepción auditiva para reconocer la estructura del objeto, incluso cuando la serie armónica presenta numerosas lagunas, e identificar de esta manera las notas musicales.

Percepción de la consonancia entre sonidos musicales

El concepto de consonancia del que voy a ocuparme a continuación no tiene nada que ver con la consonancia entendida como eufonía, es decir, con el hecho de que dos o más sonidos emitidos simultáneamente nos suenen mejor o peor. Hay disonancias claramente eufónicas. Por poner un ejemplo, en mi opinión, el acorde de séptima disminuida suena deliciosamente bien y es un auténtico paradigma de la disonancia. Por otra parte, no voy a tratar aquí de las convenciones que en cada momento histórico del desarrollo de nuestro lenguaje musical han considerado consonantes o disonantes determinados intervalos musicales, o unas u otras agrupaciones de sonidos. Por ejemplo, en unos contextos armónicos el intervalo de cuarta es tratado como disonante y exige resolución, mientras que en otros es considerado como consonante.
Aquí vamos a atender a los fundamentos acústicos y psicoacústicos de la consonancia entre sonidos musicales, es decir, tanto lo que concierne a su propia constitución física como a las características de nuestra percepción musical que permiten que reconozcamos la consonancia, con total independencia de los criterios estéticos de cada época o de las apreciaciones subjetivas de un número mayor o menor de oyentes. Nos interesa ahora atender a los sonidos reales, es decir, a sonidos individualizados complejos y distintos, tal como surgen de la voz y de los instrumentos, cada uno con su propia marca tímbrica.
Cuando dos notas suenan a la vez puede ocurrir, o bien que permanezcan independientes una de la otra, o bien que se acoplen y produzcan una mezcla consonante. En el capítulo 6 vimos que la consonancia entre sonidos simples se debe a que la mezcla resultante tiene una periodicidad que nuestro sistema auditivo es capaz de reconocer y que esa periodicidad viene dada por la conmensurabilidad próxima entre sus frecuencias. Pero en la mayor parte de las ocasiones los sonidos musicales son compuestos, es decir, están formados por un buen número de componentes cuyas frecuencias forman entre sí una estructura armónica. En estos casos, la percepción de la consonancia está en relación directa con la posibilidad de organizar los componentes de la mezcla resultante en una nueva estructura armónica más o menos completa. Dicho de otra manera, la combinación de los componentes de los sonidos musicales que intervienen en la mezcla ha de formar una estructura lo suficientemente armónica como para que nuestra mente sea capaz de reconocerla, completando los elementos que faltan si es necesario. Cuando eso sucede nosotros percibimos la mezcla resultante como una entidad musical a la que llamamos consonancia. En este sentido podemos decir que la consonancia se produce cuando al mezclarse dos o más sonidos musicales se crea una nueva estructura armónica o casi armónica.
Pero la mezcla consonante no es una combinación de componentes simples en la que cada uno de ellos se disuelve y desaparece, como hemos visto que ocurre cuando se combinan componentes sinusoidales para formar el sonido armónico compuesto. Las marcas tímbricas que caracterizan a cada sonido impiden que la mezcla se comporte como una mera suma de componentes sinusoidales que daría lugar a un nuevo y único sonido. Por el contrario, cuando se unen sonidos consonantes, cada uno de ellos sigue estando presente en el sonido resultante, de modo que, si prestamos atención, podemos seguir distinguiendo cada uno de los sonidos que se mezclan. Salvo cuando los intérpretes pretenden anular las individualidades y fundirlas en una masa coral, como ocurre con las diferentes secciones de cuerda de una orquesta, el timbre de cada sonido de algún modo permanece y deja su huella en la textura de la mezcla consonante.
En realidad, éste es el sentido preciso del concepto de “armonía”, concepto que se fundamenta en la consonancia natural y que tanto ha influido en el pensamiento de Occidente. La armonía es la buena mezcla, la mezcla hecha de tal modo que resulta una nueva entidad más rica y compleja, un conjunto bien trabado, pero un conjunto en el que las partes no se disuelven, sino que siguen manteniendo su individualidad.
Para comprender en qué consiste la consonancia entendida como mezcla, así como para observar los diversos tipos de consonancias naturales, voy a presentar varios vídeos en los que los sonidos van acompañados de su correspondiente espectrograma. En los ejemplos suena primero cada una de las dos notas por separado y luego el sonido resultante de su “emisión simultánea”. Esta “emisón simultánea” ha sido simulada mezclando las dos notas con ayuda de un editor de sonido, con la finalidad de que las notas presentes en la combinación sean exactamente las mismas que las que han sido emitidas por separado.

Consonancia y disonancia

En primer lugar voy explicar la diferencia entre consonancia y disonancia, para lo que voy a poner un ejemplo de cada una de ellas. Como consonancia he elegido el unísono, la más perfecta de las consonancias, y como disonancia, una séptima menor. En ambos casos he combinado la misma nota de piano, el sol3, con otra nota de violín; en el ejemplo de la consonancia, con otro sol3, y en el de la disonancia, con un fa4.
Comencemos con el ejemplo de la consonancia.

Figura 4. Vídeo con el espectrograma de una nota de piano y otra de violín al unísono.

Oigamos cómo suenan y paremos luego el vídeo en cualquier momento para ver el espectrograma. La columna izquierda del espectrograma corresponde al sol3 del piano, la columna del medio al sol3 del violín y la de la derecha a la emisión simultánea de ambas notas. En el espectrograma observamos que el número y la estructura de los componentes frecuenciales de las dos notas simultáneas (los armónicos de la columna de la derecha) vienen a ser el resultado de la combinación de los componentes de las dos notas emitidas por separado (los de las columnas de la izquierda y del medio). Enseguida entendemos por qué las dos notas se han mezclado tan bien. En efecto, comprobamos que ambas notas comparten un buen número de sus componentes frecuenciales, lo que era de esperar al tratarse de un unísono. Observamos, además, que la combinación resultante también posee un patrón armónico. En una primera ojeada, y especialmente si atendemos solo a los siete primeros componentes, podríamos pensar que estamos ante un único sonido individual, pues en la estructura frecuencial no encontramos nada de particular diferente de la que posee un único sonido armónico compuesto. La capacidad de nuestra percepción musical para reconocer el patrón armónico ha funcionado también aquí: ha reunificado los componentes frecuenciales y ha reconstruido una nueva unidad.
Ahora bien, la cosa no es tan sencilla. Con esto queda explicada solamente la parte unitaria de la mezcla consonante, el hecho de que estos sonidos se mezclen bien y den como resultado una nueva unidad; pero nos falta entender por qué en la mezcla se sigue reconociendo el sonido de las dos notas, la de piano y la de violín, es decir, por qué, a pesar de esa buena mezcla, se conservan los elementos individuales. En efecto, si volvemos a escuchar el ejemplo, nos damos cuenta de que en la emisión simultánea también podemos seguir oyendo con claridad cada una de las dos notas: en función de sus propias dinámicas hay momentos en los que el piano se destaca más (como por ejemplo, en el ataque) y hay otros en los que es el violín el que domina (como sucede cuando el volumen de la nota de violín se mantiene elevado mientras la nota de piano se encuentra ya muy amortiguada).
Tendremos que fijarnos con más detenimiento en el espectrograma para entender por qué se siguen oyendo las dos notas individuales. En muchos componentes de la columna de la derecha (la de las dos notas simultáneas) reconocemos las mismas marcas tímbricas específicas del piano o del violín que están en los respectivos componentes de las notas dadas por separado (las columnas izquierda y central). Por ejemplo, vemos que ese punto luminoso que destaca en el primer componente de la nota de piano sola o esa línea vertical que señala el ruido inicial del ataque aparecen de nuevo en los componentes del sonido mezclado; y también que ese dibujo de la nota de violín solo, que indica que se está manteniendo la amplitud sin amortiguación, se repite en los componentes de las dos notas mezcladas, igual que se repite el elevado número de componentes armónicos superiores y su permanencia en el tiempo. Podemos concluir, así pues, que en la mezcla consonante se conservan buena parte de los rasgos tímbricos de cada uno de los sonidos individuales que la componen, lo que explica que percibamos una nota de piano y otra de violín dadas simultáneamente y no un único sonido con otro timbre diferente.
Pero hay también otros elementos que se pueden observar en la mezcla y que no están en los sonidos individuales. Podríamos decir que son algo así como los efectos colaterales de la mezcla. En el armónico sexto y en otros superiores podemos observar unas discontinuidades —que en el oído se traducen en la percepción de pequeños batidos—, las cuales son el resultado de la inarmonicidad de los componentes del piano interactuando con la armonicidad casi total de los componentes de violín. En efecto, la progresiva “desafinación” de los componentes superiores del piano choca con la afinación casi perfecta del violín y provoca esas interferencias. Este abrirse de los componentes frecuenciales de las notas del piano, que contribuye a mantener la individualidad de cada una de las notas emitidas, llega a plasmarse en los armónicos superiores en las dos líneas distintas y próximas que se aprecian en la columna derecha del espectrograma.
Así pues, hasta aquí hemos podido comprobar que la consonancia consiste en la combinación de dos condiciones aparentemente opuestas. Por un lado, la posibilidad de que dos sonidos distintos emitidos simultáneamente sean reconocidos como uno solo: al compartir un buen número de componentes frecuenciales y al poseer un patrón armónico, el resultado de la combinación de dos sonidos consonantes es una nueva entidad sonora unitaria. Y, por otro, la pervivencia en la mezcla, en esa nueva entidad sonora que ha surgido, de ciertos rasgos propios de cada uno de los sonidos individuales, lo que impiden la disolución total de las partes. Todo esto explica que haya instrumentos que se amalgamen más o menos, que empasten entre sí mejor o peor. Y también que la combinación de piano y violín, en la que se mantiene muy bien la individualidad de los sonidos, haya obtenido un amplio reconocimiento en la literatura musical clásica.
Veamos el caso opuesto, aquél en el que las notas no se mezclan y se produce la disonancia. Utilizo la misma combinación de piano y violín.

Figura 5. Vídeo con el espectrograma de una nota de piano y otra de violín formando un intervalo de séptima menor.

Comprobamos en el espectrograma que ambos sonidos no comparten apenas material sonoro. Además, ahora no se puede distinguir en el sonido compuesto un único patrón armónico. Por el contrario, en este sencillo caso es perfectamente posible reconocer los dos patrones armónicos de cada nota por separado. Los dos sonidos se producen simultáneamente, pero sus componentes no se mezclan prácticamente nada. Si comparamos las columas de la izquierda (la nota del piano) y del medio (la nota de violín) con la columna de la derecha del espectrograma (las dos notas simultáneas) podemos apreciar con claridad a qué instrumento pertenece cada componente de esta última columna. Tenemos en este caso dos notas que suenan perfectamente bien al ser emitidas simultáneamente, pero que no son para nada consonantes, pues no se han mezclado en absoluto.
En resumen, la consonancia supone la mezcla de dos o más sonidos, mientras que en la disonancia existe solamente una reunión simultánea, pues los sonidos permanecen sin mezclarse. Para que exista consonancia se han de producir dos condiciones: 1) que los dos sonidos compartan buena parte de su material sonoro, es decir, que tengan en común la mayor parte de sus componentes; 2) que la mezcla resultante guarde un patrón armónico.
Pero la consonancia es una categoría relativa: unas mezclas son más consonantes que otras. Existe, por decirlo de algún modo, una cierta degradación en los niveles de consonancia, una creciente imperfección de la mezcla, desde el unísono hasta la disonancia. Conforme las dos notas compartan mayor número de componentes y conforme el patrón armónico del sonido resultante sea más completo, sin huecos en su estructura, mayor será el grado de su consonancia. Lo que hace que dos notas sean más o menos consonantes es el grado de conmensurabilidad entre sus frecuencias: cuanto más próxima, más consonante es la mezcla. La progresión es la siguiente: unísono 1:1 (igual); octava 2:1 (doble); octava y quinta 3:1 (triple); doble octava 4:1 (cuádruple); quinta 3:2 (sesquiáltera); y cuarta 4:3 (sesquitercia). Más allá de estas razones la consonacia desaparece. Los nombres de los intervalos consonantes proceden de su orden en la escala de referencia que fue ya formulada por los teóricos musicales griegos.

Consonancia de octava, de quinta y de cuarta

Veamos ahora algunas situaciones en las que las mezclas de dos sonidos, aun siendo consonantes, no son tan perfectas como el unísono. Me voy a limitar a analizar los intervalos consonantes que no superan el marco de la octava. Estos son, en orden de mayor a menor grado de integración de sus sonidos, los siguientes: la octava, la quinta y la cuarta. La frecuencia de una nota que está a una octava superior es el doble de la frecuencia de la nota inferior; la de una quinta es 3:2 veces la de la nota inferior, y la de la cuarta es de 4:3.
Comienzo con el intervalo de octava. Veamos, así pues, un ejemplo en el que he juntado la nota sol3 del violín anterior y la nota sol4 dada ahora por un clarinete en sib. Las notas no están perfectamente afinadas. La frecuencia de la nota de violín es de 195,9 Hz y la de la nota de clarinete es de 394,5 Hz. Por eso el primer armónico de la nota de clarinete (394,5 Hz) está ligeramente más alto que el segundo armónico de la nota de violín (195,9 x 2 = 391,8 Hz). Pero estas diferencias no son significativas y lo que nos interesa es experimentar lo que ocurre cuando se mezclan sonidos reales, como sucede de ordinario en la música, no situaciones teóricas de laboratorio.

Figura 6. Vídeo con el espectrograma de una nota de violín y otra de clarinete formando un intervalo de octava.

Los componentes de una nota que está a un intervalo de octava superior tienen todos la frecuencia doble del componente equivalente de la nota que está una octava baja. Lo podemos verificar fácilmente al observar la estructura de los componentes correspondiente a la nota de clarinete emitida sola. Recordemos también que el sonido del clarinete se caracteriza, en general, por el predominio de los armónicos impares, como también podemos observar en este espectrograma. No obstante, en la estructura de los componentes correspondiente a las dos notas emitidas simultáneamente también vemos con claridad la presencia de un patrón armónico. En principio podríamos decir que se trata de un solo sonido armónico. El primer armónico pasa casi totalmente desapercibido, pues también pasa desapercibido en la nota aislada de violín y el clarinete no puede añadir nada, ya que su espectro no forma parte de la composición de esa nota que está a octava superior. Pero el resto de los componentes sí están presentes, con mayor o menor importancia. Esa estructura armónica hace que nuestra percepción reconozca allí una unidad sonora, un sonido armónico. El grado de integración de los componentes es también muy elevado, casi equiparable al del unísono. Y también observamos ahora la permanencia de las marcas tímbricas individuales de cada uno de los sonidos. Así, por ejemplo, podemos fijarnos en el predominio de los componentes impares, propio de la sonoridad del clarinete, o en la riqueza de los armónicos superiores característica de la nota de violín. Por otra parte, surgen también una serie de fenómenos nuevos resultantes de la mezcla, como la aparición de esas intermitencias en numerosos componentes que son el resultado de las ligeras diferencias en afinación entre los dos instrumentos, como hemos visto al estudiar los batidos. Resumiendo, podemos decir aquí algo muy similar a lo que dijimos acerca del unísono: se reconoce claramente un patrón armónico que explica la fusión y se mantienen a la vez ciertas peculiaridades tímbricas que justifican la permanencia de la individualidad de cada uno de los sonidos constitutivos de la mezcla. La relación de octava —es decir, la relación 2 a 1, que es una conmensurabilidad muy cercana— da lugar a un intervalo claramente consonante.
Veamos ahora lo que sucede en el caso de intervalos cuya conmensurabilidad no es ya tan inmediata. Los ejemplos que voy a presentar a continuación tienen como característica común que los sonidos que constituyen el intervalo consonante proceden del mismo instrumento, un piano. En el primer ejemplo examinaremos lo que sucede en un intervalo de quinta, donde la relación entre sus frecuencias es de 3:2 (relación sesquiáltera); y en el segundo ejemplo analizaremos cómo se comporta un intervalo de cuarta, cuyas frecuencias están en la relación 4:3 (sesquitercia). Para facilitar la observación he elegido unas notas del registro medio-agudo, donde el número de componentes por nota es ya relativamente bajo.

Figura 7. Vídeo con el espectrograma de dos notas de piano formando un intervalo de quinta.

En el espectrograma podemos comprobar que tres componentes de la nota la4, en la columna de la izquierda, se corresponden con dos componentes de la nota mi5, en la columna del medio. En efecto, la frecuencia del componente fundamental de la nota mi5 (659,3 Hz) está casi en una relación de 3 a 2 respecto a a la frecuencia fundamental de la nota la4 (440 Hz). En el sonido resultante de la mezcla, en la columna de la derecha, es posible percibir una cierta aproximación a un patrón armónico, si bien imperfecto. Este patrón armónico tendría como fundamental un supuesto primer armónico, cuya frecuencia sería la mitad de la del primer armónico de la nota la4 y la tercera parte de la de la nota mi5, pues el componente fundamental del sonido mezclado habrá de ser el máximo común divisor de los fundamentales de las dos notas que han intervenido en la mezcla (es decir, con independencia del margen debido al temperamento, 220 Hz). En la descomposición espectral del sonido mezclado —el de columna derecha— no aparece como es lógico ese supuesto primer armónico, pero podemos deducirlo de la estructura armónica, en la cual podemos observar que los componentes se corresponden con los de las notas sin mezclar: el segundo armónico coincide con el primer armónico de la nota aislada la4; el tercer armónico es el mismo que el primer armónico de la nota mi5; el cuarto armónico es el segundo armónico de la nota la4; el quinto armónico está ausente, ya que no podría corresponder a ningún componente armónico de ninguno de los dos sonidos aislados; el sexto armónico es el resultado de la aportación de ambos sonidos originales (el tercer armónico de la4 y el segundo de mi5); y así sucesivamente. Es decir, es posible detectar un cierto patrón armónico, pero lleno de huecos. Si a esta deficiencia en la estructura armónica del sonido mezclado unimos la fuerte pervivencia de las marcas individuales de cada uno de los sonidos emitidos (entre otras, el ataque individual, claramente destacado, de cada uno de las notas aisladas que queda reflejado en las correspondientes marcas luminosas iniciales), el resultado es la prevalencia de la percepción individualizada de los sonidos. En efecto, en el vídeo podemos apreciar que las notas se mezclan, pero su integración sonora es mucho menor que la de la consonancia de octava. Ello se debe, sobre todo, a que la estructura armónica está llena de huecos. Las marcas tímbricas individuales, al pertenecer al mismo instrumento e incluso al mismo registro y estar dadas con el mismo tipo de ataque, son menores, pero son lo suficientemente significativas como para mantener la individualidad de los sonidos. Hay que añadir también una circunstancia que pertenece a nuestro sistema cognitivo: sabemos cómo suena una nota aislada de piano, por lo que ese doble ataque que oímos en el sonido mezclado no nos confunde, sino que percibimos dos sonidos emitidos simultáneamente y no uno solo.
Algo similar, pero con un menor grado de integración todavía, ocurre en el caso de la consonancia de cuarta, aquella que se establece entre dos sonidos cuyas frecuencias están en una relación 4:3.

Figura 8. Vídeo con el espectrograma de dos notas de piano formando un intervalo de cuarta.

Ahora podemos apreciar en el espectrograma que por cada cuatro componentes de la nota la4 hay tres de la nota re5. En el sonido resultante de la emisión simultánea de las dos notas es más difícil distinguir un único patrón armónico. Tendríamos que suponer la existencia de un componente fundamental que fuera la tercera parte del componente primero de la nota la4 y la cuarta parte del componente primero de la nota re5. Esa supuesta estructura armónica del sonido mezclado tendría el primer y segundo armónico ausentes; el tercero y el cuarto corresponderían al primero y segundo de los respectivos sonidos aislados; necesariamente el quinto, séptimo, undécimo y duodécimo componentes estarían ausentes. Podemos darnos cuenta de que si bien aun es posible distinguir un cierto patrón integrador, su debilidad es manifiesta, dado el número y relevancia de sus lagunas. Así mismo, las marcas individuales de cada sonido perviven claramente. El resultado es que nosotros oímos un sonido compuesto, que en cierto modo parece mezclarse algo, pero en el que predomina por completo la individualidad de los componentes. Pienso que, en lo que concierne a la reunión de solamente dos sonidos simultáneos, el límite perceptivo de la mezcla está en la relación de conmensurabilidad 4:3, la del intervalo de cuarta, pues incluso aquí es dudosa la plena integración de dos sonidos en uno solo. Esta carácter ambiguo de la cuarta explica que haya sido considerada como consonancia o como disonancia en función de otras categorías propias de cada idioma musical.
Como conclusión podríamos decir que para que se produzca la consonancia es necesario el reconocimiento de un patrón armónico en el sonido resultante de la mezcla, el mismo que constituye necesariamente todo sonido musical, todo sonido que tiene una frecuencia determinada y que es percibido por nuestro sistema cognitivo como una nota. De ese modo percibiremos la mezcla como una unidad. Nuestro cerebro ha “aprendido” a reconocer el patrón de la serie armónica (de uno u otro modo, ya sea porque la serie armónica está presente en todos los ámbitos de la naturaleza, ya porque culturalmente estamos desde nada más nacer inmersos en la música que ha sido compuesta mediante la serie armónica). Por lo tanto, hay una tendencia a entender como unificador todo aquello que tenga que ver con ese patrón de la serie armónica. La percepción de una mezcla de sonidos consonantes se asemeja hasta cierto punto a la percepción unitaria de un solo sonido armónico compuesto de componenetes frecuenciales, pues, en tanto que se mezclan bien, percibimos como unidades aquellos sonidos cuyas frecuencias son múltiples o conmensurables próximas. Pero, a la vez, en la percepción de la consonancia hay un reconocimiento de la individualidad de cada sonido, de cada voz, que la diferencia de la percepción de un sonido compuesto, donde no se aprecia ninguna parte constituyente. Si ese reconocimiento de la individualidad no se produce estaremos más próximos a hablar de un sonido coral, es decir, de un conjunto de sonidos individuales fundidos en una sola voz, la voz del coro.

Conclusión

En este capítulo hemos estudiado cómo percibimos el sonido musical en un entorno acústico, identificándolo por sus marcas tímbricas y reconstruyendo su patrón armónico, con los límites que nuestro sistema auditivo tiene para distinguir componentes próximos. Así mismo hemos podido experimentar que reconocemos dos sonidos musicales como consonantes cuando su estructura armónica posee suficientes elementos en común como para que nuestra percepción auditiva sea capaz de percibir una nueva estructura lo suficientemente armónica, a la vez que seguimos reconociendo su individualidad gracias a sus marcas tímbricas.

- Capítulo siguiente: Capítulo 14. La voz musical