domingo, 24 de marzo de 2019

Historias de las lenguas | El aspecto fonético de los cantantes virtuales



Hoy os traigo un tema bastante intersante que me fascina, fuertemente relacionado con la fonética de los idiomas y la música: los cantantes virtuales.

No os preocupéis, no voy a entrar en mucho detalle ni tampoco voy a hablar sobre tecnicidades musicales. En cambio, solamente me voy a limitar a analizar la influencia e importancia de la fonética en el tema cantantes virtuales. 

La cantante virtual Miku Hatsune en un concierto en vivo. Obviamente, ella es un holograma.


Estoy seguro de que la mayoria de vosotros habéis escuchado sobre los cantantes virtuales. Si no sabéis quién o qué son estos cantantes, os lo resumiré bien simple: un cantante virtual es una voz capaz de cantar, creada completamente por ordenador. O lo que es lo mismo, si escucháis una canción cantada por uno de estos cantantes, no estáis escuchando a una persona real cantar.

Aunque el uso de estos cantantes virtuales puede estar limitado a algunas compañías privadas, existe un gran número de cantantes que pueden ser perfectamente adquiridos y usados por cualquier persona, ya sea de manera pagada o gratuita.  

Los cantantes virtuales necesitan software específico para funcionar, o lo que podemos llamar un motor. Los motores más famosos a nivel mundial son sin lugar a dudas Vocaloid (desarrollado por Yamaha) y UTAU. El primero hay que comprarlo, mientras que el segundo es completamente gratuito.

Una vez disponemos de uno de estos motores, podemos comprar o dscargar gratuitamente (dependiendo del motor) los cantantes virtuales que nos gusten más. Éstos vienen en los que se llaman librerías o bancos de voz. 

Cuando disponemos de ambos el motor y la librería de voz, podemos escribir la melodía y las letras. Por los altavoces de nuestro ordenador escucharemos al cantante virtual cantar. 




Como ya mencionado arriba, uno de los motores más conocidos mundialmente es UTAU, que además es gratuito. Éste es muy interesante desde un punto de vista fonético, pues calquier usuario puede crear su propio cantante virtual. Eso sí, con el conocimiento adecuado. 

Yo mismo he creado un cantante virtual llamado Coll (llamado así porque yo mismo le presté mi voz) y finalmente puedo decir que Coll está acabado y es perfectamente utilizable. Tras una gran odisea. 

Como gran fanático de la fonética y los idiomas, crear un cantante virtual capaz de cantar en varios idiomas (en el caso de Coll, inglés y japonés) me fascinó. Y aquí os voy a explicar cuán bien me lo he pasado creándolo.

Normalmente, los cantantes virtuales disponen de una "persona".
No se trata simplemente de una voz, sino de un cantante, un artista, después de todo.


El primer paso para crear un cantante virtual es grabar la voz.

Pese a parecer muy fácil a primera vista, éste es el paso clave para crear una voz realistica y que funcione sin probelmas ni errores. Y por supuesto, uno necesita conociemientos de fonética.

La manera de grabar esto es bastante interesante y divertida desde un punto de vista fonético. Uno debe de grabar todos y cada uno de los fonémas del idioma que queremos que sea el de nuestro cantante virtual. 

Pero la manera de grabar éstos es un tanto especial. Los fonemas deben de ser grabados combinados con otros fonemas, de manera que sean cubiertos todas las combinaciones silábicas posibles del idioma. 

Al mismo tiempo, debemos de pensar en un buen sistema para escribir los sonidos. Preferibelmente sin usar symbolos que no aparezcan en nuestro teclado, pues tendremos que escribir éstos cada vez que queramos hacer a nuestro cantante virtual cantar.

Esto ya suena más complicado. Por supuesto, uno puede siempre ir a Internet y buscar listas de grabación que otras personas han hecho. Pero como amante de la fonética, yo decidí crear mi propia lista de grabaciones. 

Para crear la lista de grabaciones para la lengua inglesa, yo me basé en el sistema de escritura SAMPA, para poder usar mi teclado fácilmente. Y puesto que el inglés es una lengua con base CVVC (consonante-vocal-vocal-consonante), opté por crear una lista de grabaciones basada en el mismo principio. 

Ahora, esto no fue fácil, pues mi meta era crear tantos sonidos posibles, con el menor número de grabaciones posible. Nadie quiere grabar sílabas durante cuatro horas si se puede conseguir lo mismo en una sola hora. 

Así pues, al final acabé teniendo que grabar más de 800 sílabas con la lista que creé. Estas 800 grabaciones servirían más tarde para crear aproximadamente 2000 sonidos. Suena extremo, pero creedme cuando os digo que hay cantantes virtuales que cuentan con muchísimas más sílabas y sonidos. 

Mi lista contiene sílabas como las siguientes:
  • t@t
  • prIps
  • rn
  • stE
Literalmente cientos de grupos de fonemas, cuyo objetivo final es cubrir el idioma inglés. 



Una vez grabé todo, la cosa solamente acababa de empezar. Ahora me tocaba editar todas las grabaciones para obtener todas los sonidos deseados. Por ejemplo, los sonidos mencionados anteriormente serían editados para conseguir lo siguiente:

  • t@t: t@ (CV), t@_@ (V tras combinación CV)@t (VC) 
  • prIps: prI (CCV), prI_I (V tras combinación CCV), Ips (VCC)
  • rn: rn (CC)
  • stE: stE (CCV), stE_E (V tras combinación VCC)


Y una cosa que es muy importante, es que los sonidos deben de ser grabados lo más precisamente posible. Las listas de grabaciones no están compuestas por palabras, sino por sonidos. Hay que saber pronunciar los sonidos fuera de contexto. Suena fácil, pero puede ser un tanto difícil.



Acabado con esto, el siguiente paso es otro gran y delicado tema. No os penséis que solamente grabando los sonidos y partiéndolos iba a ser suficiente.

Ahora tenemos que echarle un ojo al espectro de todos y cada uno de los sonidos y marcar un par de elementos muy importantes, como por ejemplo los sonidos consonánticos o fonemas que pueden ser alargados. 

En esta imagen se puede observar como el sonido /Si/ es editado.
La parte más estrecha y tensa corresponde a /S/ y la parte ancha es la vocal.
La barra roja, por ejemplo, indica el final de la consonante, mientras que el área blanca indica que el área puede ser prolongada.


Tenemos que marcar precisamente donde comienzan los elementos necesarios en cada uno de los sonidos. Y aquí es donde es muy imporante que tipo de base tenemos ante nuestro, ya sea CV (consonante-vocal), VCC (vocal-consonante-consonante) o C (pura consonante), entre otros tipo de base. 

Y eso no es todo, también es bastante importante saber con que tipo de consonantes estamos trabajando. Si nos encontramos ante el sonido /la/, por ejemplo, sabemos que /l/ puede ser prolongado y por lo tanto tendremos que marcarlo de una manera distinta al sonido /tE/, por ejemplo, en donde /t/ no puede ser prolongado. 

Este paso me pareció una eternidad, pues hacer todo esto, manualmente, para aproximadamente 2000 sonidos es un trabajo muy tedioso. De hecho, puede tardar meses. Pero es bastante interesante echarle un ojo al espectro de cada fonema e identificar los elementos más importantes en ellos. 

Aquí podéis observar una pequeña parte de la lista de sonidos,
completamente configurados.
El espectro seleccionado muesta el sonido /Eb/.


El siguiente paso es, quizás, el más fácil. Debemos de conocer la pronunciación exacta de las palabras que aparecerán el las canciones que nuestro cantante virtual cantará. De nada sirve todo el esfuerzo si al final no sabemos transcribir las palabras que queremos que el cantante virtual cante.


Después de esto, sí que podemos decir que nuestro cantante virtual está listo para cantar nuestras canciones y, la verdad, los resultados en mi caso han sido de lo más satisfactorios.


A continuación os dejo una canción en inglés, cantada por mi cantante virtual: 




Y aquí os dejo una canción en japonés, cantada por la misma voz:





Para acabar esta entrada, me gustaría hablar de cuanto me fascina el hecho que los cantantes virtuales sean posibles. A mi parecer este fenómeno es un ejemplo perfecto de cuán útil la fonética de las lenguas puede llegar a ser.

Cuando uno estudia fonética, estudia los sonidos que nosotos los humanos emitimos para comunicarnos y cómo éstos son producidos.

Crear un cantante virtual, por el contrario, es un método de aplicar este conocimiento y llegar a crear una voz artificial.

Se dice rápido, pero es que los resultados parecen magia misma.



Espero que hayáis disfrutado la entrada de hoy de Historia de las Lenguas sobre la fonética de los cantantes virtuales.



Y sobre mi cantante virtual, Coll, pues estará disponible para descarga gratuita dentro de muy poco. Ahora mismo me encuentro trabajando en su propia página web, una vez esté acabada, Coll será publicado. Coll viene con tres librerías de voz: inglés, japonés/inglés y growl.

1 comentario:

  1. Hola acabo de escuchar la última canción y de leer casi todo y asta donde e podido leer te deseo mucha suerte y que sigas explicando las cosas así de bien y haciendo canciones como Solo tu sabes hacerlo me gusta mucho cómo lo haces un beso guapo

    ResponderEliminar