¿Cómo funciona SSML?

Te mostramos cómo usar SSML para personalizar tus voces

Aquí nos gustaría explicar lo que puede hacer con Speech Synthesis Markup Language (SSML). Con SSML es posible personalizar el idioma generado. Por ejemplo, puede especificar detalles sobre pausas y formato de audio para acrónimos, fechas, horas, abreviaturas o texto que se censurará. Para demostrar esto en un ejemplo, abra VoiceOverMaker y el editor de audio:

SSML VoiceOverMaker

El elemento <break></break>

Allí ingresa el siguiente texto como se muestra en la captura de pantalla:

This is a pause <break time="3s"></break> and now I'll continue.

Como puede ver aquí, el elemento de interrupción inserta una interrupción de 3 segundos. También sería posible insertar una pausa con SSML en milisegundos, por ejemplo, 500ms. Normalmente, el ` 'elemento se utiliza para la salida con SSML; esto no es necesario en VoiceOverMaker.

El elemento <say-as></say-as>

Utilice este elemento para especificar información sobre el tipo de construcción de texto que contiene el elemento. Esto también le permite determinar el nivel de detalle de la representación del texto contenido en el elemento. El elemento <say-as></say-as> tiene el atributo interpret-as requerido, que determina la pronunciación del valor. Dependiendo del valor en interpretar como, puede usar el formato y detalle de atributos opcionales.

El siguiente ejemplo se expresa como un número entero:

<say-as interpret-as="cardinal">12345</say-as>

El siguiente ejemplo se dice como "Primero":

<say-as interpret-as="ordinal">1</say-as>

El siguiente ejemplo se dice como "CA N" (inglés):

<say-as interpret-as="characters">can</say-as>

En el siguiente ejemplo, se emite un pitido como para censurar:

<say-as interpret-as="expletive">censor this</say-as>

Ajusta las unidades al número al distinguir entre singular o plural. El siguiente ejemplo se dice como "10 pies":

<say-as interpret-as="unit">20 foot</say-as>

El siguiente ejemplo está hablado letra por letra (en inglés)

<say-as interpret-as="verbatim">abcdefg</say-as>

El siguiente ejemplo se dice como "El diez de septiembre de mil novecientos sesenta":

<say-as detail="1" format="yyyymmdd" interpret-as="date"> 1960-09-10 </say-as>

El siguiente ejemplo se dice como "El diez de septiembre":

<say-as format="dm" interpret-as="date">10-9</say-as>

El siguiente ejemplo se dice como "Dos y media de la tarde":

<say-as format="hms12" interpret-as="time">2:30pm</say-as>

Estos fueron ejemplos de cómo los números se pueden pronunciar de manera diferente. Las siguientes opciones están disponibles como parámetros para el atributo 'interpretar como':

  • cardinal

  • ordinal

  • characters

  • fraction

  • expletive / bleep

  • unit

  • verbatim / spell-out

  • date

  • time

  • telephone

    El elemento <audio></audio>

    Admite la inserción de archivos de audio grabados y otros formatos de audio junto con la salida de voz sintetizada.

    Atributo:

  • src

  • clipBegin

  • clipEnd

  • speed

  • repeatCount

  • repeatDur

  • soundLevel

    Los elementos de párrafo <p>,<s></s></p>

    Ejemplo:

    <p><s>This is sentence one.</s><s>This is sentence two.</s></p>

    Si desea que una pausa de voz sea lo suficientemente larga para que la escuche, use <s></s> e inserte la pausa adecuada entre las oraciones.

    El elemento alias <sub></sub>

    <sub alias="World Wide Web Consortium">W3C</sub>

    Especifica que el texto contenido se reemplaza por el texto en el valor de atributo "alias" cuando se pronuncia.

    El elemento <prosody></prosody>

    Esto ajusta el tono, la velocidad de habla y el volumen del texto en el elemento. Actualmente, se admiten los atributos de velocidad , tono y volumen.

    El elemento <emphasis></emphasis>

    Esto se usa para enfatizar el texto del elemento o quitar el énfasis. Con el elemento <emphasis></emphasis> cambia el idioma de forma similar a <prosody></prosody> , pero sin tener que especificar atributos de idioma individuales.

    El atributo de nivel puede tener los siguientes valores:

  • strong

  • moderate

  • none

  • reduced

    Este fue un extracto de los elementos SSML más comunes. Pruébelo ahora con VoiceOverMaker.