Como o SSML funciona?

Mostramos como usar SSML para personalizar suas vozes

Aqui, gostaríamos de explicar o que você pode fazer com Speech Synthesis Markup Language (SSML). Com SSML é possível customizar a linguagem gerada. Por exemplo, você pode especificar detalhes sobre pausas e formatação de áudio para acrônimos, datas, horas, abreviações ou texto a ser censurado. Para demonstrar isso em um exemplo, abra o VoiceOverMaker e o editor de áudio:

SSML VoiceOverMaker

O elemento <break></break>

Lá você insere o seguinte texto, conforme mostrado na imagem:

This is a pause <break time="3s"></break> and now I'll continue.

Como você pode ver aqui, o elemento break insere uma pausa de 3 segundos. Também seria possível inserir uma pausa com SSML em milissegundos, por exemplo, 500ms. Normalmente, o ` 'elemento é usado para a saída com SSML; isso não é necessário no VoiceOverMaker.

O elemento <say-as></say-as>

Use este elemento para especificar informações sobre o tipo de construção de texto contido no elemento. Isso também permite determinar o nível de detalhe da representação do texto contido no elemento. O elemento <say-as></say-as> tem o atributo interpret-as obrigatório, que determina a pronúncia do valor. Dependendo do valor em interpret-as, você pode usar o formato de atributos opcionais e detalhes.

O exemplo a seguir é falado como um inteiro:

<say-as interpret-as="cardinal">12345</say-as>

O exemplo a seguir é falado como "Primeiro":

<say-as interpret-as="ordinal">1</say-as>

O exemplo a seguir é falado como "CA N" (inglês):

<say-as interpret-as="characters">can</say-as>

No exemplo a seguir, um bipe é emitido como para censura:

<say-as interpret-as="expletive">censor this</say-as>

Ajusta as unidades ao número ao distinguir entre singular ou plural. O exemplo a seguir é falado como "10 pés":

<say-as interpret-as="unit">20 foot</say-as>

O exemplo a seguir é falado letra por letra (em inglês)

<say-as interpret-as="verbatim">abcdefg</say-as>

O exemplo a seguir é falado como "Dez de setembro de mil novecentos e sessenta":

<say-as detail="1" format="yyyymmdd" interpret-as="date"> 1960-09-10 </say-as>

O exemplo a seguir é falado como "Dez de setembro":

<say-as format="dm" interpret-as="date">10-9</say-as>

O exemplo a seguir é falado como "Duas e meia da tarde":

<say-as format="hms12" interpret-as="time">2:30pm</say-as>

Esses foram exemplos de como os números podem ser pronunciados de maneira diferente. As seguintes opções estão disponíveis como parâmetros para o atributo 'interpret-as':

  • cardinal

  • ordinal

  • characters

  • fraction

  • expletive / bleep

  • unit

  • verbatim / spell-out

  • date

  • time

  • telephone

    O elemento <audio></audio>

    Suporta a inserção de arquivos de áudio gravados e outros formatos de áudio em conjunto com saída de voz sintetizada.

    Atributo:

  • src

  • clipBegin

  • clipEnd

  • speed

  • repeatCount

  • repeatDur

  • soundLevel

    O parágrafo <p>,<s></s></p> elementos

    Exemplo:

    <p><s>This is sentence one.</s><s>This is sentence two.</s></p>

    Se você quiser que uma pausa de voz seja longa o suficiente para você ouvi-la, use as <s></s> e insira a pausa apropriada entre as frases.

    O alias <sub></sub> elemento

    <sub alias="World Wide Web Consortium">W3C</sub>

    Especifica que o texto contido é substituído pelo texto no valor do atributo "alias" quando pronunciado.

    O elemento <prosody></prosody>

    Isso ajusta o tom, a taxa de fala e o volume do texto no elemento. Os atributos taxa , tom e volume são atualmente suportados.

    O elemento <emphasis></emphasis>

    Isso é usado para enfatizar o texto do elemento ou remover a ênfase. Com o elemento <emphasis></emphasis> você altera o idioma de forma semelhante a <prosody></prosody> , mas sem precisar especificar atributos de idioma individuais.

    O atributo level pode ter os seguintes valores:

  • strong

  • moderate

  • none

  • reduced

    Este foi um trecho dos elementos SSML mais comuns. Experimente agora com VoiceOverMaker.