Jak działa SSML?

Pokazujemy, jak używać SSML do dostosowywania głosów

W tym miejscu chcielibyśmy wyjaśnić, co można zrobić za pomocą języka SSML (Speech Synthesis Markup Language). Dzięki SSML można dostosować wygenerowany język. Na przykład można określić szczegóły dotyczące przerw i formatowania dźwięku dla akronimów, dat, godzin, skrótów lub tekstu, który ma być ocenzurowany. Aby zademonstrować to na przykładzie, otwórz VoiceOverMaker i edytor audio:

SSML VoiceOverMaker

Element <break></break>

Tam wprowadź następujący tekst, jak pokazano na zrzucie ekranu:

This is a pause <break time="3s"></break> and now I'll continue.

Jak widać tutaj, element break wstawia 3-sekundową przerwę. Możliwe byłoby również wstawienie pauzy w SSML w milisekundach, np. 500ms. Zwykle rozszerzenie ` 'element jest używany na wyjściu z SSML; nie jest to konieczne w VoiceOverMaker.

Element <say-as></say-as>

Użyj tego elementu, aby określić informacje o typie konstrukcji tekstu zawartej w elemencie. Pozwala to również określić poziom szczegółowości reprezentacji tekstu zawartego w elemencie. Element <say-as></say-as> ma wymagany atrybut interpret-as, który określa wymowę wartości. W zależności od wartości w opcji interpretuj jako, możesz użyć opcjonalnego formatu i szczegółów atrybutów.

Poniższy przykład jest odczytywany jako liczba całkowita:

<say-as interpret-as="cardinal">12345</say-as>

Poniższy przykład jest czytany jako „Pierwszy”:

<say-as interpret-as="ordinal">1</say-as>

Poniższy przykład jest używany jako „CA N” (angielski):

<say-as interpret-as="characters">can</say-as>

W poniższym przykładzie emitowany jest sygnał dźwiękowy jak przy cenzurze:

<say-as interpret-as="expletive">censor this</say-as>

Dostosowuje jednostki do liczby podczas rozróżniania między liczbą pojedynczą a mnogą. Poniższy przykład jest wymawiany jako „10 stóp”:

<say-as interpret-as="unit">20 foot</say-as>

Poniższy przykład jest wymawiany list po literze (w języku angielskim)

<say-as interpret-as="verbatim">abcdefg</say-as>

Następujący przykład jest czytany jako „Dziesiąty września 1960”:

<say-as detail="1" format="yyyymmdd" interpret-as="date"> 1960-09-10 </say-as>

Następujący przykład jest czytany jako „Dziesiąty września”:

<say-as format="dm" interpret-as="date">10-9</say-as>

Następujący przykład jest czytany jako „Druga trzydzieści”:

<say-as format="hms12" interpret-as="time">2:30pm</say-as>

To były przykłady tego, jak można inaczej wymawiać liczby. Następujące opcje są dostępne jako parametry atrybutu „interpret-as”:

  • cardinal

  • ordinal

  • characters

  • fraction

  • expletive / bleep

  • unit

  • verbatim / spell-out

  • date

  • time

  • telephone

    Element <audio></audio>

    Obsługuje wstawianie nagranych plików audio i innych formatów audio w połączeniu z syntetyzowanym wyjściem głosowym.

    Atrybut:

  • src

  • clipBegin

  • clipEnd

  • speed

  • repeatCount

  • repeatDur

  • soundLevel

    Elementy akapitu <p>,<s></s></p>

    Przykład:

    <p><s>This is sentence one.</s><s>This is sentence two.</s></p>

    Jeśli chcesz, aby przerwa głosowa była wystarczająco długa, aby ją usłyszeć, użyj <s></s> i wstaw odpowiednią pauzę między zdaniami.

    Element alias <sub></sub>

    <sub alias="World Wide Web Consortium">W3C</sub>

    Określa, że tekst zawarty w wymowie jest zastępowany tekstem o wartości atrybutu „alias”.

    Element <prosody></prosody>

    To dostosowuje tonację, szybkość mówienia i głośność tekstu w elemencie. Stopa atrybuty, skoku i objętość są obecnie obsługiwane.

    Element <emphasis></emphasis>

    Służy do podkreślenia tekstu elementu lub usunięcia wyróżnienia. Za pomocą elementu <emphasis></emphasis> zmieniasz język podobnie jak <prosody></prosody> , ale bez konieczności określania indywidualnych atrybutów języka.

    Atrybut poziomu może mieć następujące wartości:

  • strong

  • moderate

  • none

  • reduced

    To był fragment najpopularniejszych elementów SSML. Wypróbuj teraz z VoiceOverMaker.