Речевой синтез

voder_fairИмитирование голоса и речи — одно из старейших направлений, в котором работают инженеры и музыканты-электронщики. Алгоритмические и акустические аспекты синтеза речи постоянно изучаются, отвечая потребностям всего общества: Восстановленный человеческий или полностью синтезированный голос используется во многих областях и системах, например в телефонии и связи, в интерфейсах для незрячих или для водителей, в системах массового оповещения. Музыка, отражая многие явления индустриального и пост-индустриального общества, не обошла стороной и феномен говорящих машин. У многих с речевым синтезом в первую очередь ассоциируются Kraftwerk с их Radioactivity, Die Roboter. У кого-то ещё могут ассоциироваться U96 и их техно-хит Das Boot.
Для имитации голоса и речи используются вокодеры, компьютеры, семплирование, цифровые и аналоговые речевые синтезаторы, формантные фильтры. Они могут отличаться разной степью достоверности или напротив, необычности. Вокодеры, являясь по сути многополосной цепочкой фильтров, как такового синтеза не производят, поскольку для формирования артикуляционного материала используется человек. А про те устройства, которые генерируют речь самостоятельно, далее и пойдёт речь.

Речевые устройства и чипы

Voder
Этот аппарат был представлен общественности в 1939 году и был создан инженером Bell Labs, Хоумером Дадли на основе патента 1930 года, вокодера. Его интересным отличием было то, что по дизайну он не использовал голос в качестве образца, а работал от специализированного контроллера, состоящего из клавиатуры, на которой выбирались частотные полосы, педали управляющей высотой тона и специальной дощечки под запястье, которая переключала тип фильтруемого сигнала с тона на шум. После года обучения, оператор мог играть на этом инструменте так, чтобы он синтезировал речь и даже пел песни. Видео с аудио-записью презентации и слайд-шоу фотографий можно посмотреть на Youtube. Между прочим, модульная вокодерная подсистема Doepfer A-129 позволяла собрать похожий аппарат с применением дополнительных механических контроллеров и источников шума и тона. К сожалению, некоторые вспомогательные модули этой подсистемы уже сошли с производства и фактически, остались только самые базовые модули.

Votrax
Votrax — это компания, существовавшая с 70-х по начало 90-х. Разработанный Ричардом Т. Ганьоном чип SC-01 использовал цифровое управление и позволял формировать речевые фразы на основе получаемых кодированных фонем, высоты тона и некоторых других параметров. Его модификация со встроенной памятью, SC-01-A, активно использовалась в картах речевого расширения для компьютеров IBM, Apple и Commodore. Также в технологиях синтеза речи на основе компьютера активно использовались и другие чипы Votrax. Существует сайт Real Votrax Voice, который позволяет любому желающему бесплатно зарегистрироваться, ввести в специальную форму фразу и получить через некоторое время звуковой файл с этой фразой, записанной с реально подключенного к интернету устройства с чипом Votrax SC-01.

Florian Schneider Robovox
Флориан Шнайдер известен не только деятельностью в Kraftwerk, но и тем, что он разрабатывал интересные звуковые устройства, на которые даже имеет патенты. Кстати, Doepfer разрабатывали свой вокодер с непосредственным участием Флориана Шнайдера. Одним из его изобретений был разработанный в 80-х годах программно-аппаратный синтезатор речи на основе речевой микросхемы Votrax SC-02 (патент). Именно этот звук использовался при записи Radiactivity. (Фразы «Чернобыль», «Хирошима» и т.д.).

TI Speak & Spell
Эта обучающая игрушка основана на воспроизведении особым образом обработанных семплов с помощью чипа TMC0280. Она входила в серию трёх обычающих игр, которые помогали детям выучить написание, произношение некоторых сложных английских слов, а также счёт. (см. рекламу игрушки) Роботоподобное звучание игрушки было продиктовано необходимостью крайней экономии памяти, в следствие чего оцифрованные дикторские фразы обрабатывались упрощающими алгоритмами, затем вручную исправлялись ошибки, а полученный материал упаковывался в ПЗУ объёмом 256 кбит. Скорость потока голосовых данных составляет примерно 1000 бит в секунду. Существуют способы аналогового управления скоростью воспроизведения, а также принудительного введения чипа в режим петли и выполнения других нестандартных операций. они активно используются сёркюит-бендерами, среди которых Speak & Spell приобрела культовый статус. (См. видео модифицированного Speak & Spell)

Elektron Monomachine SFX60
Этот настольный модуль настолько интересен, что достоин отдельной статьи, но о нём, думаю, уже многое было сказано. Несмотря на название, модуль Monomachine полифонический, мультитембральный и поддерживает 5 разных систем синтеза: эмуляция чипа SID, FM-синтез, субстрактивный синтез, семплер и эмуляция речевого синтеза. Звучание последней очень напоминает изобретение Шнайдера как по духу, так и по звуку: в реальном времени можно управлять тембром, высотой тона с скоростью воспроизведения голосовой фразы. На Youtube можно посмотреть на два отличных демо-ролика использующих модуль речевого синтеза. 1, 2. Рыночная стоимость: 1170 USD.

Flame Talking Synth
Компания Flame выпускает несколько модулей с цифровым управлением. Одним из них является Talking Synth. Этот модуль был выпущен в двух версиях: настольный модуль MIDI Talking Synth с более сложным управлением в реальном времени и упрощённая Eurorack-версия Talking Synth с CV-управлением и некоторыми ограничениями. Модули основаны на чипе Magnevation Speakjet и позволяют в реальном времени проигрывать фразы, фонемы или спец-эффекты с заданной скоростью, высотой тона и тембром. Примеры звука и видео можно прослушать и посмотреть на одной из страниц вебсайта Flame. К сожалению, на данный момент MIDI Talking Synth уже снят с производства, а его упрощённая версия стоит около 300 USD.

Grendel Formant Filter
Eurorack модуль Formant Filter, разработанный Эриком Арчером, сам по себе является не синтезатором речи, а системой формантных фильтров, которая при умелом использовании позволяет достаточно правдоподобно имитировать гласные звуки, обрабатывая поступающий сигнал. Будучи полностью аналоговой, эта система представляется более сложной в управлении, но более гибкой, точной и быстрой, чем чипы и компьютерные реализации. Ручками или с помощью CV управляются частоты трёх фильтров, ассоциированных с объёмом воздушного столба, положением языка и губ. В демонстрационном ролике продемонстрированы многие аспекты работы с этим фильтром. Рыночная стоимость: 229 USD.

soundmachines RB1
Достаточно новый итальянский Eurorack модуль RB1 или Robotto основан на довольно слабенько звучащей вариации на тему SpeakJet, эмулируемой микроконтроллером AVR (Arduino). В текущей реализации прошивки с помощью CV можно выбирать гласную или согласную фонему и устанавливать высоту тона, квантизованную хроматическим звукорядом. Сигнал Gate запускает воспроизведение. Продукт интересен тем, что его поведение можно модифицировать при наличии навыков программирования микроконтроллеров Arduino. Пока, правда, альтернативных прошивок найти нельзя. На странице продукта есть несколько видеороликов с демонстрациями. Рыночная стоимость: 250 USD.

Программные речевые синтезаторы

Votalker
Votalker — программно-аппаратный комплекс синтеза речи для 8-битных компьютеров Commodore и Atari. Позволяет озвучить введённые фразы. Имеет умеренно спокойный тембр голоса. Демо.

S.A.M.
S.A.M. или Software Automated Mouth, был в 1982 году разработан для компьютеров Commodore, Atari и Apple компанией Don’t Ask Software (ныне Softvoice Inc.), основанной Рэнди Саймоном. Продукт поставлялся на дискетах в виде набора ПО, к которому прилагалась солидная инструкция по использованию. ПО представляло собой резидентную часть алгоритма синтеза и набор программ на языке BASIC, которые для работы использовали прямое обращение к памяти и выполнение машинного кода из заданной локации ОЗУ. С помощью параметров задавалась начальная скорость, тембр и высота тона, а также указатель на строчку, содержащую произносимый материал в виде последовательности фонем и специальных символов для управления интонацией. Одна из программ включала в себя приличный «словарь», позволяющий переводить введённые фразы на английском языке в фонетическую форму, используемую конечной машиной. Синтезатор отличается агрессивным, разборчивым и ярким звучанием, а также выраженной артикуляцией. Интересно, что многие пользователи отмечали наличие у этого продукта акцента, который обычно обозначался как «шведский». Программный синтезатор использовался в приложениях для глухих пользователей, в видеоиграх и в музыке. Реализации для Commodore и Atari отличаются из-за разного аппаратного обеспечения. Именно SAM использовался U96 при записи Das Boot. Демо-видео. На сайте Simulation Corner есть страница эмуляции S.A.M., которая позволяет воспроизводить в браузере фразы, введённые в форму. Используется оригинальный словарь.

spp.exe
В интернете нет источников, документирующих или описывающих эту программу, поэтому расскажу только то, что я знаю о ней. Это 16-битное консольное приложение для MS-DOS, которое позволяет на основе введённой фразы на русском языке синтезировать речь с выводом на PC-спикер. Появилось на BBS в 1990-х годах. По слухам, приложение очень долго разрабатывалось каким-то НИИ, однако автор его неизвестен. При фантастическом размере исполняемого файла в 44 кБ, программа отличалась очень разборчивым произношением русского языка и поддерживало синтаксис для управления скоростью и интонацией. К сожалению, документация к программе утеряна. Интересующиеся могут скачать spp.exe и поиграться с ней в эмуляторе dosbox.

Apple text to speech
Компьютеры Apple всегда снабжались программами синтеза речи. На презентации 1984 года, Стив Джобс эффектно «позволил» компьютеру Macintish представить самого себя. Современная операционная система MacOS X также включает в себя встроенные алгоритмы синтеза речи и они действительно хороши. Можно выбрать один из пары десятков голосов (включая олд-скульный классический голос Mac и другие, очень странные голоса), настроить его скорость и высоту.

Google text to speech
В отличие от других синтезаторов речи, алгоритм переводчика Google не настраивается и пытается произнести слова максимально правдоподобно. В правом поле, после введения материала для перевода, появляется иконка с изображением динамика, которая и позволяет прослушать синтезированный (или набранный из семплов) голос.

EWQL SC
Последний продукт, о котором я хотел бы рассказать, это библиотека семплов классического хора East West Quantum Leap Symphonic Choir. Это известный виртуальный инструмент из серии Quantum Leap, который основан на гигантской (десятки ГБ) библиотеке семплов и упрощённого семплера Native Instruments Kompakt. Кроме того, что EWQL SC позволяет достаточно правдоподобно изобразить основные приёмы аккомпанирующего пения хора через MIDI, она также снабжена специальным MIDI-процессором Wordbuilder, позволяющим собирать из фонем целые фразы, которые поёт виртуальный хор. Нельзя назвать получающуюся речь очень разборчивой, но для хоровой манеры исполнения этого вполне хватает при аккуратном обращении.

Добавить комментарий