Разговорный искусственный интеллект

разговорный искусственный интеллект и чат-боты

You: что такое разговорный искусственный интеллект, понимание речи и естественного языка, синтез текста и речи по тексту?

Bot: исторические и этимологические словари, предоставляющие информацию об истории слов, начиная с определенной даты на протяжении некоторого периода, с указанием возникновения новых слов и значений, их отмирании и видоизменении, или объясняющие происхождение слов словари языковых форм, которые фиксируют особенности формы слов и в которых толкования значений отсутствуют или играют вспомогательную роль, например, орфографические и орфоэпические, словообразовательные и морфемные (показывают, как слова складываются из морфем и инвентаризуют их), грамматические (информация по каждому слову, позволяющая построить любую грамматически правильную форму), обратные словари словари речевого употребления: словари трудностей и сочетаемости слов ономастиконы: антропонимические словари и топонимические словари нетрадиционные, подвергающие словарному описанию нетипичные лингвистические объекты, например, словарь русских политических метафор А.Баранова и Ю.Караулова, словари поэтических метафор, эпитетов, авторские словари и словари конкордансов. например, известны такие электронные энциклопедии, как энциклопедия британника (www. com), большая энциклопедия Кирилла и Мефодия и энциклопедия круго-свет примерами переводных электронных словарей выступают abbyy lingvo и multitran электронные толковые словари это, в частности, словарь merriam webster и словарь французского языка tresor de la langue francaise формальными электронными словарями являются орфографические словари русского и английского языков. большую коллекцию словарей разных видов на дисках и в интернете предоставляет издательство duden (немецкий язык) и larousse (французский язык) компьютерные словари обычно создаются на базе корпусов текстов с использованием средств автоматической обработки и поиска словарных единиц. для этого привлекаются специальные программы базы данных, компьютерные картотеки, программы обработки текста, которые позволяют автоматически формировать словарные статьи, хранить словарную информацию и обрабатывать ее. так, создание электронного словаря, согласно А.Баранову, включает следующие этапы 4, 84: 1) формирование корпуса текстов и параллельно создание словника 2) автоматическое формирование корпуса примеров 3) написание словарных статей 4) ввод словарных статей в базу данных (бд) 5) редактирование словарных статей в бд 6) корректура текста в бд 7) порождение текста словаря и формирование оригинал-макета 8) печать словаря. конечно, приведенное описание процесса создания электронного словаря может корректироваться в зависимости от его вида, исследовательских принципов и других факторов, см. комментарии создателей электронного исторического словаря русского языка 48. но в любом случае использование компьютеров и уже готовых корпусов текстов в компьютерной лексикографии позволяет уменьшить количество этапов в процессе создания электронного словаря и сэкономить время практически на каждом из них. так, вместо создания словарной карточки в компьютерной лексикографии используются базы данных. записи баз данных дают возможность автоматически сортировать массив по выбранным параметрам, отбирать нужные примеры, объединять их в группы и т. специализированных программных оболочек для лексикографических целей на рынке практически нет. для этих целей вполне под- ходят современные базы данных типа access или paradox. для поиска примеров создатели словарей могут использовать компьютерные программы построения конкордансов, например, dialex. для создания оригинал-макета (верстки) словарей привлекаются издательские системы типа page-maker или winword, которые позволяют приписывать стили зонам словарных статей, алфавитизацию, создание указателей и т. пожалуй, единственный пример специализированной компьютерной программы, предназначенной для компьютерных лексикографических работ, является программа автоматизированного составления и обработки словников (авторы: м. в. в. эта программа достаточно активно используется в филологических исследованиях и подробно представлена в учебном пособии А.Хроленко и а. в. электронные словари имеют положительные стороны не только в процессе их создания, но и в процессе использования. в частности, выделяются следующие преимущества в использовании электронных словарей 40: 1) электронные словари позволяют по-разному представить содержание словарной статьи (различные проекции словаря), в том числе с помощью разнообразных графических и мультимедийных средств, которые не используются в обычных словарях 2) в выдаваемой информации находят отражение различные технологии компьютерной лингвистики, например морфологический и синтаксический анализ, полнотекстовый поиск, распознавание и синтез звука и т. 3) становится возможным быстро получить информацию, которая содержится где-то в недрах словаря и непосредственно отвечает тому запросу, который сформулирован пользователем в удобной для него форме 4) электронный словарь позволяет быстро реагировать на изменения в языке и мире, и выпуск каждой последующей его версии или внесение изменений в онлайн-версию не занимает много времени и труда. несмотря на наличие значительного числа преимуществ использования электронных словарей, остаются нерешенными некоторые проблемы, актуальные как для традиционной, так и для компьютерной лексикографии. в словарях должно найти отражение понятие лексической функции, позволяющее систематически описывать несвободную сочетаемость слов, иллюстрируемую следующими примерами русского языка: войну ведут, а экзамен держат, теории выдвигают , а мысли подают и т. не нашла отражение в массовой лексикографической практике проблема описания семантики и практической реализации грамматического словоизменения и словообразования. каждый язык имеет свои собственные способы грамматического кодирования смысла, которые не описываются в массовых словарях систематически. например, как передать по-английски смысл довыпендриваться, даже если знаешь, как передать выпендриваться? в словарях не существует даже системы понятий, с помощью которой синтаксическая информация могла бы быть доведена до обычного читателя. решением этой проблемы могли бы стать интегральные словарные описания, основанные на формальных моделях, учитывающие прогрессивные лексикографические идеи. на этих же моделях следует организовать технологии доступа к словарному содержанию 40. названные проблемы могут быть решены при сотрудничестве лексикографов-теоретиков и практиков, а компьютерные инструменты, несомненно, облегчат рутинную работу по осуществлению монотонных лексикографических операций. в целом констатируем, что компьютерная лексикография, направленная на создание электронных словарей, представляет собой весьма перспективное и нужное направление компьютерной лингвистики, поскольку создаваемые ею продукты электронные словари отличаются многогранностью, мультимедийностью, интеграцией новейших технологических решений, актуальностью материала и отвечают потребностям пользователя в организации доступа к необходимой информации. чего говорить о распознавании речи, пусть хотя бы тексты научатся переводить. хотя бы технические. кто видел результаты машинного перевода, меня поймёт. машина в принципе не способна сделать вменяемый перевод, потому что для этого надо понять о чём речь в тексте идёт. кстати, когда человек, даже хорошо знающий язык берётся переводить текст которого не понимает, всё равно галиматья получается. нормализация текста - приведение всех слов текста к начальной форме: к именительному падежу, единственному числу (если таковое есть) или инфинитиву для глаголов. такая процедура необходима для быстрого поиска слова в словарях, синтаксического и семантического разбора текста, и применения соответствующих инструкций или правил. таким образом, можно составить следующие два алгоритма обработки текста на ЕЯ: алгоритм анализа текста (рис. 1) и алгоритм синтеза текста (преимущество таких систем состоит в том, что они дают возможность синтезировать текст по не заданному заранее тексту, а недостаток - в том, что качество синтезированной речи несопоставимо с качеством речи естественной (на границах сшивки элементов могут возникать искажения)). также весьма трудно управлять интонационными характеристиками речи, так как характеристики отдельных слов могут изменяться в зависимости от контекста или типа фразы.

You: где и как применяются программы синтеза текста и речи по тексту?

Bot: метод параметрического представления требует компромисса между качеством речи и возможностью изменять параметры. исследователи обнаружили, что для синтеза речи выс. качества необходимо иметь несколько разл. произношений ед. синтеза (например, слога), что ведет к увеличению словаря исх. без каких бы то ни было сведений о контекстной ситуации, оправдывающей тот или иной выбор. по этой причине процесс синтеза получает еще более абстр. характеристики и переходит от параметр. представления к разработке набора правил, по которым вычисляются необходимые параметры на основе вводного фон. описания. это вводное представление содержит само по себе мало инфо: имена фон. сегментов ( напр, гл. и согл. ) со знаками ударения, обозначениями тона и временных характеристик таким образом, метод синтеза по правилам использует малоинформативное описание на входе ( менее 100 бит/сек). этот метод дает полную свободу моделирования параметров, но необходимо подчеркнуть, что правила моделирования несовершенны. синтезированная речь хуже натуральной, тем не менее, она удовлетворяет тестам по разборчивости и понятности. на уровне предложения и параграфа правила предоставляют необходимую степень свободы для создания плавного речевого потока. структура данной работы основывается на последовательном изложении проведенных исследований по решению поставленных задач. в главе 1 приводится анализ состояния проблемы, предлагается концептуальная модель синтеза речи, рассматриваются основы построения моделей и формируются требования к ним. приводится постановка задачи исследования. глава 2 посвящена анализу высказываний и типов характеристик просодии. создаются и исследуются модели по формированию основных просодических параметров речи. в 3 главе описывается синтез просодических характеристик с учетом ограничений, позволяющий ввести управление моделью легких по каналам синтеза просодии и артикуляции. рассматривается модель легких как объекта управления. в 4-й главе предлагаются реализации системы синтеза параметров просодии и описываются результаты работы на примере реальных программных средств. в заключении приводятся результаты выполненной работы и делаются основополагающие выводы по итогам диссертационной работы. информация: text-to-speech (tts) engine или движки синтеза речи - программы похожие на драйвера, предназначены для преобразования и синтеза текста в звуковую волну. движки синтеза речи не имеют встроенного управления и для того, чтобы ваш компьютер заговорил, не достаточно одного tts. для использования tts необходима программа синтеза (textaloud, cool reader, balabolka и т.д.), которая заменяет интерфейс, позволяя работать с tts, изменять его настройки, звучание и тембр речи, и управлять остальными возможностями. подводя итог, отметим, что система синтеза речевого сигнала по печатному тексту должна рассматриваться как сложная система преобразования различных видов информации с использованием информации о системе речеобразования человека и особенности языка. в настоящее время она не решена и заслуживает пристального внимания со стороны исследователей. подчеркнем, что проблемой синтеза речи по печатному тексту занимались известные ученые Сорокин В. , Лобанов Б.В. и другие. основным недостатком исследований являлось отсутствие разграничения того, что определяется языком и что определяется диктором. как правило, исследования не объединялись общей идеологией языка применительно к синтезу речи. входные линии подключаются к телефонному интерфейсу, обеспечивающему защиту аппаратуры от перегрузок, вызванных переходными процессами. здесь же происходит распознавание входящего звонка. пройдя интерфейсные цепи, входной сигнал попадает на вход устройства кодировки/декодировки (codec) , где происходит его оцифровка. оцифрованная информация попадает на микросхему sc2000, где определяется, будет ли данная информация передана по шине scsa для дальнейшей обработки на другие устройства или ее предполагается обрабатывать в пределах самой платы. именно здесь и обеспечивается использование, например, внешних плат распознавания речи. обработка оцифрованного звукового сигнала происходит в dspпроцессорах motorola 56002 на основе программного обеспечения springware. здесь выполняются такие функции, как сжатие/восстановление звукового сигнала для передачи его по системной шине компьютера, подстройка уровня громкости и коэффициента усиления, распознавание сигналов тонового набора, распознавание молчания в линии, а также мониторинг соединения. контроллер hdlc (high-level data link controller) осуществляет доступ к управляющей линии шины scbus и обеспечивает передачу управляющих сигналов и распознавание коллизий. расположенный на плате процессор 80x286 управляет ее работой и обеспечивает правильную интерпретацию и выполнение команд от центрального процессора, тем самым поддерживая взаимодействие голосовой платы с прикладной программой. процессор работает с системной шиной через оперативную память совместного использования, играющую также роль буфера при передаче файлов. работа платы управляется программным обеспечением, хранящимся в оперативной памяти кода/данных и памяти dsp. данное программное обеспечение загружается при инициализации системы с жесткого диска. результаты решения задачи синтеза речи могут быть использованы и в смежных областях, например, в машинном переводе и при передаче речевого сигнала по каналам связи (вокодерах). решение задачи синтаксического анализа предложений и морфологического анализа слов имеет большое значение для решения задач в машинном переводе. необходимо отметить, что анализ типов высказывания при машинном переводе и синтезе речи ведется аналогичным образом. поэтому решение проблем полного синтеза речевого сигнала по печатному тексту является одной из актуальных задач, имеющей существенное значение в смежных областях. вокодерная связь особый вид связи, которую можно отнести к проблемно-ориентированным системам. наибольшего качества ее можно достичь при использовании мощных алгоритмов анализа, распознавания и синтеза речи. особенно актуальна она в защищенных системах передачи данных. проверить, как правильно звучит слово, прочитать e-mail за рулём или озвучить текст робота в фильме типичные ситуации, в которых вам может понадобиться синтезатор речи. многие платные и бесплатные программы осуществляют перевод текста в речь на всех платформах, но не все они подходят русскоязычным пользователям. озвучка текста на русском языке поддерживается далеко не всеми зарубежными по и онлайн-ресурсами. да и их разработчики не всегда могут запрограммировать орфоэпические и интонационные нюансы.

You: как понимание и синтез текста и речи применяется в говорящих программах - чат ботах?

Bot: в итоге процесс автоматического анализа речи включает ввод слов в компьютер через микрофон, начитанных разными дикторами, их спектральную обработку и создание набора признаков, своеобразного образца слова, который выступает знаком языка. при распознавании звучащей речи реальные признаки составляющих ее единиц сравниваются с признаками и образцами слов, существующими в памяти машины. результатом сравнения является транскрипция или орфографическая запись слова. но при автоматическом анализе слитной речи дополнительную трудность составляет отсутствие четких границ между словами. человек для преодоления этой трудности кроме акустических сигналов обычно использует самые разные другие источники информации: ситуацию, контекст, структуру языкового высказывания, прошлый опыт в данной области и т.д. аналогичные правила ученые пытаются применить и к машинам и стремятся задействовать в современных системах анализа речи кроме акустического другие уровни системы языка: лексический, синтаксический, семантический, прагматический. включение семантического уровня в автоматический анализ речи приводит, в частности, к следующим последствиям: 1) машина устанавливает, что введенные предложения многозначны и правдоподобны 2) машина прогнозирует, что в определенных речевых контекстах могут возникать определенные типы общения в зависимости от такого прогнозируемого типа общения машина интерпретирует предложение 35, 120. очевидно, что создание систем анализа речи такого сложного уровня предусматривает сотрудничество представителей самых разных специальностей. для экономии времени и усилий ученых и практиков различные компании, в том числе microsoft, выпускают средства анализа и синтеза речи в виде программных модулей и интерфейсов. программисты, не обладающие познаниями в области лингвистики, математики и биологии, могут использовать готовые интерфейсы и программные модули в собственных разработках. правда, в этом случае речевые возможности программ будут ограничены использованными средствами и технологиями. например, многие средства анализа и синтеза речи не способны работать с русским языком, что ограничивает их использование в России 49. можно назвать следующие примеры программ, в которых применяются средства автоматического анализа речи: программы голосового управления компьютером и бытовой техникой voicenavigator и truffaldino (компания центр речевых технологий, С.-Петербург) комплекс голосового управления мобильным телефоном divo (центр речевых технологий) программный модуль voice key для идентификации личности по парольной фразе длительностью 35 секунд (центр речевых технологий) программы диктовки текста на английском языке: voicetype dictation (ibm), dragondictate (dragon systems) на русском языке: комбат (байт груп) к диктограф (voice member technology))) система распознавания речи, встроенная в microsoft office хр (работает только с английским языком) голосовой поиск (например, в поисковой системе google). так, программа voicenavigator позволяет запускать компьютерные приложения и выполнять заданные команды голосом без использования клавиатуры. перед применением программы ее необходимо обучить, произнеся в микрофон слова команд (команды можно произносить на любом языке и любым голосом). чтобы программа начала распознавать голосовые команды, ее необходимо разбудить, произнеся ключевое слово 49. использование модулей распознавания речи весьма перспективно в различных областях деятельности: в обслуживании клиентов, проведении судебных экспертиз, биометрии, обучении, научных исследованиях и т.д. но массовое внедрение речевых технологий тормозится высокой стоимостью разработок и предлагаемых технологий, а также их пока еще низким качеством. в целом задача автоматического анализа речи является весьма сложной и решена лишь отчасти. в сравнении с ней задача автоматического синтеза речи оказывается более простой, и с примерами ее массового использования в обиходной жизни мы сталкиваемся постоянно. в частности, автоматически синтезируется речь в следующих ситуациях: называние текущего времени по телефону, объявление остановок в метро, называние остатка средств на счету и другие услуги мобильных операторов, оповещение систем гражданской безопасности и т. автоматический синтез (генерация) речи в настоящее время осуществляется путем составления слов и фраз из заранее записанных диктором образцов отдельных звуков (метод компилятивного синтеза) или путем моделирования речевого тракта человека формантно-голосовой метод)49. первый метод используется главным образом для синтеза относительно небольшого и заранее известного набора фраз. при этом обеспечивается довольно высокое качество звучания, поскольку синтезируемая речь базируется на элементах естественной человеческой речи. тем не менее на стыке составляемых звуковых фрагментов возможны интонационные искажения и разрывы, заметные на слух. кроме того, создание крупной базы данных звуковых фрагментов, учитывающей все особенности произношения фонем с разными интонациями, представляет собой сложную и кропотливую работу. второй метод оказывается более сложным, поскольку здесь необходимо точное моделирование особенностей речевого тракта человека, а также учет интонационной модуляции речи. в силу названных особенностей формантно-голосовая модель обладает относительно низкой точностью синтезируемых звуков речи. в качестве примера программы, синтезирующей речь, можно назвать программу govorilka (разработчик: А. Рязанов). основные особенности данной программы состоят в следующем: программа читает текст разными голосами и на разных языках, в том числе на русском исходный текст для чтения может быть загружен из текстового файла или набран в окне программы при помощи клавиатуры можно сохранить результаты синтеза речи, записав файл формата wav или mp3. таким образом, несмотря на мощность современных компьютеров, проблема оснащения компьютера полноценным речевым интерфейсом еще далека от своего завершения. главной проблемой при создании программ автоматического распознавания речи является то, что компьютер не умеет работать со смыслом. в синтезе речи уже имеются определенные достижения, которые внедрены в массовую практику метод параметрического представления требует компромисса между качеством речи и возможностью изменять параметры. исследователи обнаружили, что для синтеза речи высокого качества необходимо иметь несколько разл. произношений ед. синтеза (например, слога), что ведет к увеличению словаря исх. без каких бы то ни было сведений о контекстной ситуации, оправдывающей тот или иной выбор. по этой причине процесс синтеза получает еще более абстрактную характеристику и переходит от параметрического представления к разработке набора правил, по которым вычисляются необходимые параметры на основе вводного фон. описания. это вводное представление содержит само по себе мало информации: имена фон. сегментов ( напр, гл. и согл. ) со знаками ударения, обозначениями тона и временных хар-к. таким образом, метод синтеза по правилам использует малоинформ. описание на входе ( менее 100 бит/сек). этот метод дает полную свободу моделирования параметров, но необходимо подчеркнуть, что правила моделирования несовершенны. синтезированная речь хуже натуральной, тем не менее, она удовлетворяет тестам по разборчивости и понятности. на уровне предл. и параграфа правила предоставляют необходимую степень свободы для создания плавного речевого потока. поскольку softline занимается роботизацией и автоматизацией бизнеса, применение чат-ботов рассматривается как входная точка для автоматизации бизнес-процессов. речь идет об обеспечении сквозной автоматизации и создании полноценной экосистемы, подразумевающей не только преобразования на уровне входящих операций и коммуникации с клиентами, но и автоматизацию бэк-офиса, который отвечает за обработку информации, поступающей от клиентов. создаваемая экосистема роботизации позволяет автоматизировать весь бэк-офис, начиная от поступления заявки через различные каналы (помимо голосовых чат-ботов, это телефон, электронная почта, внешние интернет-сайты) и заканчивая дальнейшим процессингом заявок. достигается это за счет применения различных технологий, которые между собой взаимодействуют, образуя единую среду. помимо привычной автоматизации в бэкенде на уровне специализированных информационных систем, мы применяем rpa-технологии, интегрируем системы между собой на основе шины данных, создаем корпоративные порталы и внедряем bpm-системы (автоматизация бизнес-процессов). за счет использования нескольких взаимосвязанных систем омниканальность возможно на внутренние операции и обеспечить их сквозное выполнение. так уж получилось, что рынок чат-ботов находится где-то посередине: на технологическом стыке между приложениями и системами связи. и в этой области сейчас происходит стремительный синтез (я бы даже сказал генетическое скрещивание) алгоритмов, возможностей из нескольких отраслей it, ранее разделенных. ведь чат-бот сейчас это и интерфейс приложения, и система связи, и поиск по базе данных. мы наблюдаем в прямом эфире за рождением новой химеры информационного века, нового стандарта общения человека с компьютером, и даже компьютера с компьютером. исследователи выявили, что машинам на сегодняшний день удаётся почти без ошибок распознавать человеческую речь, но проблемы возникают в ситуациях, когда речь не подготовлена и не записана специально, а происходит в неформальной обстановке. проблемы в синтезе речи включают в себя имитирование эмоциональности речи и синтез редких языков, которые обладают недостаточным объёмом данных для моделирования. мы стараемся отслеживать появление новых участников и технологий в этой области и собираемся регулярно обновлять и дополнять новыми участниками и категориями приведенную карту рынка. кроме того, мы подготовим обзор диалоговых платформ и опишем наши собственные кейсы создания разговорных скилов. отдельный интерес представляет также сравнение различных алгоритмов определения семантической близости в применении к разным предметным областям и технологии обучения разговорных систем. всему этому мы и хотим посвятить блог команды just ai на хабре.