Блог olenka.ai ru
искусственный интеллект

История развития разговорного искусственного интеллекта

Когда мы говорим об автоматизации звонков с искусственным интеллектом (ИИ), первой приходит мысль об автоматическом звонке, который начинается со слов «Уважаемый клиент! Вас беспокоит…» и дальше по тексту. И вы понимаете, что не хотите, чтобы вас беспокоили. Да и чувствуете себя не таким уж и уважаемым, если общаться с вами поручили устаревшему IVR с более чем ограниченным словарным запасом.

Но ведь у этой технологии нет ничего общего с искусственным интеллектом или голосовыми роботами нового поколения, и пользуются ею уже всё меньше. Мы решили совершить небольшой экскурс в историю и перспективы разговорного ИИ — именно того, которому прочат блестящее будущее.

Первые попытки научить машину говорить

Считается, что первый синтезатор речи ещё в 1773 создал немецкий учёный Кристиан Кратценштейн. Он поместил мелкие металлические детали в трубки от органа (речь идёт о музыкальном инструменте) и с помощью резонанса научил своего «‎робота» произносить звуки «‎а», «‎е», «‎и», «‎о» и «‎у».

Спустя почти 20 лет успех Кратценштейна повторил австриец Вольфганг фон Кемпелен. Его машина комплектовалась мехами для нагнетания воздуха, а человек помогал управлять специальным металлическим язычком, который и произносил простые слова вроде «‎мама» или «‎папа». Потом последовали машины, которые умели имитировать звучание радиоприёмника и даже петь. Первый же механизм, реально понимавший человеческий язык, появился в начале 50-х годов прошлого века.

От Audrey до Dragon NaturallySpeaking

Все началось с учёных, работавших над электронным синтезом речи. Они смогли с помощью наборов звуков и частотного резонанса сымитировать большинство звуков, которые способен «издавать» речевой аппарат человека. 

В 1952 году революционной по тем временам технологией воспользовались инженеры американской научно-исследовательской компании Bell Telephone Laboratories (сейчас — Nokia Bell Labs). Они создали Audrey — машину, которая распознавала цифры от нуля до девяти. Её научили воспринимать «эталонные» образцы и сравнивать с ними цифры, которые называли вслух. Это стало точкой отсчёта в многолетнем развитии технологий распознавания.

Через 10 лет, в 1962-м, свою разработку представила корпорация IBM. Её инженеры создали вычислительную машину Shoebox, воспринимавшую «‎на слух» все цифры и команды для операций с ними («‎плюс», «‎минус» и т. д.).

В 1966 году Джозеф Вайзенбаум, профессор Лаборатории искусственного интеллекта Массачусетского технологического института, представил человечеству ELIZA. Это была одна из самых первых компьютерных программ для обработки естественной речи. Она моделировала разговор по методологии «соответствия шаблона»: определяла узнаваемое ключевое слово и искала соответствие в своём скрипте.

Конечно, она ещё не умела контекстуализировать факты или события, поэтому отвечала достаточно однотипно. Например, если человек упоминал о своей матери, ELIZA говорила что-то вроде «Расскажи мне больше о своей матери». И тем не менее она считается первым полноценным голосовым роботом.

В течение нескольких десятилетий разработчики работали над совершенствованием технологий распознавания. В 1990 году, когда компьютеры начали комплектовать более мощными процессорами и достаточным объёмом оперативной памяти, супруги Джанет и Джеймс Бейкеры презентовали программу Dragon Dictate. Она уже могла распознать до 30 000 слов, правда, произносить их приходилось очень медленно, чётко и с большими интервалами. А в 1997-м появилась улучшенная система Dragon NaturallySpeaking, понимавшая непрерывные монологи со скоростью речи до 100 слов в минуту.

Голосовые технологии настоящего

Новая эра в развитии голосовых программ началась в нулевых, когда к технологиям распознавания стали применять машинное обучение. Благодаря этому роботы начали предоставлять более точные и исчерпывающие ответы на вопросы, а появление смартфонов дало этому направлению новый виток.

Голосовые помощники

Виртуальные ассистенты вроде Siri стимулировали развитие голосового поиска. По данным некоторых исследований, до 40% потребителей регулярно используют такие технологии, чтобы покупать товары и заказывать услуги. И если раньше голосовые ассистенты были ограниченными в функционале, то сегодня они могут решать довольно сложные задачи.

Технологии синтеза речи также не стояли на месте, так что современные виртуальные помощники звучат более естественно. А разработчики даже научились наделять их «индивидуальностями» — порой кажется, что у каждого из них есть собственный характер.

Интеллектуальные чаты

Текстовые чат-боты стали особенно популярными в сфере самообслуживания. Они зарекомендовали себя как быстрый и комфортный способ решения несложных вопросов. К примеру, их используют для бронирования столиков в ресторанах или получения базовой технической поддержки.

Несмотря на это, у чат-ботов есть несколько существенных недостатков. Их скрипты рассчитаны на выполнение только простых и чётко сформулированных запросов. Если человек при наборе текста допустит ошибку, программа уже не сможет правильно распознать фразу и начнёт «‎заговариваться». Наконец, пользоваться чат-ботами не могут люди, у которых нет компьютеров, планшетов или смартфонов, как и большой процент потребителей старшего поколения. Хотя в последнее время разработчики и используют в создании чатов искусственный интеллект, превратить их в полноценных виртуальных ассистентов пока возможности нет.

Голосовые роботы на NLU и их перспективы

В последние годы технологические компании стали больше внимания уделять голосовым технологиям — телефонным ботам. Голосовой робот — это облачный сервис для автоматического обзвона, который общается с клиентами как живой человек. Рассмотрим преимущества технологии на примере нашей программы Olenka.ai.

Голосовой робот — это современная, продуктивная и сравнительно недорогая альтернатива даже большому колл-центру. Olenka.ai работает на базе многоканальной телефонии и одновременно звонит сразу многим абонентам.

В основе работы программы — скрипт, который составляют профессиональные маркетологи и лингвисты. Они изучают задачи голосовой кампании, пишут конверсионный сценарий, а программисты учат программу распознавать реплики клиентов и определять контекст ответов. Благодаря использованию технологий машинного обучения и NLU (понимания естественного языка) алгоритмы программы выбирают из множества вариантов и озвучивают то, что подсознательно ожидает услышать клиент.

Почему качество распознавания — это основа эффективности голосового робота? Естественную речь сложно «подстроить» под определённые лингвистические или семантические правила. В разговоре мы не всегда соблюдаем правильный порядок слов, используем сленг и диалектизмы, некоторые слова произносим или вообще употребляем неправильно. В отличие от NLР (технологии обработки природного языка), NLU не только «моделирует» языковые правила в зависимости от контекста диалога, но говорит максимально естественно. Этого удалось добиться благодаря отказу от синтезированной речи и записи каждой реплики работа у профессиональных дикторов, как это делаем мы в Olenka.ai.

Высокое качество распознавания, способность самостоятельно анализировать всё новые массивы данных и находить соответствия между словами и намерениями, которые могут за ними скрываться, делают Olenka.ai одним из самых комфортных ботов для работы с клиентами. А гибкость в подготовке скриптов позволяет использовать нашу программу в решении различных задач:
  • информировать о важных изменениях, событиях, специальных предложениях и акциях;
  • проводить опросы, анкетирования, исследования для определения уровня удовлетворённости клиентов, изучения рынка, целевой аудитории, конкурентов;
  • собирать обратную связь;
  • приглашать гостей на ивенты;
  • оказывать клиентам поддержку (подтверждать заказы, предлагать сопутствующие товары, прорабатывать возражения, принимать жалобы);
  • обзванивать холодные телефонные базы и генерировать лиды.

В сравнении с голосовыми ассистентами и чат-ботами голосовые роботы значительно продуктивнее. Они самостоятельно звонят по телефону абонентам в нужное заказчику кампании время, собирают информацию и структурируют или актуализируют её в зависимости от цели обзвона.

Виртуальные же ассистенты используются преимущественно для поиска информации или  или как помощники в планировании — например, для напоминаний о встречах, необходимости купить продукты и т. д. Серьёзная проблема таких программ — низкое качество распознавания запросов в шумной среде. Современные голосовые роботы игнорируют лишние звуки и фокусируются на том, что говорит собеседник.

Чат-боты эффективны в случаях, когда клиенты сами обращаются к ним за помощью — такой робот не начнёт диалог первым. Голосовая программа обзвона может работать как на исходящих, так и на входящих звонках, выполняя функции первой линии колл-центра (принимать обращения, отвечать на типовые вопросы и распределять звонки между ответственными сотрудниками).

Грамотно спроектированный голосовой робот позволяет поддерживать с клиентами постоянную коммуникацию. Программы нового поколения вроде Olenka.ai интегрируются с CRM и получают доступ к истории взаимодействий с каждым клиентом, благодаря чему могут сделать общение более персонализированным. Например, проанализировать условия, при которых человек покупал у вас, и предложить аналогичные товары или дополнительные бонусы — скидки, бесплатные сервисы и т. д. А способность самостоятельно обновлять данные дают бизнесам возможность лучше понимать своих клиентов.

В Deloitte, например, считают, что в ближайшие годы фокус разработки будет сосредоточен именно на голосовых роботах. Это можно объяснить их способностью обрабатывать значительно большие массивы данных и эффективно обучаться в процессе работы. То есть со временем они будут, вести всё более сложные и продуктивные диалоги,с широкими возможностями для персонализации. Всё ещё сомневаетесь в том, улучшат ли голосовые боты бизнес-процессы в вашей компании? Запишитесь на бесплатную консультацию к нашему маркетологу и задайте все интересующие вас вопросы!