Блог olenka.ai
штучний інтелект

Історія розвитку розмовного штучного інтелекту

Коли ми говоримо про автоматизацію дзвінків зі штучним інтелектом (ШІ), першою на думку спадає згадка про роботичний дзвінок, що починається словами «Шановний клієнт! Вас турбує…» і далі по тексту. І ви розумієте, що не хочете, аби вас турбували. Та й відчуваєте себе не таким уже й шановним, якщо спілкуватися з вами доручили застарілому IVR з куценьким словниковим запасом.

Але ж ця технологія не має нічого спільного зі штучним інтелектом чи голосовими роботами нового покоління та досить швидкими темпами здає свої ринкові позиції. І ми вирішили зробити невеличкий екскурс в історію та перспективи розмовного ШІ — саме того, якому пророкують блискуче майбутнє.

Перші спроби навчити машину говорити

Людство вже не перше сторіччя намагається навчити машини говорити. Вважається, що перший синтезатор мовлення ще в 1773 році створив німецький вчений Крістіан Кратценштейн. Він помістив дрібні металічні деталі в трубки від органу (мова йде про музичний інструмент) та за допомогою резонансу навчив свого «робота» вимовляти звуки «а», «е», «і», «о» та «у».

Майже через 20 років успіх Кратценштейна повторив австрієць Вольфганг фон Кемпелен. Його машина комплектувалась міхами для нагнітання повітря, а людина «допомагала» керувати спеціальним металічним язичком, який і «промовляв» прості слова на зразок «мама» чи «тато». Потім були машини, що вміли імітувати звучання радіоприймача та навіть співати. Перший же механізм, який реально розумів людську мову, з’явився аж на початку 50-х років минулого сторіччя.

Від Audrey до Dragon NaturallySpeaking

Усе почалося з вчених, котрі працювали над електронним синтезом мовлення. Вони спромоглися за допомогою наборів звуків та частотного резонансу зімітувати більшість звуків, які здатен «видавати» мовленнєвий апарат людини.

У 1952 році революційної за тими часами технологією скористались інженери американської науково-дослідної компанії Bell Telephone Laboratories (зараз — Nokia Bell Labs). Вони створили Audrey — машину, яка розпізнавала цифри від нуля до дев’яти. Її навчили сприймати «еталонні» зразки та порівнювати з ними цифри, які називали вголос. Це стало точкою відліку в багаторічному розвитку технологій розпізнавання.

Через 10 років, у 1962-му, свою розробку презентувала корпорація IBM. Її інженери створили обчислювальну машину Shoebox, що сприймала «на слух» усі цифри та команди для операцій із ними («плюс», «мінус» і т. д.).

В 1966 Джозеф Вайзенбаум, професор Лабораторії штучного інтелекту Массачусетського технологічного інституту, представив людству ELIZA. Це була одна з найперших комп’ютерних програм для обробки природного мовлення. Вона моделювала розмову за методологією «відповідності шаблону»: визначала впізнаване ключове слово й шукала відповідність у своєму скрипті.

Звичайно, вона ще не вміла контекстуалізувати факти чи події, тому відповідала досить типово. Наприклад, якщо людина згадувала про свою матір, ELIZA казала щось на зразок «Розкажи мені більше про свою матір». З усім тим вона вважається першим «повноцінним» голосовим роботом.

Протягом кількох десятиліть розробники працювали над вдосконаленням технологій розпізнавання. У 1990-му році, коли комп’ютери почали комплектувати потужнішими процесорами та достатнім обсягом оперативної пам’яті, подружжя Джанет та Джеймс Бейкери презентували програму Dragon Dictate. Вона вже могла розпізнати до 30 000 слів, щоправда, вимовляти їх доводилося дуже повільно, чітко та з величенькими інтервалами. А в 1997-му з’явилася покращена система Dragon NaturallySpeaking, що розуміла безперервні монологи зі швидкістю мовлення до 100 слів на хвилину.

Голосові технології сьогодення

Нова ера в розвитку голосових технологій почалася в нульових, коли до технологій розпізнавання стали долучати машинне навчання. Завдяки цьому роботи почали надавати більш точні та вичерпні відповіді на запитання, а поява смартфонів дала цьому напрямку новий поштовх.

Голосові помічники

Віртуальні асистенти на зразок Siri стимулювали розвиток голосового пошуку. За даними деяких досліджень, до 40 % споживачів регулярно використовують такі технології, щоби купувати товари та замовляти послуги. І якщо раніше голосові асистенти були досить обмеженими у функціоналі, то вже сьогодні вони можуть розв’язувати доволі складні завдання.

Технології синтезу мовлення також не стояли на місці, тож сучасні  віртуальні помічники звучать природніше. А розробники навіть навчилися наділяти їх «індивідуальностями» — часом здається, що вони мають власні характери.

Інтелектуальні чатботи

Одночасно з голосовими асистентами стрімкої популярності набирали текстові чатботи. Особливо затребуваними вони стали у сфері самообслуговування.

Чатботи зарекомендували себе як дійсно швидкий та комфортний спосіб розв’язання нескладних питань. Наприклад, бронювання столиків у ресторанах або отримання базової технічної підтримки.

Попри те вони мають кілька суттєвих недоліків. Скрипти в чатботів досить обмежені, тобто вони ефективні у виконанні простих та чітко сформульованих запитів. Якщо людина при наборі тексту допустить помилку, програма вже не зможе зрозуміти суті написаного та почне «заговорюватися». Нарешті, користуватися чатботами не можуть люди, у яких немає комп’ютерів, планшетів або смартфонів, як і великий відсоток споживачів старшого віку. Хоча останнім часом розробники й використовують у створенні чатботів штучний інтелект, перетворити їх на повноцінних віртуальних асистентів поки не видається можливим.

Голосові роботи на NLU та їхні перспективи

В останні роки технологічні компанії стали більше уваги приділяти голосовим технологіям — телефонним ботам. Голосовий робот — це хмарний сервіс для автоматичного обдзвону, що спілкується з клієнтами ніби жива людина. Розглянемо переваги технології на прикладі нашої програми Olenka.ai.

Голосовий робот — це сучасна, продуктивна та порівняно недорога альтернатива навіть великому колцентру. Olenka.ai працює на основі багатоканальної телефонії та одночасно телефонує одразу багатьом клієнтам.

В основі роботи програми — скрипт, який складають професійні маркетологи та лінгвісти. Вони вивчають задачі голосової кампанії, пишуть конверсійний сценарій, а програмісти навчають програму розпізнавати репліки клієнтів та визначати контекст їхніх відповідей. Завдяки використанню технологій машинного навчання та NLU (розуміння природної мови) алгоритми програми обирають з-поміж безлічі варіантів потрібний та озвучують те, що підсвідомо очікує почути клієнт.

Чому якість розпізнавання має ключове значення для ефективності голосового робота? Природну мову — а саме нею люди спілкуються голосом — важко «підлаштувати» під певні лінгвістичні чи семантичні правила. У розмові ми не завжди дотримуємось правильного порядку слів, використовуємо сленг та діалектизми, деякі слова вимовляємо або і взагалі вживаємо неправильно. На відміну від NLР (технології обробки природної мови), NLU не тільки «моделює» мовні правила залежно від контексту діалогу, а й веде розмову максимально природно. Багато в чому цього вдалося досягти завдяки відмові від синтезованого мовлення та запису кожної репліки робота в професійних дикторів, як це робимо ми в Olenka.ai.

Висока якість розпізнавання, здатність самостійно аналізувати все нові масиви даних та знаходити відповідності між словами та намірами, що можуть за ними «ховатися», роблять Olenka.ai одним із найкомфортніших ботів для роботи з клієнтами. А гнучкість у підготовці скриптів дозволяє використовувати її в розв’язанні різноманітних завдань:
  • інформувати про важливі зміни, події, спеціальні пропозиції та акції;
  • проводити опитування, анкетування, дослідження для визначення рівня задоволеності клієнтів, вивчення ринку, цільової аудиторії, конкурентів;
  • збирати зворотний зв’язок;
  • запрошувати гостей на івенти;
  • здійснювати клієнтську підтримку (підтверджувати замовлення, пропонувати супутні товари, опрацьовувати заперечення, приймати скарги);
  • обдзвонювати холодні телефонні бази та генерувати ліди тощо.

У порівнянні з голосовими асистентами та чатботами голосові роботи значно продуктивніші. Вони самостійно телефонують абонентам у потрібний замовникові кампанії час, збирають інформацію та структурують чи актуалізують її залежно від мети обдзвону.

Віртуальні ж асистенти використовуються переважно для пошуку інформації або як помічники у плануванні — наприклад, для нагадувань про зустрічі, необхідність придбати ті чи інші продукти абощо. Суттєва проблема таких програм — низька якість розпізнавання запитів у шумному середовищі. Сучасні голосові роботи можуть ігнорувати зайві звуки та фокусуватися на тому, що говорить співрозмовник.

Чатботи ефективні у випадках, коли клієнти самі звертаються до них за допомогою — такий робот не розпочне діалог першим. А голосова програма обдзвону може працювати як на вихідних, так і на вхідних дзвінках, виконуючи функції першої лінії колцентру (приймати звернення, відповідати на типові запитання та розподіляти дзвінки між відповідальними співробітниками).

Грамотно спроєктований голосовий робот дозволяє підтримувати з клієнтами постійну комунікацію. Програми нового покоління на зразок Olenka.ai інтегруються і CRM та отримують доступ до історії взаємодії з кожним клієнтом, завдяки чому можуть зробити спілкування більш персоналізованим. Наприклад, проаналізувати умови, за яких людина купувала у вас, та запропонувати аналогічні товари чи додаткові бонуси — знижки, безкоштовні сервіси і т. д. А здатність самостійно оновлювати та розширювати дані для опрацюввння дають бізнесам можливість краще розуміти своїх клієнтів.

В Deloitte, наприклад, вважають, що протягом наступних років стрімкого розвитку зазнають саме голосові роботи як найбільш ефективні з-поміж аналогів. Це зумовлене їхньою здатністю опрацьовувати значно більші масиви даних та ефективніше навчатися, а отже — вести все більш складні та продуктивні діалоги, особливо з огляду на широкі можливості персоналізації. Ще маєте сумніви щодо того, чи покращать голосові боти бізнес-процеси у вашій компанії? Запишіться на безкоштовну консультацію до нашого маркетолога та з’ясуйте це!