Czy znów będziemy porozumiewać się za pomocą głosu?

Bartosz Martyka
10 min

Ostatnio pojawiło się wiele cyfrowych asystentów osobistych, takich jak Siri, Cortana i Google Assistant, a coraz więcej firm debiutujących, tzw. start-upów, tworzy podobne rozwiązania z wykorzystaniem funkcji analitycznych i sztucznej inteligencji. Nie ulega wątpliwości, że zaczynamy komunikować się z technologiami w nowy sposób ― za pomocą głosu.

Należy się spodziewać, iż systemy uaktywniane głosem, które znalazły już swoje miejsce na rynku klientów indywidualnych, wkrótce pojawią się również w środowiskach przedsiębiorstw, gdzie mogą przynieść ogromne korzyści dzięki uproszczeniu i automatyzacji zadań. Craig Walker, Director Cloud Services at Alcatel-Lucent Enterprisez firmy ALE objaśnia, że choć upłynie jeszcze trochę czasu, zanim pojawi się coś w rodzaju systemu HAL z „Odysei kosmicznej 2001”, to istnieje już technologia, która może znacznie usprawnić sposób funkcjonowania wielu firm.

Światła, kamera, akcja!

Wyobraźmy sobie, o ile łatwiejsze byłoby życie lekarza, gdyby mógł po prostu powiedzieć: „Systemie, wprowadź do karty Anny Kowalskiej następującą informację: «Pacjentka ma bóle brzucha, zamówienie do apteki na 200 mg leku SuperAntiGas, podpisano: doktor Zdrówko»”. A gdyby w sali konferencyjnej nie trzeba było ciągle szukać pilota, bo do włączenia projektora i ekranu wystarczyłyby słowa: „systemie, włącz projektor i telewizor oraz zmniejsz natężenie oświetlenia”?

Nowe wyzwania

Wkraczamy w epokę rozwiązań obsługiwanych głównie za pomocą interfejsu głosowego (ang. voice-first). Na jakim etapie znajdujemy się obecnie? Firma analityczna VoiceLabs, która specjalizuje się w rynku technologii głosowych, opublikowała materiał na temat różnych warstw potrzebnych do rozwoju technologii voice-first dla klientów indywidualnych. Obecnie mamy do czynienia głównie z prostymi przypadkami użycia zorientowanymi na klienta. Aby przedsiębiorstwa zaczęły wdrażać środowiska, w których rozwiązania voice-first są używane na szerszą skalę, musi zostać spełnionych kilka warunków.

REKLAMA

Podstawowe znaczenie ma bezpieczeństwo. Jeśli chcemy, aby systemy w naszych przedsiębiorstwach były sterowane głosem, musimy odpowiedzieć sobie na pytanie: czy każdy powinien mieć możliwość wydawania poleceń urządzeniom lub systemom o znaczeniu newralgicznym?  Odpowiedź jest oczywiście przecząca. Kolejna ważna sprawa to prywatność. Przedstawiony powyżej przykład dotyczący lekarza jest prosty, ale musimy o nim pomyśleć w kontekście obowiązujących przepisów. Czy prawa pacjenta zostaną naruszone, jeśli takie słowne polecenie spowoduje ujawnienie osobom trzecim jego informacji medycznych?

Bezpieczny dostęp

Rozwój technologii rozpoznawania mowy wkroczył w kolejny etap. Dziś można je już wykorzystywać w celu zapewnienia bezpiecznego dostępu do systemów.

Przykładem są banki, które wprowadzają uwierzytelnianie na podstawie głosu w swoich systemach bankowości telefonicznej. Choć niektórzy klienci mogą się obawiać o bezpieczeństwo swoich kont, uważam, że będziemy mieć do czynienia z podobnym cyklem akceptacji nowych rozwiązań przez rynek, jak w przypadku handlu elektronicznego. Z początku klienci bali się, że ich karty kredytowe zostaną wykorzystane przez oszustów, ale gdy strach ten okazał się bezpodstawny, nastąpił bardzo dynamiczny wzrost na rynku zakupów online.

W dziedzinie technologii rozpoznawania mowy należy się spodziewać kolejnych innowacji i udoskonaleń, które zapewnią bezpieczeństwo systemów uaktywnianych głosem w środowiskach przedsiębiorstw. Chodzi o to, aby określone działania mogli wykonywać tylko autoryzowani użytkownicy z odpowiednimi uprawnieniami.

Trzeba również zdawać sobie sprawę, że o ile kuchenka mikrofalowa nie może śledzić użytkownika, to niektóre urządzenia będą zawsze działać, zawsze słuchać i, być może, nagrywać. Kilka dobrze nagłośnionych przypadków naruszenia prywatności, szpiegostwa gospodarczego czy złamania prawa może zniechęcić klientów do zakupu takich produktów. Warto byłoby więc wyposażyć urządzenia voice-first w duże wyłączniki, dzięki którym użytkownicy będą mogli korzystać z tych urządzeń bez obawy o swoją prywatność.  Przydałoby się też niezawodne zabezpieczenie, które nie tylko zapewni bezpieczny dostęp do oprogramowania produktu, ale umożliwi wykrywanie ataków hakerskich i zapobieganie im.

Tworzenie jeszcze efektywniejszych systemów rozpoznawania mowy

Pierwsze technologie rozpoznawania mowy znalazły zastosowanie głównie w systemach informacji głosowej w telecentrach, jak również samochodach i smartfonach. Wiele osób wie jednak z własnego doświadczenia, że nie są one zbyt zaawansowane. Aby narzędzia do rozpoznawania mowy i kontekstualizacji mogły być szeroko stosowane w przedsiębiorstwach, muszą zostać udoskonalone z wykorzystaniem nowych technologii.

Możliwości systemów rozpoznawania mowy są cały czas poszerzane dzięki takim programom badawczym, jak projekt Sphinx realizowany przez Uniwersytet Carnegie-Mellon. Z raportu „Internet Trends” opracowanego przez Mary Meeker wynika, że w 2016 roku system rozpoznawania mowy firmy Google był w stanie rozpoznać ponad pięć milionów słów z około 90-procentową dokładnością. To jednak wciąż za mało. Czy dokładność na poziomie 90% jest wystarczająca w przypadku interakcji z systemem podtrzymującym życie w szpitalu lub siecią usług użyteczności publicznej?

Ponadto chodzi nie tylko o rozpoznawanie słów, lecz również o to, co z tymi słowami zrobić. W tym miejscu wkraczają do gry mechanizmy poznawcze i sztuczna inteligencja. Niektórzy spośród największych producentów oferują rozwiązania, które pomagają w zrozumieniu kontekstu słów. Przykładem jest Microsoft ze swoim mechanizmem poznawczym rozpoznawania mowy z otwartym dostępem do kodu źródłowego. Pytanie „Jak dojść do stacji?” wydaje się proste, lecz wymaga uwzględnienia kontekstu. Świadomość lokalizacji pozwala stwierdzić, że najprawdopodobniej chodzi o najbliższy dworzec kolejowy. Osoba siedząca w kawiarni w centrum miasta odpowiedziałaby: „Proszę na końcu ulicy skręcić w prawo, a następnie iść prosto pół kilometra”. Przyjęła jednak założenie, że chodzi o pobliską stację kolejową, a nie, powiedzmy, stację metra czy dworzec autobusowy znajdujący się na drugim końcu miasta.s

W poszukiwaniu głębszego sensu

Prawdziwe wyzwania wiążą się z głębszymi aspektami systemów rozpoznawania mowy. Chodzi zarówno o integrację urządzeń Internetu rzeczy z tymi systemami, jak i zapewnienie sensowności wydawanych poleceń. Należy lepiej wykorzystać mechanizmy poznawcze jako systemy kontroli i weryfikacji. Wyobraźmy sobie kogoś, kto przez pomyłkę wydał polecenie „Wyłącz system chłodzenia dla reaktora 4” zamiast wyłączonego wcześniej „reaktora 3”, lub lekarza, który przepisuje pacjentowi szkodliwą dawkę leku, ponieważ przypadkowo powiedział „400 gramów” zamiast „400 miligramów”. Przykłady te mogą wydawać się ekstremalne. Jeśli jednak chcemy wyeliminować błędy człowieka, musimy całościowo spojrzeć na automatyzowane zadania oraz analizować działania powiązane z poleceniami głosowymi za pomocą szerszego zestawu inteligentnych funkcji. Na przykład polecenie „Wyłącz system chłodzący dla reaktora 4” mogłoby spowodować prawidłowe działanie, gdyby w celu jego wykonania system zastosował odpowiedni zestaw procedur operacyjnych.

Platforma API dla zintegrowanych rozwiązań opartych na komunikacji głosowej

Innowacje w świecie tradycyjnych rozwiązań opartych na komunikacji głosowej pozwoliły na utworzenie ciekawego rozwiązania, które można strategicznie powiązać z procesem budowania środowisk sterowanych głosem dla przedsiębiorstw. Chodzi o platformę komunikacyjną jako usługę (ang. Communication Platform as-a-Service ― CPaaS), którą wdraża obecnie coraz więcej firm. Umożliwia ona, z wykorzystaniem interfejsów API, przekształcanie używanych obecnie aplikacji w zintegrowane rozwiązania oparte na komunikacji głosowej. Niektórzy spośród największych dostawców usług komunikacyjnych wchodzą obecnie na ten rynek. Oferowane przez nich infrastruktury CPaaS ze standardowym zestawem interfejsów API umożliwiają przedsiębiorstwom integrację technologii komunikacyjnych z procesami biznesowymi.

Tradycyjnie rozumiemy integrację jako np. włączenie usług głosowych i wideo w używane dotychczas aplikacje. Przykładem jest aplikacja bankowa, która pozwala przejść z aplikacji online do połączenia głosowego z doradcą. Uważam, że integracja taka odegra ważną rolę w środowisku voice-first, ponieważ umożliwi wykorzystanie bogatej w funkcje infrastruktury API platformy CPaaS do komunikacji z aplikacjami i urządzeniami.

Sprawna komunikacja między CPaaS lub innymi platformami a urządzeniami wymaga nie tylko odpowiedniej infrastruktury komunikacyjnej, lecz również standaryzacji. Jest to warunek dalszego szybkiego rozwoju technologii komunikacji głosowej. Każdy z dostępnych obecnie systemów sterowanych głosem, które są przeznaczone dla klientów indywidualnych, ma własne interfejsy oraz zintegrowane infrastruktury API, co może prowadzić do szybkiego starzenia się produktów, podobnie jak w przypadku historycznej bitwy między standardami Beta i VHS sprzed kilkudziesięciu lat. Klient nie chce inwestować w najnowszy „inteligentny ekspres do kawy” tylko po to, aby się dowiedzieć, że sterująca nim platforma właśnie wyszła z użycia. Producenci powinni więc zagwarantować klientom, że zakupione przez nich nowe technologie nie staną się przestarzałe zanim przyniosą zwrot z inwestycji.

Najlepsze dopiero przed nami

Obecnie trwają prace nad technologiami, które ograniczą do minimum starzenie się produktów. To z pewnością dobra wiadomość. Tworzone są infrastruktury, takie jak IOTivity, które umożliwiają budowanie standardowych platform. Nowe aplikacje głosowe dla klientów indywidualnych szybko zdobywają rynek. Dostrzegamy już ich wartość oraz korzyści wynikające z ich używania. W najbliższym czasie podstawowe technologie tego typu zobaczymy również w przedsiębiorstwach. W odleglejszej perspektywie czeka nas dalszy rozwój technologii rozpoznawania głosu i zabezpieczania komunikacji głosowej, jak również uproszczenie i standaryzacja łączności za pomocą urządzeń mobilnych. W rezultacie zarówno użytkownicy indywidualni, jak i przedsiębiorstwa będą wykonywać coraz więcej zadań i czynności za pomocą produktów voice-first, co uprości procesy i zwiększy naszą produktywność.