Голос - следующее поле битвы чата

Почему сейчас?
Кто говорит?

Чатботы были ме. Конечно, они поправятся. Но грядущее новшество в чате - это быть человечнее, а не меньше. С распространением адекватного распознавания речи, AI-помощников и беспроводных наушников, технология готова раскрыть потенциал нашей самой основной формы общения.

Вскоре мы поговорим и послушаем наши приложения для обмена сообщениями, когда это будет удобнее, чем набирать текст или читать. Возраст голоса скоро наступит.

Почему сейчас?

Когда у нас полные руки. Когда мы в движении. Когда мы не хотим рыться в меню. Когда мы за рулем, или работаем, или просто не хотим выкапывать наши телефоны из наших карманов или кошельков, голос будет там.

Техническая гадалка Мэри Микер думает, что голос тоже идет называя это «наиболее эффективной формой компьютерного ввода». Мы можем говорить 150 слов в минуту по сравнению с вводом всего 40, а голосовые интерфейсы могут узнать контекст о нас, чтобы улучшить прогнозирование наших намерений. Вместо того, чтобы всегда просматривать, начиная с домашнего экрана, мы можем погрузиться непосредственно в функции, которые мы хотим.

Почему мы будем использовать голос.

«Поскольку точность распознавания речи меняется, скажем, с 95% до 99%, все мы, находящиеся в зале, перейдем от простого использования его сегодня к его постоянному использованию», - говорит главный ученый Baidu Эндрю Нг. Голосовой помощник и использование поиска стремительно растут, поскольку Amazon Amazon захватывает воображение потребителей и разработчиков.

Однако сейчас наш доступ к голосовым интерфейсам для чата ограничен. В iOS и в Siri есть базовая диктовка, но получить что-то для вас вслух может быть сложно. VoIP-звонки растут, и каждый месяц 300 миллионов пользователей Facebook Messenger используют его возможности аудио и видео.

Но в большинстве приложений до сих пор нет способа быстро услышать пуш-уведомления или сообщения, прочитанные вам вслух, переписать ваши голосовые сообщения, отскочить между потоками сообщений или пообщаться с чат-ботами с помощью голоса. Я считаю, что это может измениться.

Кто говорит?

facebook приобрела голосовой и естественный язык запуска интерфейса Wit.ai в 2015, но не сделал много публично с его технологией вне текстовых ботов. Одна вещь, которую он все еще тестирует, это возможность отправлять голосовые сообщения и Facebook автоматически превращает это в текст Таким образом, получатель может прочитать его вместо прослушивания.

На прошлой неделе глава Facebook Messenger Дэвид Маркус сказал, что голос «это не то, над чем мы сейчас активно работаем», но добавил, что «в какой-то момент становится очевидным, что по мере того, как мы развиваем все больше возможностей и взаимодействий внутри Messenger, мы начнем работать над голосовыми обменами и интерфейсами ».

Тем не менее, находящийся в собственности Facebook WhatsApp только что развернул интеграцию iOS 10 с Siri, чтобы вы могли попросить его позвонить кому-нибудь за вас или сообщить ему что-нибудь, Отчеты VentureBeat , Могу поспорить, что мы видим что-то подобное в Messenger.

Более амбициозным может быть интерес Facebook к пониманию того, как люди говорят по-разному, когда мы общаемся друг с другом, когда мы говорим с компьютерами. Более года назад источник сообщил мне, что секретная группа Language Technology Group Facebook изучает эту возможность.

Попросите Сири отправить вам сообщение на WhatsApp. Изображение через VentureBeat.

Наш тон, словарный запас и каденция становятся более профессиональными, когда мы обращаемся к компьютеру. Когда мы говорим с друзьями, мы используем сленг и разговорные выражения, говоря быстро и полные эмоций. Подумайте только, как бы вы сказали: «Хорошо, Google, покажи мне рестораны рядом с четырехзвездочным рейтингом», а не то, как ты спросил бы своего лучшего друга: «Эй, где же отличное место, где можно поесть так близко?»

Чтобы Facebook мог транскрибировать, читать вслух и анализировать, как мы разговариваем с друзьями, может потребоваться создание другого механизма распознавания речи.

Чтобы Facebook мог транскрибировать, читать вслух и анализировать, как мы разговариваем с друзьями, может потребоваться создание другого механизма распознавания речи

Предстоящее приложение голосового чата Allo от Google.

Тем временем Google готовится к запуску целого приложение для голосовых сообщений под названием Allo , Он предназначен для быстрой передачи сообщений голосового клипа. Он также позволяет вам общаться с помощником Google AI прямо в приложении и получать помощь при бронировании ужина или поиске указаний. В совокупности Allo потенциально может легко сказать, кому и что вы хотите отправить, и попросить помощника направить его получателю в наиболее удобной среде.

[Обновление: поскольку эта статья была опубликована, Google объявил о приобретение распознавания речи и запуск интерфейса на естественном языке API.ai , Это может позволить Google лучше анализировать голоса людей и структурировать их слова для точной интерпретации намерений.]

Частое использование голоса может дать технологическим гигантам, таким как Facebook и Google, понимание нашего настроения и настроения, что может помочь им персонализировать свои услуги.

По мере того как API-интерфейсы для голосовой связи и работы с AI расширяются, я ожидаю, что все больше и больше приложений для обмена сообщениями будут использовать речевые команды. Разработчики будут создавать собственные боты, предназначенные для интерпретации ваших голосовых подсказок на платформах, таких как Facebook Messenger, Telegram и Slack.

И ничего из этого даже не потребует от вас открытия телефона.

Наушники Bluetooth нового поколения оснастят нас постоянным микрофоном. AirPods от Apple могут популяризировать практику оставления беспроводных наушников на долгое время, потому что они, наконец, гладкие и достаточно стильные.

Как только все, что вам нужно сделать, это лаять на помощника по искусственному интеллекту или нажимать на ухо, чтобы составить и отправить сообщение, голос может превратиться из приятного дополнения, такого как наклейки или GIF, в неотъемлемую часть любого приложения чата. А это значит, что мы будем тратить меньше времени, уставившись на крошечные экраны, и больше времени на изучение мира открытыми глазами.

Почему сейчас?
Кто говорит?
Почему сейчас?
Кто говорит?