в каком году появилась яндекс станция
«Яндекс.Станция»: что мы знаем о колонке с «Алисой», которая скоро будет у всех дома
Компания «Яндекс» представила «Яндекс.Станцию», собственную умную колонку с голосовой помощницей «Алисой». Это первое устройство «Яндекса» и первая умная колонка, которая работает с русским языком и будет официально продаваться в России. «Афиша Daily» рассказывает, что уже известно о «Яндекс.Станции».
Что умеет «Яндекс.Станция»
После начала продаж колонка будет делать все, что делает «Алиса» в телефоне. Например, установит таймер и напоминание, расскажет о погоде и пробках, включит музыку и сериалы.
Функции, которые связаны с видео и фильмами, — новые. Когда «Станцию» подключают к телевизору или монитору через HDMI, она запустит встроенное программное обеспечение — что-то вроде Smart TV, но разработки «Яндекса». Внутри интерфейса есть «Яндекс.Музыка», а также видео, фильмы и сериалы из «Амедиатеки», ivi.ru и «КиноПоиска». Помощница включает фильмы через голосовые команды и управляет воспроизведением, например, ее можно попросить перемотать фильм на 30 минут или сделать погромче.
«Станция» будет поддерживать все навыки — это интеграции с другими сайтами и сервисами, — которые есть у «Алисы» уже сейчас. Например, она сможет заказать пиццу из «Папы Джонса» и, возможно, вызвать такси и подключиться к лампам Philips Hue, чтобы пользователь включал свет голосом. Навыков станет больше — весной «Яндекс» открыл API «Алисы» для других разработчиков.
Как выглядит колонка «Яндекса»
Внешний вид «Яндекс.Станции» разрабатывали дизайнеры из компании. Она сделана из алюминия, довольно тяжелая и оформлена кожухами трех цветов: черным, белым и фиолетовым. Сверху на колонке есть две кнопки — включение устройства и выключение микрофонов — и алюминиевое кольцо, которое регулирует громкость. Кольцо прохладное, и его настолько приятно трогать, что громкость хочется менять самому, а не с помощью «Алисы». Вокруг кольца есть цветная подсветка, которая сообщает дополнительную информацию: например, зеленый свет означает, что громкость на минимуме, красный — что колонка работает на полную громкость, фиолетовая пульсация — что «Алиса» слушает собеседника. В темноте смотрится эффектно.
Хорошо ли звучит «Яндекс.Станция»
Разработчики «Яндекса» говорят, что акустическую систему колонки делали с ориентиром на качественную музыку. По их словам, «Станция» звучит чуть хуже колонки Sonos, но лучше Amazon Echo. Внутри колонки работают 10-ваттные твитеры и 30-ваттный сабвуфер, а также есть акустическая линза — чтобы звук расходился в стороны. На максимальной громкости колонка выдает звук, которого хватит для большой квартиры и небольшой вечеринки. Если снять кожух, звук будет еще лучше.
Но даже в этом случае «Алиса» услышит просьбу сделать потише. Это работает так: помощница слушает саму себя и «сбрасывает» звук, который воспроизводит колонка, поэтому в микрофоны идет только голос человека. За последнее время разработчики улучшили распознавание русской и английской речи, поэтому во время теста помощница легко восприняла фразу: «Алиса, включи Limp Bizkit «Break Stuff». Если вам неинтересно воспроизводить музыку из сервиса «Яндекса», то «Станцию» можно использовать как обычную блютус-колонку.
Чего ждать от «Яндекс.Станции» в будущем
В «Яндексе» говорят, что у колонки длинный срок жизни и в будущем для нее выпустят много программных обновлений. Например, через какое-то время после запуска появятся мини-профили для людей, которые живут в одном доме. «Алиса» попросит представиться, ответить на 10–20 вопросов, произнести какие-то фразы, чтобы она запомнила интонации и голос человека. После этого она будет включать разные музыкальные плейлисты для взрослого сына и маленькой дочери. Сначала мини-профили будут работать только с «Яндекс.Музыкой», а потом и с другими сервисами «Яндекса». При этом «Алиса» ничего не расскажет о человеке, если об этом спрашивает другой пользователь. Например, мать не сможет узнать, какие дела записаны в календаре сына на сегодня.
Разработчики называют голосовые интерфейсы частью интерфейсов будущего и считают, что они будут активно развиваться и становиться лучше следующие десять лет. В «Яндексе» думают о том, чтобы выпустить уменьшенную версию колонки — как Google Home Mini и Echo Dot, — но, поскольку это сложный процесс, для которого нужно разрабатывать аппаратную часть и проверять его качество звука, не могут ничего сказать о примерных сроках. «Яндекс» предоставит систему микрофонов колонки и помощницу «Алису» другим производителям, поэтому стоит ждать новых умных устройств с «Алисой».
Обзор умной колонки «Яндекс.Станция Макс» с Алисой
Первая «Станция» появилась в 2018 году и уже тогда производила впечатление нестандартными дизайнерскими решениями, хорошим звуком, возможностью выводить картинку на ТВ, а главное — это была единственная из всех «умных» колонок на рынке с адекватным русскоязычным помощником. За два года «Яндекс» успел выпустить «Станцию Мини» и поселить своего голосового помощника Алису в «умных» колонках таких больших производителей, как JBL. Круто, но кое-чего все равно не хватало: индикации состояний, полноценного графического интерфейса для телевизора и тесной интеграции с «умным» домом.
И вот на конференции YaC-2020 в новом «коронавирусном» видеоформате управляющий директор «Яндекса» Тигран Худавердян говорит: «У Алисы все хорошо… Ей пользуются 45 млн человек». А дальше нам представляют «Станцию Макс», в которой как раз и решены все перечисленные вопросы: добавили дисплей, сделали витрину для видеоконтента и даже пульт в комплект положили. А еще разработчики предоставили возможность добавлять в экосистему «Яндекса» «умные» устройства большинства производителей.
Как звучит «Яндекс.Станция Макс»
К «Станции» двухлетней давности не было вопросов по звуку. Колонка легко «прокачивала» любую, даже самую большую комнату. «Станция Макс» стала еще габаритнее, и этот дополнительный объем заметен в звучании: басы теперь глубже, а комфортная громкость без перехода в хрип теперь еще выше. И, кстати, за разные диапазоны частот стали отвечать разные группы динамиков, а совокупная мощность трехполосной системы выросла до 65 Вт.
Сделать громче или тише можно, попросив об этом Алису. Но и от большого круглого регулятора в «Яндексе» решили не отказываться. И вряд ли откажутся в будущем, даже несмотря на то, как быстро развиваются ассистенты и распознавание речи. Людям нужен (а главное приятен!) интерфейс, который можно потрогать и на который можно непосредственно и предсказуемо влиять. Это успокаивает и дает ощущение контроля.
Что умеет «Яндекс.Станция Макс»
Вряд ли мы когда-нибудь избавимся и от графических интерфейсов. Во всяком случае, точно пока не вживим себе чип в мозг. И это явно понимают в «Яндексе». Самого по себе голосового интерфейса с одной стороны недостаточно, а с другой — он может быть даже избыточен.
— Алиса, включи гирлянду.
А ведь могла бы просто молча включить. Или там глазом подмигнуть… О, погодите-ка! Так ведь «Станцию Макс» как раз этому и научили — подмигивать и как-то иначе графически реагировать на запрос.
Дисплей
В новой колонке предусмотрели небольшой дисплей, на который выводятся время, пиктограммы погоды, а иногда и эмоции — в виде двух мультяшных глаз.
Разрешение дисплея всего 25×16 см, и он монохромный. Но из-за того, как его обыграли, получилось даже элегантно и вполне в тренде того, что современные устройства скорее вписываются в интерьер, а не перетягивают внимание на себя. Матрицу поместили под полупрозрачную акустическую ткань — так все изображения получаются одновременно и контрастными, и рассеянными между ячейками ткани. А когда на экране ничего нет, то и не скажешь, что там дисплей.
ТВ и пульт
Другое нововведение в «Станции Макс» — интерфейс для телевизора и отдельный пульт управления к нему. И это возвращает нас к идее того, что только аудиоинтерфейса не всегда достаточно. Сделать голосовой командой погромче или переключить канал — это удобно, а вот листать медиатеку в «Кинопоиске» уже некомфортно.
Предполагается, что после распаковки вы сразу подключите «Станцию» к ТВ (кстати, в комплекте уже есть кабель HDMI, З — забота!), дадите ей доступ в Сеть, она обновится до последней версии, а дальше необходимо будет подключить пульт. Интересно, что это отдельный и нетривиальный процесс. Нужно сказать: «Алиса, подключи пульт». Колонка выведет на экран телевизора подсказки: какие кнопки зажать, чтобы пульт перешел в режим обнаружения, сам связался со «Станцией» и обновил себе прошивку (sic!). После этого вы сможете с его помощью листать меню на ТВ, а также отдавать голосовые команды из других комнат — в пульт встроен собственный микрофон.
В 2020 году пользователи предъявляют особые требования и к качеству картинки. Поэтому «Станция Макс» поддерживает разрешение 4К. Правда это касается только контента в «Кинопоиске», а вот ролики с YouTube воспроизводятся только в FullHD. И вообще, из основного меню нельзя просто перейти в YouTube — можно только сделать голосовой запрос. С точки зрения пользователя, это немного раздражает. Но если поставить себя на место компании «Яндекс», которая развивает собственную экосистему и конкурирует с другими, это логично. Выгоднее держать клиентов «ближе к телу», тем более, что модель монетизации явно основана не на продаже самих «Станций», а на предоставлении услуг и контента. А «Станция» — это просто дополнительная удобная дверь к ним. Сейчас большинство игроков на рынке делают ставку на сервисную модель, и чем дальше, тем больше. Но, как говорил Стив Джобс, если хочешь сделать крутой софт (читай, сервис), тебе нужно делать собственное «железо».
Алиса и умный дом
Вообще-то Алиса развивается сама по себе и параллельно со всеми «Станциями», но невозможно рассказать про новую колонку и обойти вниманием голосовую помощницу. С момента анонса первой «Станции» прошло два года, и за это время Алиса научилась различать голоса, вызывать такси, управлять кучей устройств в умном доме, а сторонние разработчики написали для нее много новых навыков.
Голосовой ассистент обновляется раз в несколько месяцев ночью и без вашего участия. То есть «умнее» Алиса становится как бы самостоятельно, а заодно постепенно узнает вас лучше. Если вы пользуетесь сервисами «Яндекса», компания уже знает ваш распорядок дня на основе регулярных маршрутов, предпочтения в еде — по заказам в «Лавке», какое кино и сериалы вы любите — по запросам и оценкам в «Кинопоиске». Скрепляют это все ежедневные запросы в поисковике. И если это знает «Яндекс», то знает и Алиса. Остается только сказать колонке: «Запомни мой голос», и она начнет отличать вас от других членов семьи, отвечая по-разному на одинаковые запросы.
Интернет-гиганты уже способны на равных конкурировать с операторами связи. И «Яндекс», конечно, не исключение. Поэтому вы можете позвонить на «Станцию Макс» из приложения «Яндекса». Получится своего рода голосовой вызов с возможностью подключить видео с камеры смартфона и вывести его на большой экран — ведь «Станция» подключена к ТВ. Смотрите вы сериал, и тут Алиса человеческим голосом говорит: «Вам звонит Мама». А вы ей: «Ответь!». И вот вы уже говорите с мамой по телевизору.
Но, кстати, телевизором дело не ограничивается. Алиса может подключиться и управлять практически любыми устройствами, у которых есть выход в интернет. И это не обязательно должны быть гаджеты «Яндекса». Умные розетки TP-Link, сенсоры Z-Wave, роботы-пылесосы Xiaomi — все, что угодно — в каталоге десятки партнерских сервисов и брендов. По сути же вы будете подключать не конкретное устройство к Алисе, а дадите доступ «Яндексу» к сервису стороннего бренда через API. Грубо говоря, скажете им: «Дружите!». Дальше все новые устройства будут появляться в меню автоматически, и, соответственно, ими можно будет управлять голосом.
Не обделили вниманием и детей. Для них у Алисы есть аудиокниги и много интерактивных игр в каталоге навыков. Даже самый маленький ребенок сможет сказать: «Алиса, прочитай сказку». И колонка поймет. И прочитает. И у родителей появится свободный часок, чтобы спокойно приготовить ужин. А наши дети, кажется, будут жить в мире, где разговаривать с роботами как с людьми — это совершенно нормально.
Итоговые впечатления
Если вдуматься, «Яндекс» не просто обновил свою «Станцию», добавив несколько новых приятных фишек, но теснее интегрировал Алису в жизнь людей. Теперь Алиса есть не только в смартфоне и дома на полке, но еще и в телевизоре и умных гаджетах всех мастей. Большой экран открывает массу возможностей и потенциально способен сделать взаимодействие с сервисами «Яндекса» удобнее. Легко представить, как в 2021 году мы говорим не только «Алиса, включи интересное кино», но и что-то вроде «Закажи молоко и хлеб в «Лавке» или «Найди ближайшую машину в «Драйве».
Подписывайтесь также на Telegram-канал РБК Тренды и будьте в курсе актуальных тенденций и прогнозов о будущем технологий, эко-номики, образования и инноваций.
На «Яндекс.Станции»: впечатления от первой российской умной колонки
Начала продаж «Яндекс.Станции» ждали с момента ее анонса в мае этого года. И причин тому несколько: во-первых, это первое устройство от «Яндекса». Во-вторых, это первый домашний голосовой ассистент, работающий на русском языке. И в-третьих, интересно было узнать, что в реальности может устройство, а что останется обещаниями компании на будущее.
«Яндекс.Станция» — это устройство, в котором живет голосовой помощник «Алиса», оно призвано стать своеобразным хабом компании в домах простых смертных. То есть в теории гаджет должен стать точкой доступа ко всем сервисам «Яндекса». А точнее, самостоятельной точкой доступа, которой не нужны ни смартфон, ни компьютер, ни планшет.
В дальнейшем это должно помочь «Яндексу» стать чуть ли не членом семьи, и все перспективы для этого у компании есть. Все, что нужно сделать, — это успеть подмять под себя российский рынок домашних интеллектуальных ассистентов, пока на нем нет никого. Впрочем, компании стоит поторопиться, потому что ближайший конкурент «Яндекса», Google, обещал в скором времени добавить поддержку русского языка в своего интеллектуального помощника Assistant. А там недалеко и до выхода на российский рынок умной колонки американской компании.
Натурные испытания
Пока функциональность «Станции» не поражает воображение. Можно послушать музыку, посмотреть кино (на колонке есть HDMI-выход), задать вопрос «Яндексу», завести будильник, узнать погоду на завтра, и, по большому счету, все. Ни заказ такси, ни заказ пиццы, ни какие-либо другие «вау»-функции пока не доступны. Даже синхронизировать несколько колонок между собой нельзя — каждое устройство пока что живет и управляется самостоятельно.
С понедельника подпункт «Яндекс.Станция» появился в приложении «Яндекс». После подключения смартфона к Wi-Fi-сети, в которой будет работать «Станция», надо поднести телефон к устройству, чтобы смартфон передал параметры сети на колонку. Потом скорее всего придет обновление софта (примерно 900 Мегабайт), и колонка готова к работе. Все. Буквально Plug’n’Play.
Управление осуществляется полностью голосом. Ни пульт, ни приложение для взаимодействия не предусмотрены. Причем в отличие от смартфона, где после вызова «Алисы» надо подождать секунду, пока она «проснется», колонка реагирует сразу. Например, услышав тишину после своего имени, уходит обратно в режим ожидания. Поэтому говорить нужно максимально естественно, не разрывая фразу: «Алиса, поставь мою любимую музыку».
Голосовое управление может сыграть злую шутку. Колонка вообще не умеет распознавать речь офлайн. Например, если во время проигрывания музыки вдруг пропадает соединение с интернетом, а песня, которая уже закэширована, продолжает играть, то голосовой командой поставить ее на паузу невозможно. Она перебьет пользователя и скажет: «Отсутствует подключения к интернету», после чего продолжит играть музыку. Чтобы убрать музыку, нужно вывести громкость в ноль с помощью кольца регулировки громкости. Не самый удобный вариант.
Но когда подключение к сети есть, «Станция» реагирует на голос пользователя мгновенно. И даже громкая музыка не мешает ей правильно распознать человеческую речь.
Фокус на мультимедийности
Качество аудио неплохое. Требовательным к аудиотехнике, возможно, не понравится «утробное» звучание, но широкому кругу пользователей звук должен прийтись по вкусу: басовитый, но при этом чистый.
Музыку можно слушать как с одноименного сервиса «Яндекса», так и со своего устройства через Bluetooth — для синхронизации используется кнопка вызова «Алисы», расположенная в верхней части устройства. Для видеоконтента вариантов больше, это может быть как «Кинопоиск» компании «Яндекс», так и онлайн-кинотеатры Amediateka и ivi, а также YouTube и вообще любой ролик, который проиндексирован сервисом «Яндекс.Видео». Учитывая лояльность модерации в этом сервисе, там можно найти даже фильмы, которые не вышли официально.
Пока у «Яндекс.Станции» уклон в мультимедийную сторону. Да, она может разбудить с утра, сыграть в «верю — не верю», ответить, в каком году был основан журнал Forbes, нужно ли брать с собой зонт или сколько ехать до работы. Но этого все же мало, чтобы стать полноценным домашним ассистентом. Не хватает прикладных функций, например, заказа такси или уборки квартиры, не говоря о более сложных вещах, таких как управление умным домом.
Ситуацию можно легко исправить с помощью системных обновлений, и для этого есть даже отдельный сервис для разработчиков. Но «Яндексу» лучше поторопиться, пока это не сделал кто-то другой. А пока «Станцию» можно рекомендовать к покупке только тем, кому нужен мультимедиа-комбайн, имеющий нативную поддержку русских сервисов. А до полноценного «виртуального дворецкого» ей пока расти и расти.
Яндекс.Станция. Как мы создавали первое устройство с Алисой
Несколько минут назад на конференции YaC 2018 мы впервые рассказали о Яндекс.Станции. Это первое мультимедийное устройство с Алисой, которое воспроизводит музыку и фильмы, рассказывает детям сказки, помогает в повседневных делах, а также поддерживает навыки от сторонних разработчиков.
Может показаться, что для создания подобных устройств достаточно взять голосового помощника, добавить к нему простой микрофон из смартфона и спрятать всё это в корпусе недорогой аудиоколонки. На практике перед разработчиками подобных систем стоят серьёзные технологические проблемы, о решении которых в Станции мы и расскажем сегодня читателям Хабра. Вы также узнаете, что именно представляет собой технологическая платформа Yandex.IO, на основе которой и создано устройство.
В посте о создании Алисы мы рассказывали о развитии компьютерных интерфейсов: от командной строки до управления мышью и голосом. Чем более доступным становился компьютер, тем быстрее развивались технологии, упрощался способ взаимодействия с устройством.
С другими домашними устройствами развитие шло схожим образом. Возможно, вы помните советские чёрно-белые телевизоры, в которых даже для переключения каналов нужно было прикладывать ощутимые физические усилия. Теперь же во многих моделях мы можем переключать каналы голосом.
Мы верим, что пришло время научить домашние устройства общаться на языке людей, а не кнопок. Именно эта идея легла в основу голосового помощника Алиса и нашего первого устройства на её основе – Яндекс.Станции.
Говорит и показывает
Станция – первое устройство Яндекса с голосовым помощником Алиса. Она подскажет погоду, установит будильник, расскажет новости, прочтёт сказку ребёнку или поможет с другими повседневными делами. Но ценность нашего устройства не только в этом. Когда мы начинали работать над Станцией, то поставили перед собой задачу создать домашнее мультимедийное устройство, возможности которого не ограничивались бы навыками голосового помощника. Эта задача включала в себя два важных требования:
1. Станция должна воспроизводить треки из Яндекс.Музыки или с любого другого устройства через Bluetooth.
2. Станция должна находить и воспроизводить видео: как из базы партнёрского контента, так и ролики из сети. Были даже варианты с собственным встроенным экраном, но от них быстро отказались в пользу HDMI-разъема для подключения к любому телевизору.
И всё это – с качественным звуком. Наше устройство должно справляться с аудиодорожкой лучше, чем динамики типичного телевизора (это касается как глубоких басов, так и общей мощности). При этом Станция должна не только хорошо звучать, но и отчётливо понимать речь пользователя. А эти задачи немного противоречат друг другу. И здесь начинается самое интересное.
Расположение имеет значение
Взгляните на картинку выше. Умные домашние устройства часто изображают так, будто они стоят в центре комнаты и воспроизводят звук во все стороны. На фотографиях это выглядит красиво, но в реальности почти никто их так не использует. Устройства, которые должны слышать голос издалека, потребляют значительные вычислительные ресурсы, поэтому работают не от аккумулятора, а от сети. Ближайшие розетки почти ни у кого не располагаются в центре комнаты, поэтому устройства обычно стоят у стен. Это значит, что нет смысла делать устройство с круговым расположением динамиков. И дело не только в экономии.
Если направить часть динамиков в стену, то возникает проблема интерференции звуковых волн, которую пришлось бы компенсировать на уровне софта. Нет лишних динамиков – нет проблемы. Поэтому в Станции мы используем два фронтальных динамика (в том числе для поддержания стереоэффекта), один вуфер и два пассивных излучателя (для глубоких басов). Но даже с их расположением в корпусе не всё так просто.
Обычно и твитеры (высокочастотные динамики), и вуфер направляют в сторону слушателя, чтобы добиться минимального искажения звука. Но в нашем случае вуфер направлен вниз. Почему?
Помните, мы говорили, что Станция должна не только выдавать качественный звук, но и уметь слышать голосовые команды? Человеческая речь – это преимущественно средние частоты (хотя полный диапазон шире: 300-3400Гц). Перед нами стояла задача по уменьшению влияния излучаемого Станцией звука на микрофоны, которые должны улавливать человеческую речь. Одним из решений этой задачи является увеличение «эхо-пути» звука в спектре человеческой речи от динамиков до микрофонов. За средние частоты в обычном режиме Станции отвечает вуфер, поэтому мы направили его вниз. Это увеличивает «эхо-путь», улучшает качество распознавания голоса и незначительно влияет на качество воспроизведения звука.
В предыдущем абзаце вы могли заметить упоминание обычного режима Станции. Если коротко, то речь об уровне громкости. Суммарная мощность всех динамиков в Станции составляет 50 Вт. Для шумной вечеринки этого более чем достаточно. Но при высокой громкости трудно распознать голос пользователя. В индустрии эту проблему решают ограничением громкости. Мы тоже думали над этим вариантом, но, к счастью, решили не портить хорошую акустику ограничениями.
Adaptive Сrossfade
Текущий уровень громкости визуализируется с помощью круговой подсветки в верхней части Станции. По мере увеличения громкости цвет меняется с зелёного до жёлтого и красного. Зелёный и желтый – это условный «обычный режим», при котором Станция хорошо воспроизводит музыку и реагирует на голосовые команды пользователя. А вот красный цвет сигнализирует о высокой громкости. В этом режиме громкость настолько велика, что устройство почти не способно слышать команды пользователя.
В режиме максимальной громкости больше не нужно думать о распознавании речи, поэтому мы отбросили компромиссы и сфокусировались на звуке. Нет, вуфер при этом не разворачивается в сторону пользователя, но мы перенаправляем средние частоты на твитеры. Выше мы называли их исключительно высокочастотниками, но они подобраны так, чтобы при необходимости справляться и со средними частотами (уверенно держат от 2к до 20к Гц). А ещё при высокой громкости Станция переключается в стерео режим, который отключен в обычном режиме из-за своего негативного влияния на качество распознавания речи.
Всё это мы назвали технологией Adaptive Сrossfade, которая, хочется верить, придётся по вкусу поклонникам качественного звука. Кстати, некоторые аудиофилы из нашей команды рекомендуют ещё и внешний кожух снимать, чтобы выиграть пару децибел (да, он съёмный).
Выше мы рассказали о том, как Станция воспроизводит звук. Теперь же мы расскажем о технологической платформе, благодаря которой она понимает пользователей.
Yandex.IO
Динамики – важная часть устройства, но далеко не главная. Станция построена вокруг платформы Yandex.IO, которая включает в себя два компонента. Прежде всего, это главная плата, которая отвечает за «мозги» всего устройства: воспроизводит музыку и фильмы, а также обеспечивает работу Алисы и всех её навыков (в том числе тех, которые уже могут создавать сторонние разработчики с помощью сервиса Диалоги).
Несколько слов о процессоре. Мы выбрали ARM Cortex-A53 не только из-за тяжелой задачи воспроизведения потокового видео, но и для работы с голосом. Со стороны может показаться, что никаких особых нагрузок здесь нет: записывайте весь аудиопоток с микрофона и транслируйте его в облако, где волшебная нейросеть всё распознает. Но это работает не так, а главная плата Станции несёт в себе целый стек технологий, который направлен на улучшение распознавания голоса. И здесь мы переходим ко второму важному компоненту платформы IO.
Микрофонная матрица
Широкая распространённость смартфонов с голосовыми помощниками создаёт иллюзию того, что достаточно взять такой же простой микрофон, встроить его в условный холодильник, который будет прекрасно слышать и понимать ваш голос из любого угла комнаты. Нет, не будет. Чувствительность простых микрофонов такова, что работают они только на небольших расстояниях и в относительно тихих внешних условиях. Существуют профессиональные микрофоны для специальных целей, которые могли бы решить эту проблему. Вот только стоят они сотни долларов, и ни одно пользовательское устройство не потянет такое увеличение стоимости.
В индустрии эту проблему решают с помощью микрофонных матриц. Один простой микрофон не справляется с задачей, но если взять несколько и заставить их работать согласованно, по принципу фазированных антенных решёток, то получим хороший направленный микрофон. Так и в Станции используется микрофонная матрица собственной разработки, состоящая из 7 микрофонов: 1 в центре и 6 по окружности.
Причём они подключены к отдельному контуру питания, и когда вы нажимаете кнопку Mute на корпусе, микрофоны физически обесточены. Работа кнопки не зависит от софта, поэтому «сломать» программно эту логику нельзя. Вот схема (более простая блок-схема тут):
Для полноценного голосового управления недостаточно одних лишь микрофонов. Устройство должно уметь отличать шум от речи и понимать команды.
Голосовая активация
Распознавание речи – крайне ресурсоемкий процесс, поэтому работает он только в облаке. Но Станция не может позволить себе отправлять весь окружающий шум в сеть: это ухудшает отзывчивость, потребляет трафик и энергию, провоцирует отключение голосового управления. Поэтому наше устройство начинает слушать и посылать звук с микрофонов на сервер только в том случае, когда пользователь произнёс ключевые слова «Алиса» или «Яндекс». Но как это работает без доступа к сети?
Нейросеть, обученная для голосовой активации, способна распознать лишь несколько слов, но зато работает быстро и встроена в само устройство, поэтому не требует подключения к интернету. Только после того, как Станция «услышала» в звуковом потоке ключевое слово, речь пользователя начинает отправляться на сервера Алисы для анализа запроса и подготовки ответа. Но не сразу.
Распознавание речи
Нет смысла отправлять в облако звуковой поток, записанный с 7 микрофонов. Для начала его нужно очистить от шума и выделить речь.
Алгоритм Direction of Arrival отвечает за определение направления, в котором находится источник речи. Как только направление речи определено, микрофонная матрица «разворачивается» в этом направлении и направляет на него «луч». Технология Beamforming позволяет выделить звук, приходящий с целевого направления, подавляя звуки, приходящие с других направлений. На этом же этапе работают алгоритмы Noise Suppression (шумоподавление) и De-reverberation (устранение реверберации).
Источником звука, мешающим распознаванию речи, может быть и сама Станция во время воспроизведения музыки и фильмов. Казалось бы, излучаемый Станцией сигнал известен и поэтому его можно вычесть из сигнала, поступающего на микрофоны. Но не всё так просто. Этот звук приходит с многократными повторениями и нелинейными искажениями (например, из-за переотражения от стен), и его удаление является нетривиальной задачей. Алгоритм Acoustic Echo Cancellation решает эту проблему.
Все эти алгоритмы работают локально на главной плате платформы IO. Только после того, как сигнал проходит через все этапы очистки и выделения речи, он отправляется на сервера Яндекса для полноценного распознавания нейросетями. Вы можете себе представить, насколько трудоемко их обучить, если для понимания одного слова требуются тысячи записей. Этот процесс постоянно совершенствуется, но нам уже удалось добиться точности распознавания речи, сопоставимой с живым собеседником.
Яндекс.Станция вскоре поступит в продажу — если вы оставите адрес на сайте, мы сообщим, когда это произойдёт. В этом посте мы не стали описывать все продуктовые возможности устройства, а сфокусировались на главных технологических вызовах, которые стоят перед разработчиками умных устройств с голосовым управлением. Хочется верить, что в ближайшем будущем мы сможем попросить Алису включить стиральную машину, купить билеты или даже накормить кота – и она выполнит просьбу. Яндекс.Станция и технология IO – наш первый шаг к этому будущему.