в каком году придумали голосовые сообщения
Голосовые сообщения
Сегодня ВКонтакте появились голосовые сообщения в личной переписке. Новый способ общения будет удобен тем, кто предпочитает живой разговор, хочет сэкономить время переписки или не имеет возможности набрать текст.
Когда Вы спешите на встречу, ведёте машину или заняты домашними делами, при этом хотите поддержать интересный разговор с другом или ответить на срочный вопрос, можно больше не тратить время на поиск нужных букв на клавиатуре, а использовать голосовые сообщения ВКонтакте. Они сэкономят время и помогут не отвлекаться от основных дел. И, скорее всего, собеседнику будет приятно услышать Ваш голос.
Как это работает?
Для записи аудиосообщения нажмите и удерживайте иконку микрофона в окне диалога. Если Вы решили отменить запись, смахните влево — и она удалится.
В веб-версии сайта можно прослушать голосовое сообщение перед отправкой — полностью или перемотав его на нужный фрагмент.
В мобильном приложении Вы можете не касаться экрана всё время — достаточно смахнуть пальцем вверх после начала записи. По окончании своего сообщения нажмите «Отправить». Это удобно, если Вы хотите поделиться чем-то важным и не держать телефон в руках.
Сделать запись и отправить её друзьям можно на любом устройстве: как через веб-версию сайта, так и с помощью новых версий мобильных приложений VK App для Android, Windows Phone и в ближайшее время для iOS.
Не пропустите ещё одно важное нововведение в личных сообщениях — отправка денежных переводов.
100 лет назад по радио впервые было передано голосовое сообщение
Репродукция картины Игоря Грабаря «В.И. Ленин у прямого провода», 1933 год. Холст, масло.
27 февраля 1919 года, в 10 часов 02 минуты и в 11:08 состоялась первая в России радиовещательная передача – вместо сигналов азбуки Морзе в эфире прозвучал голос человека. Он исходил из Нижегородской радиолаборатории. Известны слова, которые услышали в радиусе 500 км – в том числе в Москве, куда и велась передача:
«Алло! Алло! Говорит Нижегородская радиолаборатория. Раз, два, три. Как слышно?»
Голос принадлежал лаборанту, в прошлом подпоручику Петру Острякову.
Комиссия на приемной станции отметила «прекрасное воспроизведение речи, качество которой было лучше, чем передача по проводам». Это была техническая проба радиотелефонного передатчика. Услышавшие живой голос не по телефону, а по радио жители столицы и других городов оказались в состоянии глубокого шока и одновременно восхищения. В адрес лаборатории полетели многочисленные телеграммы: «Слышали человеческий голос по радио. Объясните!»
По другой версии, самый первый эфир был передан только на 4 км, а в Москву «прилетело» одно из следующих сообщений. В любом случае, несмотря на тотальную разруху из-за революций и Гражданской войны, советский опыт беспроводной передачи голоса был первым в Европе. В Англии, Франции и Германии живая речь зазвучит лишь в 1922-1923 годах.
Прорывом в области радиовещания страна была обязана бывшему штабс-капитану, воспитаннику Петроградской офицерской электротехнической школы Михаилу Бонч-Бруевичу,
который еще при царской власти добился значительных высот в своем деле и, в частности, производил электровакуумные лампы для радиоприемников Русской императорской армии. После всех политических перемен носитель знаменитой в раннем СССР фамилии не эмигрировал за границу, а лишь снял погоны, как и многие его коллеги. Заинтересованность новой власти в работе Бонч-Бруевича была столь велика, что весомых претензий к нему со стороны органов ВЧК-ОГПУ-НКВД не возникало ни в 1920-е, ни в 1930-е годы.
Главным фанатом идеи развития радио являлся председатель Совнаркома Владимир Ленин, который нередко лично составлял радиограммы для информирования населения об укреплении советской власти и опровержения «вражеской клеветы» на советский строй. Эти сообщения передавались еще азбукой Морзе. Его мечтой было «сноситься радиотелеграфом с Парижем» и рассказывать французам о ходе мирных переговоров в обход премьер-министра Жоржа Клемансо.
Тема радио неоднократно обсуждалась на заседаниях Совнаркома. 21 июля 1918 года Ленин подписал декрет «О централизации радиотехнического дела»,
а 2 декабря — декрет «О радиолаборатории и мастерской Народного комиссариата почт и телеграфов». В этих постановлениях была намечена программа конкретных мероприятий по развитию радиотехнического дела и объединения всех научно-технических сил страны, работающих в этой области. Летом того же года Наркомпочтель по инициативе Бонч-Бруевича создал радиолабораторию при существовавшей в Твери еще с прежних времен радиостанции. Ее работа пристально контролировалась правительством. Так, Бонч-Бруевича и его коллег посещал нарком почт и телеграфов РСФСР Вадим Подбельский. Он отмечал перспективы создания отечественного производства электронных ламп и выделил средства на эвакуацию лаборатории в другой город, где радиотехникам не угрожала бы опасность захвата антибольшевистскими силами.
После переезда в Нижний Новгород лаборатория не только значительно выросла, но и могла рассчитывать на достаточно развитую металлообрабатывающую промышленность. На новом месте радиостанция расположилась в трехэтажном здании бывшего общежития на Верхне-Волжской набережной, а ее управляющим был назначен Владимир Лещинский – ученик изобретателя радио Александра Попова. Бонч-Бруевич стал руководителем технической и научной части.
О развитии радио Ленин составил десятки писем. Известен текст документа, в котором председатель Совнаркома объяснял Иосифу Сталину, что инженер-изобретатель – не родственник знаменитых братьев Бонч-Бруевичей, управделами СНК Владимира и бывшего царского генерала, перешедшего к большевикам Михаила.
«Этот Бонч-Бруевич, доклад которого я прилагаю, — крупнейший работник и изобретатель в радиотехнике, один из главных деятелей Нижегородской радиолаборатории», — сообщал Ильич, добавляя, что благодаря работе инженера «у нас вполне осуществима возможность передачи на возможно далекое расстояние по беспроволочному радиосообщению живой человеческой речи».
Обеспечив условия для работы, власти требовали от радиотехников проведения опытов организации радиовещательных передач.
Ознакомившись с результатами экспериментов, Ленин написал Бонч-Бруевичу письмо:
«Пользуюсь случаем, чтобы выразить Вам глубокую благодарность и сочувствие по поводу большой работы радиоизобретений, которую Вы делаете. Газета без бумаги и «без расстояний», которую вы создаете, будет великим делом. Всяческое и всемерное содействие обещаю вам оказывать этой и подобным работам».
Такая лестная оценка служила для изобретателя лучшей бронью от карательных структур и прочих «неожиданностей» лихого времени, чем взвод пулеметчиков.
Чуть позже Ленин подписал постановление Совета рабоче-крестьянской обороны «О строительстве центральной радиотелефонной станции». Нижегородской радиолаборатории поручалось «изготовить в самом срочном порядке: центральную радиотелефонную станцию с радиусом действия 2 000 верст».
Эту задачу Бонч-Бруевич сначала считал неразрешимой из-за невозможности заказать необходимое оборудование за рубежом.
«Будь в наличии тугоплавкие тантал или молибден, это позволило бы создать тугоплавкий анод и повысить рассеиваемую мощность. Но выплавки и проката этих металлов в России не было, а сейчас страна в блокаде и добыть эти металлы из-за границы безнадежно», — сетовал он.
«Трудные это были времена для работы, — вспоминал лаборант Остряков. — За окном радиолаборатории простиралась замерзшая, где-то на юге перерезанная Колчаком Волга. Ночью город погружался в непроглядную тьму, не было не только молибдена или тантала, не хватало хлеба и топлива.
В пальто и в шапке сидел Бонч-Бруевич в лаборатории, снова и снова возвращаясь к мысли о задаче, поставленной Владимиром Ильичом. Ведь только подумать: сам Ленин, при своей исключительной нагрузке, постоянной занятости неотложными вопросами, нашел время написать ему, Бонч-Бруевичу!
Сам Ленин говорил о радиотелефоне! Сам Ленин думает об этом! Это значит — задача стоит в одном ряду с теми, которые обдумывает Ленин. Воля вождя должна быть выполнена во что бы то ни стало. И опять мысли Бонч-Бруевича вертятся вокруг отсутствующего тантала и вытекающих отсюда осложнений…»
«Дело гигантски важное — газета без бумаги и без проволоки, ибо при рупоре и при приемнике, усовершенствованном Бонч-Бруевичем и так, что приемников легко получить сотни, вся Россия будет слышать газету, читаемую в Москве, — обращался Ленин к управляющему делами Совнаркома Николаю Горбунову. – Очень прошу вас: следить специально за этим делом; провести предполагаемый проект декрета ускоренно через Малый Совет; сообщать мне два раза в месяц о ходе работ».
После выполнения Нижегородской лабораторией «возложенных на нее заданий «по разработке и установке телефонной радиостанции с большим радиусом действия», правительство поручало создать радиоустановки для взаимной телефонной связи в Москве и наиболее важных пунктах страны. Изготовление большой серии радиотелефонных передатчиков и приемников было снова поручено Бонч-Бруевичу.
Во время тяжелой болезни Ленина внимание властей к радио значительно снизилось. В 1928 году радиолаборатория переехала в Ленинград.
История развития систем распознавания речи: как мы пришли к Siri
Оглядываясь назад, мы видим, что развитие технологии распознавания речи похоже на наблюдения процесса взросления у ребенка — прогрессируя от определения отдельных слов, затем все больших словарей и наконец до быстрых ответов на вопросы, как это делает Siri.
Слушая Siri с ее слегка элегантным чувством юмора, мы восхищаемся тем, как далеко продвинулись за эти годы в отрасли распознавания речи. Давайте взглянем в прошлые десятилетия, которые позволили человеку управлять девайсами, используя только голос.
1950 и 1960: Детский лепет
Первые системы распознавания речи могли понимать только цифры (учитывая сложность языка, это правильно, что инженеры сначала сфокусировались на цифрах). Bell Laboratories разработали систему «Audrey», которая распознавала цифры, сказанные одним голосом. Через 10 лет, в 1962 году, IBM продемонстрировала их детище — систему «Shoebox», которая понимала 16 слов на английском.
Лаборатории в США, Японии, Англии и СССР разработали еще несколько аппаратов, которые распознавали отдельные произнесенные звуки, расширив технологию распознавания речи поддержкой четырех гласных и девяти согласных звуков. Звучали они не очень хорошо, но эти первые попытки дали впечатляющий старт, особенно если учитывать, насколько примитивными были компьютеры того времени.
1970-е: Системы постепенно приобретают популярность
Системы распознавания речи сделали большие шаги в семидесятых благодаря интересу и спонсированию от министерства обороны США. Их программа DARPA Speech Understanding Research (SUR) с 1971 по 1976 год была одной из самой большой в истории распознавания речи, и помимо всего остального она отвечала за систему «Harpy» Университета Карнеги Меллона. «Harpy» понимала 1011 слов, что является средним словарным запасом трехлетнего ребенка.
«Harpy» была значительной вехой, так как она представила более эффективный подход к поиску, называемый Beam search, «демонстрируя сеть возможных предложений с конечным числом состояний» ( Readings in Speech Recognition).
70-е годы также отмечены еще несколькими вехами в данной технологии, например основанием первой коммерческой компании Threshold Technology, которая представила систему, которая могла интерпретировать различные голоса.
1980-е: Распознавание речи оправдывает прогнозы
В следующей декаде благодаря новым подходам и технологиям словарный запас подобных систем вырос с нескольких сотен до нескольких тысяч слов и имел потенциал распознавания неограниченного количества слов. Одной из причин был новый статистический метод, больше известный как скрытая марковская модель.
Используя шаблоны для слов и звуковые паттерны, она рассматривала вероятность того, что неизвестные звуки могли быть словами. Эта база использовалась другими системами еще на протяжении двадцати лет (Automatic Speech RecognitionA Brief History of the Technology Development).
С расширенным словарным запасом распознавание речи начало протаптывать себе дорожку в коммерческие приложения для бизнеса и специализированных отраслей, таких как медицина. Она даже вошла в дома обычных людей в 1987 году в виде куклы Worlds of Wonder’s Julie doll, которые дети могли натренировать, чтобы она распознавала их голос («Наконец-то кукла, которая тебя понимает»).
Хоть ПО по распознаванию могло распознавать до 5000 слов, как, например, программа Kurzweil text-to-speech, в них был огромный недостаток — эти программы поддерживали дискретную надиктовку, то есть вы должны были останавливаться после каждого слова, чтобы программа его обработала.
1990-е: Автоматическое распознавание речи идет в массы
В девяностых компьютеры наконец-то получили быстрые процессоры, и программы по распознаванию речи стали жизнеспособными.
в 1990 году появилась первая общедоступная программа Dragon Dictate c ошеломляющей ценой 9000 долларов. Спустя семь лет вышла улучшенная версия — Dragon NaturallySpeaking. Приложение распознавало нормальную речь, поэтому вы могли говорить в обычном темпе около 100 слов в минуту. Но все равно, вы должны были тренировать программу в течении 45 минут перед использованием, и она имела все еще высокую цену в 695 долларов.
Появление первого голосового портала VAL от BellSouth было в 1996 году. Это была первая интерактивная система распознавания речи, которая давала информацию, основываясь на том, что вы сказали в трубку телефона. VAL вымостила дорогу для всех неточных на то время голосовых меню, которые надоедали звонящим в следующие 15 лет.
2000-е: Застой в распознавании речи — пока не появился Google
К 2001 году распознавание речи поднялось до 80-процентной точности, и прогресс технологии остановился. Системы распознавали работали отлично, когда языковая вселенная была ограниченной, но они до сих пор «догадывались» при помощи статистических моделей среди похожих слов, языковая вселенная росла вместе с ростом Интернета.
Знали ли вы о том, что распознавание голоса и голосовые команды был встроены в Windows Vista и Mac Os? Большинство пользователей даже не догадывалось, что такая функциональность существует. Windows Speech Recognition и голосовые команды OS X были интересными, но недостаточно точными и удобными, как клавиатура и мышь.
Технология распознавания речи получила второе дыхание после одного важного события: появления приложения Google Voice Search для iPhone. Влияние этого приложения было значительным по двум причинам. Во-первых, телефоны и другие мобильные девайсы — это идеальные объекты для распознавания речи, и желание заменить крошечные экранные клавиатуры альтернативными методами ввода было очень велико. Во-вторых, у Google была возможность разгрузить этот процесс, используя свои облачные дата-центры, направив всю их мощь для крупномасштабного анализа данных для поиска совпадений между словами пользователей и огромного числа образцов голосовых запросов, которые они получали.
Вкратце, узким местом распознавания речи всегда было доступность данных и возможность эффективной их обработки. Приложение же добавило к анализу данные миллиардов поисковых запросов, чтобы лучше предугадывать, что же вы сказали.
В 2010 году Google добавил персональное распознавание в голосовой поиск телефонов под управлением Android. Программное обеспечение могло записывать голосовые запросы пользователей для построения более точной голосовой модели. Также компания добавила распознавание голоса в свой браузер Chrome в середине 2011 года. Помните как мы начали с 10 слов и продвинулись до нескольких тысяч? Так вот система Google теперь позволяет распознать 230 миллиардов слов.
Потом появилась Siri. Так же, как и система Goggle Voice Search, она полагается на облачные вычисления. Она использует те данные, которые ей известны о тебе, чтобы сгенерировать вытекающий из контекста ответ и отвечает на твой запрос, как некая личность. Распознавание речи превратилось из инструмента в развлечение.
Будущее: Точная и повсеместная речь
Бум приложений по распознаванию речи указывает на то, что время распознавания речи пришло, и мы можем ожидать огромного количества их и в будущем. Эти приложения не только позволят контролировать компьютер с помощью голоса или конвертировать голос в текст — они будут также способны различать разные языки, позволят выбирать голос помощника из различных вариантов.
Вполне вероятно, что технология распознавания речи перейдет и на другие типы девайсов. Нетрудно представить, как в будущем мы будем управлять кофеварками, разговаривать с принтерами и говорить освещению, чтобы оно выключалось.
История голосового управления: когда мы начали пытаться говорить с машинами и как они научились нас слышать
В 1970-х общение с роботами казалось научной фантастикой: R2D2 и C3PO из «Звёздных войн», способные понимать и говорить, были героями далекого будущего. На самом деле технологии распознавания голоса существовали тогда уже больше двух десятилетий, а синтезом речи учёные занялись еще в XVIII веке. Ну а сегодня прохожий, разговаривающий с умными часами, уже не вызывает удивления. Рассказываем, как человек учил машины общаться: от первых искусственных звуков до персональных виртуальных ассистентов.
1773: Первые попытки научить машины говорить
Первым имитировать человеческое общение с помощью техники попытался в 1773 году немецкий учёный Христиан Кратценштейн, работавший в России. Он изобрёл синтезатор речи на основе трубок органа, который издавал гласные звуки: а, э, и, о, у. Металлические детали резонировали в трубах подобно голосовым связкам. Ещё одно раннее изобретение — говорящая машина австрийца Вольфганга фон Кемпелена 1791 года. Меха подавали воздух на металлический язычок, а человек помогал аппарату генерировать нужные звуки, прикрывая клапан ладонью: устройство произносило простые слова, например «мама» и «папа».
Говорящая машина Кемпелена, экспонат Deutsches Museum, Мюнхен
В XX веке на смену механическим машинам пришли электрические. В 1922 году появилась схема английского физика Джона Стюарта: она издавала несколько гласных звуков с помощью резонаторов — подобно радиоприёмнику. А в 1938 году представили синтезатор на электронных осцилляторах и фильтрах, способный произносить любые слова. Машина Voder, напоминавшая фортепиано, даже умела петь. Её разработала компания Bell Laboratories, которая сейчас называется Nokia Bell Labs.
1952: Audrey от Bell Labs — машина, которая понимает речь
Поняв физику электронного синтеза речи, ученые начали описывать ее формантами — наборами резонансных частот звуков, которые создают связки, язык и губы. Эти описания стали основой технологии распознавания: в 1952 году машина Audrey от Bell Laboratories понимала, когда человек называет цифры от 0 до 9. Audrey воспринимала форманты говорящего и сравнивала их с образцами. Устройство работало точнее, когда слова произносил человек, чьи записи использовались как эталонные. Так возникла задача, которую будут решать в течение следующих десятилетий: научить машины распознавать форманты одних и тех же слов у разных людей.
Графические описания формант слов, обозначающих цифры
1962: IBM Shoebox — появление голосового управления
В 1962 году технологию распознавания голоса публично представила корпорация IBM. Экспериментальная машина Shoebox (дословно – коробка от обуви, по габаритам аппарата) понимала 16 слов: цифры и команды для операций с числами, такие как «плюс», «минус» и «равно». Shoebox принимала речь с помощью микрофона, передавала команды на счетное устройство, которое печатало ход и результаты арифметических операций на бумаге.
Работу Shoebox демонстрировали по телевидению и на Всемирной выставке 1962 года в Сиэтле. Фото из архива IBM
В 1960–1970-х годах идея голосового управления стала популярной благодаря голливудским блокбастерам. Один из самых известных — «Космическая одиссея 2001 года» Стенли Кубрика. В фильме компьютер HAL синтезирует и распознает беглую человеческую речь — совсем как живой. Позднее общающиеся роботы R2D2 и C3PO появились в «Звёздных войнах» Джорджа Лукаса.
1971: Harpy — государственный проект и новый алгоритм
Разработкой технологий распознавания голоса заинтересовалось Министерство обороны США. В рамках программы DARPA Speech Understanding Research (SUR) в 1971 году разработали систему Harpy. Она понимала 1011 слов. Всё благодаря новому подходу: подобие записанных слов сравнивали с эталонами при помощи теории графов. С алгоритмом «поиск луча» (beam search) машина способна воспринимать речь по частям, исходя из синтаксиса и разных форм слов. «Поиск луча» также используют в машинном переводе. Несмотря на новаторство, система всё ещё была исследовательской и была непригодна для коммерческого использования.
1986: IBM Tangora — пишущая машинка с большим словарным запасом
В 1970-х к IBM присоединился Фред Йелинек из Корнелльского университета. Он считал, что в новых разработках нужно отказаться от «подражания» человеческой речи. Он начал искать способы распознавания, основанные на работе компьютера, — и в 1986 году создал пишущую машинку Tangora с голосовым управлением.
В Tangora работал статистический алгоритм на основе скрытой модели Маркова: компьютер рассчитывал вероятности того, что воспринимаемый звук будет частью какого-то слова. Изобретение позволило серьёзно расширить словарный запас: Tangora понимала 20 тысяч слов и несколько предложений. Машинка обучалась под работу с новым пользователем в течение 20 минут. Исследователи начали применять её в своей работе: рабочие станции Tangora на основе компьютеров IBM помогали создавать текстовые документы голосом.
1987: Джули — умная кукла
В 1987 году компания Worlds of Wonder выпустила в продажу умеющих общаться кукол Джули. Электроника внутри понимала 16 слов и отвечала с помощью синтезатора речи. Датчики помогали умной кукле «отличать» день от ночи, а также «чувствовать» холод и тепло — так разговоры получались содержательными. Как и машинку Tangora, Джули нужно было обучать под голос конкретного человека.
До 1980-х разработчики в основном занимались методами преобразования звуковых волн в текст. После появления массовых устройств исследователи начали изучать пользовательский опыт. Выяснилось, что с машинами люди говорят так же, как друг с другом: с упрощённым синтаксисом и искажением литературного языка. Для корректного диалога устройствам не хватало словарного запаса и способности понимать нестандартные речевые конструкции. Ограничения были связаны прежде всего с низкой производительностью процессоров.
1990–1997: Dragon NaturallySpeaking — непрерывный распознаватель речи
С распространением интернета и персональных компьютеров технологии распознавания голоса начали развивать как программное обеспечение — так в 1990 году появилась Dragon Dictate. Супруги Джеймс и Джанет Бейкеры разрабатывали подобные программы с 1977 года, но для полноценной работы компьютерам не хватало мощности процессоров и оперативной памяти. Dragon Dictate работала на операционной системе DOS и распознавала 30 тысяч слов естественного языка. Слова приходилось чётко выговаривать и диктовать по одному.
В 1997 году систему улучшили — появилась Dragon NaturallySpeaking (DNS). Первые версии уже распознавали непрерывную речь — до 100 слов в минуту. Для корректной работы пользователь тренировал программу в течение 45 минут. DNS стала коммерчески успешной — и совершенствуется до сих пор.
2008–2011: Голосовые помощники Google, Apple и другие
В 2000-х технологию развивали с помощью машинного обучения. В 2008 году Google создал Voice Search — программу голосового управления для iOS: собственной мобильной операционной системы у компании не было. На тот момент в iPhone уже были подобные приложения, например SayWho. Но Voice Search отличался инновациями. Он использовал GPS-датчик для более точных ответов на запросы, такие как «Где ближайший Starbucks?». К тому же, Voice Search был облачным: запись голоса обрабатывалась не на iPhone, а отправлялась на серверы Google.
Эпоха смартфонов дала голосовому управлению полноценное применение. Появились настоящие виртуальные ассистенты, помогающие использовать разные функции смартфона через речевые команды.
Позднее Google стал использовать своего голосового помощника на Android. Компания Apple разработала собственную технологию, в 2011 году представив Siri — первого помощника с узнаваемым голосом. На английском языке Siri говорит голосом Сьюзан Беннетт — актрисы озвучивания рекламных роликов. Спустя несколько лет голосовыми помощниками обзавелись и другие IT-гиганты: в 2014 году Microsoft представил Cortana, а Amazon — Alexa. Позднее технологией заинтересовались и российские компании — появились голосовые помощники Алиса, Маруся и Олег.
А голосовые ассистенты, которые раньше могли выполнять ограниченный круг задач, становятся умнее с каждым днём. Благодаря прорыву в синтезе речи их голоса сегодня звучат естественнее, а из программ, способных только ставить будильник и совершать звонки, они превратились в полноценных помощников.
Мы в SberDevices развиваем целое семейство виртуальных ассистентов с тремя персонажами — это Сбер, Джой и Афина. Сейчас технологии позволяют наделять ассистентов характерами, чтобы дать пользователям возможность выбрать близкого по духу персонажа. Способы взаимодействия тоже изменились: если первые голосовые помощники могли понимать только речь (и то не всегда хорошо), то с современными ассистентами можно общаться ещё и жестами. Для этого, разумеется, нужна камера — о том, как это работает у нас, мы уже рассказывали. И, конечно, виртуальные ассистенты сегодня умеют гораздо больше, чем их предшественники: они живут в банковских приложениях и помогают управлять финансами, а ещё — умеют заказывать еду, рекомендовать подходящий контент и многое другое.