Денис Филиппов, занимающийся в "Яндексе" речевыми технологиями, рассказал "Медузе" о технологиях распознавания речи, диалогах таксистов с навигатором и о том, почему клавиатуры будут жить вечно.
- Самая сложная задача сейчас в распознавании речи — отделить основного спикера от фоновых. Эта задача называется «вечеринка с коктейлем»: когда много народу, все что-то говорят, слышны обрывки фраз, гремит музыка на фоне, и распознаванию речи надо догадаться, кто же здесь основной спикер, чью речь ей нужно распознать.
- Самое важное в голосовой биометрии — решение задач идентификации (узнать человека из многих по голосу) и аутентификации (подтвердить с помощью голоса, что это именно тот человек, за которого он себя выдает). Для решения этих задач технология тренируется на так называемых голосовых слепках. Зная, что в этой записи говорил Денис Филиппов, мы создаем из нее некий уникальный слепок голоса, уникальную последовательность чисел, которые получены из характеристик моего голоса. И дальше, если есть какая-то запись речи человека, то мы голос в ней тоже представляем в виде последовательности чисел по тому же алгоритму, и если эта последовательность определенным образом совпадает с голосовым слепком, мы говорим, что с такой-то вероятностью в этой записи тоже был голос Дениса Филиппова.
- На самом деле система уже сейчас умеет несколько больше, чем человек. Взять тех же таксистов. Иногда я не понимаю, что он говорит, а навигатор понимает. То есть я сижу и просто: «Что это? Почему он его понял? Даже я его не понял».
- Почему клавиатуры не умрут? Из-за приватности. Вы не будете в лифте голосом диктовать приватную смску, даже я в это не верю. Это очевидно. В сценариях, где есть прайваси, всегда останется клавиатура или свайпы по экрану. Но не голос.
- По-хорошему, в ближайшие три-пять лет вы начнете разговаривать со своим автомобилем: «Поехали на работу», «Почитай основные новости и потом поставь что-нибудь послушать поживее», «Сделай похолоднее». Не стандартные сейчас автомобильные интерфейсы — искать там джойстики, крутить, выбирать на дисплее из кучи пунктов меню, искать нужные кнопки на панели. Это все будет голосом, здесь даже сомневаться не нужно. «Завези меня на заправку». Или даже не так. Вам машина будет говорить: «Слушай, мы сейчас заедем на заправку, а то до дома уже не хватит топлива».
Добавить 7 комментариев
Главное чтобы получилось не как в сериале Кремниевая долина https://www.youtube.com/watch?v=n39zTcjmSAk
> Вам машина будет говорить: «Слушай, мы сейчас заедем на заправку, а то до дома уже не хватит топлива».
А кто сказал, что это хорошо? Умные вещи должны оберегать нас от избыточного общения, а не навязывать эти дебильные диалоги. Но если уж так необходимо голосом, то коротко, привычно, примерно так: «Топлива, *лять!»
я бы предпочел что-то в духе «давай поедем другим маршрутом — там и километраж меньше, и пробок нет. Сэкономим 7.5 литров топлива и 1.5% износа тормозных колодок»
Вообще, у такой идеи должна быть какая-то дополнительная система контроля подтверждения действий водителя.
Или это дополнительное подтверждение голосом (типа пресловутого Виндовского окна «вы уверены, что хотите это сделать» — только голосом от автомобиля), либо нажатием какой-то кнопки-аппрува.
Или даже, скорее всего, это будет включаемая водителем по нажатию кнопки схема взаимодействия (типа включил — сказал команду — отключил).
Иначе банальный разговор по телефону в салоне авто или с пассажирами может обернуться массой непредсказуемых действий автомобиля ))
Вот когда машина предложит «давай заедем пивка купим тебе? Ты бухнёшь, а я поведу», вот тогда я поверю, что наступило будущее!
Честно говоря, жизнь должна быть так организована, чтобы не было необходимости в частых перемещениях. «Езда на машинах» должна отойти в прошлое или стать редкой. А вместо этого футурологи нам втюхивают новую потребность «общения» с железкой. Не хватало ещё и бухать с нею. Умные вещи должны давать человеку больше свободного времени «для жизни», а не замещать жизнь высокотехнологичными эрзацами.
А что касается умения разговаривать с вещами, у нас итак богатый опыт — взять хотя бы диалоги с граненым стаканом. Эти скилом мы разжились задолго до появления первого айфона.