#СтартапДня: SoundHound — распознавание голоса с аналогами Siri и Shazam → Roem.ru

#СтартапДня: SoundHound — распознавание голоса с аналогами Siri и Shazam

8 марта 2017 в 14:29
Roem.ru / editor@roem.ru

Ещё одна внезапно решенная проблема – понимание простых фраз на естественном языке, что-то на уровне Siri или Cortana. Русский язык публично предлагает Яндекс, а сервисов для понимания английского или даже испанского в интернете просто много.
#стартапдня сегодня SoundHound, не возьмусь утверждать, что он самый продвинутый из всех, но у него кроме технологии ещё и собственные применения её есть, да и инвестиции недавно поднял – чем не повод.
Начнем с API. Сделан он правильно, с онлайн регистрацией и открытым прайсом, без необходимости общения с сейлзами, но с бесплатным минимальным тарифным планом и преднастроенной демонстрашкой технологии. Качество продукта объективно оценить сложно – что-то он понимает, что-то нет, процент успеха с очевидностью зависит от моего акцента, выбранной темы и просто везения, какое-то число типа “72% верных ответов” не говорит ни о чем. Наверное, совсем правильно было бы проверять его через детские тесты: “разговаривает на уровне среднего ребенка 5 лет и 8 месяцев,” – это была бы наиболее информативная оценка. Но, увы, сейчас могу только сказать, что субъективно по распознаванию звуков он примерно на уровне Nuance (это то, что в трех четвертях приложений с голосовым вводом используется), а по пониманию смысла – хоть и неожиданно хорош в простых предложениях, но запутать можно и в них. Сложносочиненные не берет ни в какую.
Стоит доступ в самом простом случае от нескольких сотен до нескольких тысяч запросов за доллар в зависимости от размеров выбранного пакета, но это “общая лексика”, подключение некоторых тематических пакетов легко может изменить цену раз в десять. Тем не менее, считая даже по 100 запросов за доллар и три фразы в минуту от живого человека, получается, что “зарплата” робота 300$ в месяц за восьмичасовой рабочий день без простоев, отпусков, перекуров, больничных и налогов на ФОТ. В большинстве стран это вполне экономически целесообразный сотрудник коллцентра – и нет, он не будет как голосовой IVR, который в Аэрофлоте уже сто лет стоит, конечный клиент может и не понять, с кем разговаривает. А уж во всевозможные текстовые онлайн-помощники точно можно вставлять по схеме “робот отвечает на то, что может, человек на все остальное”. Даже интересно, почему это не встречается в обычной жизни – компания, между прочим, заявляет о 20 000 разработчиков, использующих её API, а она такая не единственная.
Кроме синтетического демо, на технологии SoundHound можно посмотреть в двух живых приложениях. Hound – полный аналог Siri, но за счет отсутствия в девайсе по умолчанию в тысячу раз менее популярный. SoundHound – умный Shazam, аппка умеет определять звучащую музыку или песню. Главное преимущество SH по сравнению с оригиналом – возможность найти песню не только по профессиональному исполнению, но и если её пользователь сам в микрофон напоет. “Лучший способ узнать, что за мелодия к тебе прилипла, если не считать любого поисковика”. Тем не менее, несмотря на сомнительную пользу отличия и чудовищный интерфейс, страшно перегруженный рекламой, приложение очень популярно, порядка миллиона загрузок в месяц – 1/6 от настоящего Shazam.
Оценка SoundHound в последнем раунде – 800 миллионов долларов (у Shazam, для сравнения, миллиард, а публичный Nuance стоит 5 миллиардов), тратить деньги планируют на расширение числа предметных областей, с которыми умеет работать их AI, ну и на маркетинг, разумеется.
Новости СМИ2

Новости СМИ2

SoundHound Inc.

#СтартапДня: SoundHound — распознавание голоса с аналогами Siri и Shazam

#СтартапДня: Cohero Health — решение сотни проблем астматиков 3

#СтартапДня: Reserve - сервис по поиску и бронированию ресторанов

#СтартапДня: TeamSnap — организация цифровой жизни любительских спортивных команд