Lev Walkin (lionet) wrote,
Lev Walkin
lionet

Categories:

Распознавание речи? Пока без прорывов

Подсыплю ложку первоклассного дёгтя.

Слышали про Сколковский/Казанско-IT-парковский проект распознавания речи при помощи, в том числе, информации о движении губ с видеокамеры?

http://realspeaker.net/ru/

Они получили 9 миллионов финансирования, etc.

Что представляет собой проект? Это программа, которая комбинирует готовые открытые библиотеки распознавания лиц из проекта OpenCV/Emgu.CV (Open Computer Vision) и готового же онлайнового гугл-сервиса по распознаванию аудио (Google Speech Recognition API — то же самое, что происходит при распознавании речи в каждом Андроиде, ровно то, что уже доступно каждому JavaScript-программисту в браузере Chrome, и ровно то, на основе чего мы с sidentdv за одну ночь на ульяновском хакатоне написали проект AudioSMS).

Как комбинирует? Берёт аудио с микрофона и по сети посылает в гугл API, пока губы движутся, и не посылает, пока губы не движутся. Эта зависимость от движения губ называется «детекцией пауз». Сервер гугла в ответ присылает в текстовом виде распознанный текст.

Почему это не прорыв? Потому что если не обладать возможностью действительно встроиться в алгоритмы распознавания аудио, нельзя сделать глубокий фидбэк видео от губ. Например, подмешать видеопоток в bayesian language model. То есть, нельзя сделать так, чтобы губы действительно влияли на качество распознавания аудио. Максимум что можно сделать — вот это самое распознавание пауз, при котором шум с микрофона не посылается в гугл.

Может быть это какое-то демо, а у них в лаборатории готовится реальный прорыв? Да, они пишут, что это прототип. Хотя и продают его Pro версию за 1000 рублей. И хочется верить, что у команды есть более тяжёлая артиллерия. Но не думаю, что это так.

Кстати, интересно что у ребят нет договора с Гуглом по коммерческому использованию их API по распознаванию речи.

Ещё интересно, что вся информация, которую я написал, доступна в интервью и в описаниях почти прямым текстом. Но когда чиновники хвалятся этим проектом, то создаётся впечатление неокосмических технологий и искусственного интеллекта, который читает прямо по губам.
Tags: инновации
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 47 comments