?

Log in

No account? Create an account

Previous Entry | Next Entry

Подсыплю ложку первоклассного дёгтя.

Слышали про Сколковский/Казанско-IT-парковский проект распознавания речи при помощи, в том числе, информации о движении губ с видеокамеры?

http://realspeaker.net/ru/

Они получили 9 миллионов финансирования, etc.

Что представляет собой проект? Это программа, которая комбинирует готовые открытые библиотеки распознавания лиц из проекта OpenCV/Emgu.CV (Open Computer Vision) и готового же онлайнового гугл-сервиса по распознаванию аудио (Google Speech Recognition API — то же самое, что происходит при распознавании речи в каждом Андроиде, ровно то, что уже доступно каждому JavaScript-программисту в браузере Chrome, и ровно то, на основе чего мы с sidentdv за одну ночь на ульяновском хакатоне написали проект AudioSMS).

Как комбинирует? Берёт аудио с микрофона и по сети посылает в гугл API, пока губы движутся, и не посылает, пока губы не движутся. Эта зависимость от движения губ называется «детекцией пауз». Сервер гугла в ответ присылает в текстовом виде распознанный текст.

Почему это не прорыв? Потому что если не обладать возможностью действительно встроиться в алгоритмы распознавания аудио, нельзя сделать глубокий фидбэк видео от губ. Например, подмешать видеопоток в bayesian language model. То есть, нельзя сделать так, чтобы губы действительно влияли на качество распознавания аудио. Максимум что можно сделать — вот это самое распознавание пауз, при котором шум с микрофона не посылается в гугл.

Может быть это какое-то демо, а у них в лаборатории готовится реальный прорыв? Да, они пишут, что это прототип. Хотя и продают его Pro версию за 1000 рублей. И хочется верить, что у команды есть более тяжёлая артиллерия. Но не думаю, что это так.

Кстати, интересно что у ребят нет договора с Гуглом по коммерческому использованию их API по распознаванию речи.

Ещё интересно, что вся информация, которую я написал, доступна в интервью и в описаниях почти прямым текстом. Но когда чиновники хвалятся этим проектом, то создаётся впечатление неокосмических технологий и искусственного интеллекта, который читает прямо по губам.

Comments

( 47 comments — Leave a comment )
soloviewoff
Mar. 6th, 2013 05:56 am (UTC)
Что-то количество проектов, которые не вполне добросовестными выглядят, начинает прибывать. Недавно про какой-то антивирус отпадный новость пробегала, там тоже как-то все странно было.

Печально, что люди, дающие деньги, не могут лабуду распознать. То ли материальная заинтересованность, то ли некомпетенция вкупе с wishful thinking cognitive bias на почве патриотизма.
antilamer
Mar. 6th, 2013 06:24 am (UTC)
Антивирус был вообще умора. Его автор заодно написал архиватор, умеющий сжимать любые файлы в тысячу раз, на основе принципа "представим файл десятичной дробью и подберем два числа, которые если поделить, то получится как раз эта дробь".
(no subject) - soloviewoff - Mar. 6th, 2013 06:29 am (UTC) - Expand
(no subject) - cheatex - Mar. 6th, 2013 06:42 am (UTC) - Expand
(no subject) - antilamer - Mar. 6th, 2013 07:10 am (UTC) - Expand
(no subject) - levgem - Mar. 6th, 2013 06:42 am (UTC) - Expand
(no subject) - antilamer - Mar. 6th, 2013 07:09 am (UTC) - Expand
(no subject) - levgem - Mar. 6th, 2013 07:11 am (UTC) - Expand
(no subject) - antilamer - Mar. 6th, 2013 07:16 am (UTC) - Expand
(no subject) - antilamer - Mar. 6th, 2013 07:30 am (UTC) - Expand
(no subject) - thedeemon - Mar. 6th, 2013 07:48 am (UTC) - Expand
(no subject) - che_shr_cat - Mar. 6th, 2013 08:36 am (UTC) - Expand
(no subject) - i_am_glushenkov - Mar. 6th, 2013 07:07 am (UTC) - Expand
yakov_sirotkin
Mar. 6th, 2013 06:53 am (UTC)
По-моему, тут речь идет о 9 миллионах рублей финансирования. Результат более-менее соответствует инвестициям.
ryafk
Mar. 6th, 2013 07:14 am (UTC)
Поддерживаю. За 9 миллионов для такого проекта нормальную команду не оплатишь, а Сколково с фрилансерами и вундеркиндами сотруднивать ничего не будет.
(no subject) - yakov_sirotkin - Mar. 6th, 2013 07:30 am (UTC) - Expand
xaoc80
Mar. 6th, 2013 07:10 am (UTC)
Emgu.CV (порт openCV на .NET) лихо течет по памяти. если это использовали в коммерческом проекте, то остается только удивиться
demmonoid
Mar. 6th, 2013 07:42 am (UTC)
Картинка-с-Боромиром-нельзя-просто-так-взять-и-распознать-движения-губ-на-картинке.jpg
ex_juan_gan
Mar. 6th, 2013 08:17 am (UTC)
Да гугл их отрубит только так.
tilarids
Mar. 6th, 2013 05:10 pm (UTC)
Судя по описанию, этот realspeaker нельзя будет отличить от Chrome или Android девайсов. До тех пор, конечно, пока Google не начнёт требовать ключ. Так как уникальный ключ в каждый Chrome/Android зашивать будет проблематично, то лучшее, что они смогу сделать - привязать ключ к Google Account. Что, в свою очередь, не помешает realspeaker получить доступ к ключу при содействии пользователя.

Пока что стоимость блокирования realspeaker выглядит дороже, чем убытки от них.
tilarids
Mar. 6th, 2013 11:22 am (UTC)
Не против, если я им ссылку на пост отправлю, с просьбой прокомментировать? Хочется надеяться, что это какая-то ошибка, а не попытка продать студенческую курсовую в красивой обёртке за 1000р
lionet
Mar. 6th, 2013 04:39 pm (UTC)
Совершенно не против.
(no subject) - tilarids - Mar. 6th, 2013 05:03 pm (UTC) - Expand
(no subject) - lionet - Mar. 6th, 2013 05:30 pm (UTC) - Expand
(no subject) - tilarids - Mar. 6th, 2013 06:06 pm (UTC) - Expand
(no subject) - lionet - Mar. 6th, 2013 06:08 pm (UTC) - Expand
vit_r
Mar. 6th, 2013 02:27 pm (UTC)
Не "неокосмических", а "нанокосмических". За инвестирование в прорывное сейчас Чубайс за главного.
ya_kostya
Mar. 6th, 2013 09:58 pm (UTC)
Ровно такая же история как и "спартан 300" с их кинектом.
zyxman
Mar. 7th, 2013 04:32 am (UTC)
Там у них тоже opencv? (при кинект в курсе, но какой-то _свой_ софт вроде сделали)
(no subject) - lionet - Mar. 7th, 2013 04:33 am (UTC) - Expand
(no subject) - zyxman - Mar. 7th, 2013 04:37 pm (UTC) - Expand
zyxman
Mar. 7th, 2013 04:29 am (UTC)
Кстати любопытно. Я на одном форуме очень немало общался с людьми из кластера космических технологий, и создалось впечатление, что у космического кластера совет экспертов работает неплохо (вот буквально по паре заявок видел отзывы экспертов и мне реально понравилось).
Если я правильно понимаю, у них требования: коммерциализуемость, научная ценность и не более 50% от Сколково (остальное сами должны где-то взять).
Что еще стоит отметить - космический кластер вообще уникален тем что там ввиду специфики деятельности желающих очень мало, но даже не смотря на это никакой скидки там не делают, в смысле не пытаются искусственно протягивать проекты.
И возможно я ошибаюсь (честно, не уточнял), но вроде там нет непреодолимых препятствий, чтобы экспертом стал посторонний.

По совокупности этих моих данных, плюс субж, делаю вывод, что либо в кластере ИТ совет экспертов совсем левый (что вообще-то говорит о совсем холодном отношении российского ИТ коммьюнити к венчурной системе), либо кто-то на экспертов надавил (как вариант, может сами себе подсуживают), не говоря уже что 9млн эта контора где-то уже имела (ну пусть они были нарисованные, но были).
shadow_ru
May. 2nd, 2013 01:30 pm (UTC)
На этот счёт есть разные мнения:

metadeus.wordpress.com/2012/09/18/%D0%BA%D0%B0%D0%BA-%D1%83-%D0%BD%D0%B0%D1%81-%D0%BF%D0%B8%D1%88%D1%83%D1%82-%D0%BF%D0%BE-%D0%B4%D0%BB%D1%8F-%D0%BA%D0%BE%D1%81%D0%BC%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85-%D0%B0%D0%BF%D0%BF%D0%B0/
(no subject) - zyxman - May. 2nd, 2013 05:29 pm (UTC) - Expand
zyxman
Mar. 7th, 2013 06:56 pm (UTC)
Кстати говоря, в том числе и трудами космического кластера вышел чрезвычайно любопытный документ, по сути _революционный_ (со времен СССР и до нынешнего момента, правила игры даже не озвучивались, а тут по сути предлагается формализованная часть механизма внсения изменений):
www.federalspace.ru/main.php?id=24
собственно сам документ:
www.federalspace.ru/download/metodiceskie_rekomendazii.docx

Думаю, есть смысл поработать над тем, чтобы сделать подобный документ в сфере ИТ.
eugene_z_bajin
Mar. 7th, 2013 11:22 pm (UTC)
Я не понимаю в чем проблема. На основе бесплатных сервисов и библиотек много раз создавались коммерческие сервисы. Если ребята сделали более удобный интерфейс к бесплатному сервису - ну флаг им в руки. Будет продаваться - значит победа. Где именно идет речь о научном прорыве?
lionet
Mar. 8th, 2013 02:43 am (UTC)
> Где именно идет речь о научном прорыве?

Я не прессую тему, что проект не является научным прорывом. Я просто говорю абстрактно про наличие какого либо прорыва. Например, отсутствия прорыва в создании бизнес-ценности.

Но всё равно, где же появляется речь о прорыве? Она появляется, например, тогда, когда об этом проекте начинают говорить чиновники. Например, мне некоторые знакомые чиновники рассказывали с восторгом об этом проекте, когда посещали Казанский ИТ парк. Говорили, что «у них там — вот что!», с намёком, что надо бояться и завидовать.

Ну или вот статья «Женщины года в отрасли ИТ 2013»

Светлана Никифорова – бывший руководитель казанского ИТ-парка, в минувшем году обрела известность не только как супруга самого молодого министра в российском правительстве, но и как амбициозный инвестор. Ее компания «Стартобаза» стала акционером системы аудиовизуального распознавания речи RealSpeaker и онлайн-бухгалтерии «Небо»


RealSpeaker в этой статье выставляется амбициозной инвестицией. И речь не о том, отобьют или не отобьют они 9 милллионов рублей (всего лишь 9 тысяч скачиваний по штуке каждая). А о том, как говорит Белоусов, например, что его инвестиции — это те, которые могут вырасти более чем на 100 миллионов менее чем за 10 лет. Где задел у RealSpeaker'а в этом? В чём конкурентное преимущество? Почему это амбициозная инвестиция а не просто подкидывания бабла в вечерний бизнес двух студентов? В этом проекте я не вижу перспективы, должной’ перспективы.

Ну или вот статья от фонда Сколково:

Компания RealSpeaker Lab, лучший стартап 2012 года, запустила первую пользовательскую версию программы для распознавания речи и её трансформации в буквенный текст. Вот уж действительно волнительное событие в последний день зимы!


Среди всех стартапов — это лучший стартап 2012 года. Я читаю это однозначно как прорыв. Если не научный, то по крайней мере перспективный с бизнес точки зрения. Иначе бы не назвали лучшим стартапом, правда?

Читаем дальше:

Команда проекта во главе с CEO Виктором Осетровым за год разработала, протестировала и запустила один из самых эффективных распознавателей речи.


Что можно отсюда вычитать? То, что RealSpeaker Lab (Lab? наверное лаборатория, то, где проводятся исследования) занимается распознаванием речи, и, наверное, эффективностью распознавания. Это довольно амбициозное и сильное заявление, если использовать его неаккуратно. И вводит в заблуждения многих читателей, которые могут даже не подозревать о факте использования сторонней, доступной всем распознавалки от гугла, а прочитав этот текст начинают думать невесть что. Кстати, одна из форм обмана — это когда явной лжи не говорится, но человека аккуратно подводят под формирования неправильного вывода, неправильного представления о предмете. И не корректируют его заблуждения. RealSpeaker — это как раз такой случай.

Подобного рода умолчания, а также восторженные эпитеты (лучший, амбициозный, один из самых эффективных) — это именно то, что выставляет этот проект прорывом.

Ну и вот, на закуску:

Компания RealSpeaker является резидентом ИТ-парка Казани и инновационного центра Сколково, в 2012 году проект вошёл в число портфельных компаний бизнес-ангела Startobaza, получил гранты фондов Сколково и Посевного Финансирования Microsoft, а также успешно заявила о себе на стартап-конкурсе Web-ready, в финале Зворыкинской премии и премии «Стартап года», Молодёжном форуме-2012 в Республике Татарстан.
(no subject) - pfi79 - Mar. 8th, 2013 08:06 am (UTC) - Expand
Виктор Цвиго
Mar. 10th, 2013 01:11 am (UTC)
Спасибо за разъяснение. Я думал что губы нужны как графика в распознавании текстов.
vladbaranov
Mar. 21st, 2013 07:30 am (UTC)
а почему нельзя распознавание речи по звуку в андроиде сделать без интернета?
неужели там такая большая библиотека чтоб ее нельзя было установить на телефоне или планшете?
lionet
Mar. 21st, 2013 06:04 pm (UTC)
Написал большой коммент, потом стёр. Вкратце можно считать, что да, большая. Кроме того, она сложная и довольно секретная, что не позволяет её просто так сгрузить на телефон, из которого его китайцы потом достанут.
(no subject) - ingart_reinch - Apr. 25th, 2013 01:53 pm (UTC) - Expand
(no subject) - zyxman - May. 2nd, 2013 05:25 pm (UTC) - Expand
(no subject) - ingart_reinch - May. 6th, 2013 05:59 pm (UTC) - Expand
(no subject) - zyxman - May. 2nd, 2013 05:50 pm (UTC) - Expand
fenixxxl
May. 22nd, 2013 09:16 pm (UTC)
Как бы там нибыло, копая тему в поисках достойной распознавалки речи натолкнулся на http://www.compress.ru/article.aspx?id=12682&iid=477 Если информация достоверная значит всё таки у ЦПТ есть какие-то нароботки по теме. Но конечно это совершенно не значит что разрабы прям кинутся делать что-то своё если успешно продается чужое.
lionet
May. 22nd, 2013 11:35 pm (UTC)
> Если информация достоверная значит

Допустим, информация достоверная. Но всё равно не вижу логически корректного перехода к "значит". Почему "значит"?
( 47 comments — Leave a comment )

Profile

lionet
Lev Walkin
Website

Latest Month

December 2016
S M T W T F S
    123
45678910
11121314151617
18192021222324
25262728293031
Powered by LiveJournal.com
Designed by yoksel