?

Log in

No account? Create an account

Previous Entry | Next Entry

На последнем экспертном совещании ульяновского министерства информационных технологий был вскользь затронут вопрос об обучении людей элементам информационных технологий, чтобы потом их задействовать в относительно простых работах. Примером работ была оцифровка загсовских записей числом около 5 миллионов. Мол, можно научить людей и посадить их за эту работу.

Давайте посмотрим. Пять миллионов записей. Шесть тысяч рублей в месяц зарплата легковооружённого дроида, 6 часов работы в день. Каждая загсовская запись — это, скажем, 30 секунд работы по вбиванию. Может даже минута.

5000000 / (4 * 5 * 6 * 60) / 2 = 347 месяцев работы одного человека, или около двух миллионов рублей денег только на зарплату. Если мы хотим оцифровать пять лямов за год, а не за 30 лет, нам понадобятся 30 человек.

Никакой погоды эти тридцать data-entry человек в масштабах Ульяновского «айти» не сделают.

Зато если потратить эти два лимона на двух аспирантов в годовом проекте оптического распознавания этой всей хрени, это получится три тысячи долларов в месяц на каждого аспиранта. И это в результате будет хайтек-проект, который затем можно будет тиражировать по стране, а то и дальше. Это высокотехнологический, среднерисковый проект, который может масштабироваться далеко за пределы ульяновской области.

Почему машинное распознавание рукописного текста в данном случае не является бредом?

  • Это считывание из фиксированной формы, это упрощает.
  • Имена, отчества, названия населённых пунктов повторяются, и OCR может быть натренирована на них целиком.
  • Данные не являются секретными, поэтому то, что не распозналось, можно засылать в РеКапчу. Ну или сделать какой-нибудь порносайт, и в качестве пароля туда просить распознать задетектированное слово или предложение.

Если области хочется вложиться в IT (на самом деле, CS, Computer Science), то на порядок лучше вложить его в политех, где есть необходимая компетенция по нейронным сетям и машинному обучению, чем тренировать 30 бабушек.

Tags:

Comments

( 105 comments — Leave a comment )
Page 1 of 2
<<[1] [2] >>
Sergey Averyanov
Nov. 25th, 2012 07:59 am (UTC)
Есть одно но.

Если инициировать IT-проект, то подряд неизбежно достанется какому-нибудь ФГУП Информтыринг, где всю "работу" будут делать три студента с зарплатой 10к. В итоге получим 3D-гис версии 2.0

Оцифровывать бумажки надо заставлять работников загсов/архивов (естественно, с каким-то минимально необходимым набором соответствующего ПО). За прошедшие 10-15 лет с момента всеобщей интернетизации/компьютеризации они могли сделать это уже не раз.


Edited at 2012-11-25 08:00 am (UTC)
lionet
Nov. 25th, 2012 08:12 am (UTC)
1. Заставлять загс оцифровать свои архивы не рационально — у них нет штата из 30 человек, чтобы сделать это во вменяемые сроки.

2. Если инициировать проект по обучению бабушек, точно так же может возникнуть проект по тырингу.

3. Некоторое количество проектов в ульяновском ИТ в последнее время всё-таки обходится без тыринга. Как ни странно. Я не вижу, почему бы и этому проекту не обойтись без него.

Edited at 2012-11-25 08:20 am (UTC)
(no subject) - ircicq - Nov. 25th, 2012 10:12 am (UTC) - Expand
(no subject) - lionet - Nov. 25th, 2012 10:20 am (UTC) - Expand
(no subject) - o_alexeyeva - Nov. 25th, 2012 10:15 am (UTC) - Expand
(Deleted comment)
lionet
Nov. 25th, 2012 08:17 am (UTC)
> они все подпадают под ФЗ о защите персональных данных

Данные подпадают, а вот слова — не подпадают. Разбив документ на слова, можно его OCR'ить по словам, не открывая данные.

> в общем, смотрите, как это в самарской области

А как это в самарской области? Я вижу, что там отсканировали пятую часть документов, но распознавания не делалось. Я ошибаюсь?
(Deleted comment)
(no subject) - lionet - Nov. 25th, 2012 08:49 am (UTC) - Expand
(Deleted comment)
(no subject) - lionet - Nov. 25th, 2012 09:07 am (UTC) - Expand
(no subject) - alll - Nov. 25th, 2012 12:58 pm (UTC) - Expand
cae32
Nov. 25th, 2012 08:03 am (UTC)
Минобороны вроде уже сканировало с внесением с базу? Конечно, результат был только про ФИО, остальные графы остались нераспознанными, но как почин.
lionet
Nov. 25th, 2012 08:18 am (UTC)
«Подходов к снаряду» в этой области можно привести огромное количество. Это вообще-то показывает, что в этом направлении уже работают, и можно не успеть развить и закрепить лидерство области в этой сфере (а потенциал есть).

Edited at 2012-11-25 08:18 am (UTC)
(Deleted comment)
(no subject) - lionet - Nov. 25th, 2012 08:51 am (UTC) - Expand
(Deleted comment)
(no subject) - lionet - Nov. 25th, 2012 09:09 am (UTC) - Expand
(Deleted comment)
(no subject) - lionet - Nov. 25th, 2012 09:48 am (UTC) - Expand
(no subject) - ostapru - Nov. 25th, 2012 06:00 pm (UTC) - Expand
(no subject) - thedeemon - Nov. 25th, 2012 10:03 am (UTC) - Expand
stas911
Nov. 25th, 2012 09:06 am (UTC)
Задача распознавания рукописного текста в формах вроде типовая - воспользоваться готовыми решениями разве не проще будет, к чему городить велосипеды? Например, тот же Abbyy - у них же все есть готовое уже.

Или цель не распознать документы, а обучить аспирантов?

Edited at 2012-11-25 09:08 am (UTC)
lionet
Nov. 25th, 2012 09:17 am (UTC)
Задача — это потратить известное количество бабла на «развитие потенциала У.О. в области информационных технологий». Можно потратить их на бабушек, а можно на аспирантов. Не тратить нельзя, запрещено логикой процесса.
(no subject) - david_m - Nov. 25th, 2012 09:25 am (UTC) - Expand
(no subject) - lionet - Nov. 25th, 2012 09:34 am (UTC) - Expand
(no subject) - david_m - Nov. 25th, 2012 09:39 am (UTC) - Expand
(no subject) - lionet - Nov. 25th, 2012 09:44 am (UTC) - Expand
(no subject) - vzaliva - Nov. 25th, 2012 10:12 am (UTC) - Expand
(no subject) - lionet - Nov. 25th, 2012 10:17 am (UTC) - Expand
(no subject) - yakov_sirotkin - Nov. 25th, 2012 01:00 pm (UTC) - Expand
(Deleted comment)
(no subject) - yakov_sirotkin - Nov. 25th, 2012 02:33 pm (UTC) - Expand
(no subject) - kashnikov - Nov. 27th, 2012 09:29 am (UTC) - Expand
(no subject) - yakov_sirotkin - Nov. 27th, 2012 09:44 am (UTC) - Expand
(no subject) - kashnikov - Nov. 27th, 2012 11:00 am (UTC) - Expand
(no subject) - yakov_sirotkin - Nov. 27th, 2012 11:46 am (UTC) - Expand
(no subject) - kashnikov - Nov. 27th, 2012 12:30 pm (UTC) - Expand
(no subject) - yakov_sirotkin - Nov. 27th, 2012 12:54 pm (UTC) - Expand
(no subject) - kashnikov - Nov. 27th, 2012 01:00 pm (UTC) - Expand
(no subject) - levgem - Nov. 25th, 2012 06:30 pm (UTC) - Expand
(no subject) - yakov_sirotkin - Nov. 25th, 2012 06:47 pm (UTC) - Expand
(no subject) - levgem - Nov. 25th, 2012 06:59 pm (UTC) - Expand
(no subject) - yakov_sirotkin - Nov. 25th, 2012 07:15 pm (UTC) - Expand
(no subject) - antilamer - Nov. 26th, 2012 08:31 am (UTC) - Expand
(no subject) - levgem - Nov. 26th, 2012 08:39 am (UTC) - Expand
(no subject) - antilamer - Nov. 26th, 2012 08:40 am (UTC) - Expand
(no subject) - levgem - Nov. 26th, 2012 08:44 am (UTC) - Expand
(no subject) - vit_r - Nov. 25th, 2012 12:16 pm (UTC) - Expand
Ilya Averyanov
Nov. 25th, 2012 09:26 am (UTC)
Растиражированный хай-техи-техи проект по распознаванию -- это, конечно круто и полезно, но чтобы существенно (до вменяемого времени) сократить временнЫе расходы и, соответственно, бюджет, надо заранее продумывать организацию самых примитивных процессов (принести запись, "поднести" к агрегату, унести). Иначе выйдет мега-коробка с искуственным интеллектом, обрабатывающая запись за 0.1 сек., а расходы на то, чтобы запись принести и ему скормить (а не просто вбить в форму) останутся теми же (30? 20? 10? секунд из теоретических 60-ти?).

В итоге после потраченных денег и времени результат будет все еще нулевой и требовать много месяцев работы и обучения человекодронов.

Для простого человека нет разницы между ручной оцифровкой и высокотехнологичной, поэтому со стороны это будет еще и выглядеть, как обычный распил. Что-то делали-делали, поставили и вернулись к исходной задаче: "нужно много кадров на много месяцев вперед".
lionet
Nov. 25th, 2012 09:37 am (UTC)
> надо заранее продумывать организацию самых примитивных процессов

Полностью согласен.

> поэтому со стороны это будет еще и выглядеть, как обычный распил

Это отдельная проблема. В России 100% инициатив выглядят как обычный распил. А являются им в заметно меньшем количестве случаев. Эту проблему как-то по-другому нужно решать, вне связи с этим конкретным проектом.
(no subject) - d_zh - Jan. 16th, 2013 10:02 pm (UTC) - Expand
(no subject) - tzirechnoy - Nov. 25th, 2012 02:42 pm (UTC) - Expand
enternet
Nov. 25th, 2012 09:27 am (UTC)
На практике всё это не совсем так радужно.

Видел я источники. Архив записей актов гражданского состояния - это толстые прошитые тетрадки, заполненные весьма коряво. "Фиксированность формы" там не соблюдается. И чем дальше в глубь веков, тем корявей и неразборчивей. Т.е. начиная с какого-то года самая лучшая OCR не поможет, наколотчицы регулярно прибегают к соседям и просят прочитать.

Два аспиранта за год ничего толкового не сделают. В самом лучшем случае получится у них некий прототип, который тратит 3 минуты на страницу и ошибок дает 10%. Основания для такого мнения:
1) Аспирант не несет никакой ответственности за результат. Если хоть что-то сможет показать - он ничем не рискует.
2) OCR - тема сложная. Куча народа что-то пыталась сделать, а практически приемлемые результаты только у одной общеизвестной конторы.

Короче, я к тому, что избавиться от ручной наколотки не удастся.
lionet
Nov. 25th, 2012 09:38 am (UTC)
Поэтому я и упомянул хайтек-вариант с порносайтом.
(no subject) - zhengxi - Nov. 25th, 2012 10:47 am (UTC) - Expand
(no subject) - alll - Nov. 25th, 2012 01:00 pm (UTC) - Expand
(no subject) - chesser_ru - Nov. 25th, 2012 04:40 pm (UTC) - Expand
(no subject) - _adept_ - Nov. 25th, 2012 05:25 pm (UTC) - Expand
(no subject) - _winnie - Nov. 25th, 2012 06:09 pm (UTC) - Expand
(no subject) - _adept_ - Nov. 25th, 2012 08:36 pm (UTC) - Expand
(no subject) - _winnie - Nov. 25th, 2012 08:40 pm (UTC) - Expand
(no subject) - chesser_ru - Nov. 25th, 2012 07:23 pm (UTC) - Expand
(no subject) - _adept_ - Nov. 25th, 2012 08:37 pm (UTC) - Expand
thedeemon
Nov. 25th, 2012 10:07 am (UTC)
Уже представляю заголовки. "Новости инноваций: российские чиновники откроют порносайт"!
lionet
Nov. 25th, 2012 10:16 am (UTC)
Гхм. Думаешь, будет как-то выделяться на общем фоне заголовков?
o_alexeyeva
Nov. 25th, 2012 10:08 am (UTC)
А как проверить распознанное? Только глазками.
Сканирование, распознавание рукописного текста, а затем проверка отсканированного и исправление ошибок займут не намного меньше времени, чем сразу набить инфу правильно. Хотя это не отменяет необходимости поиска более оптимального пути решения.
lionet
Nov. 25th, 2012 10:13 am (UTC)
А как проверить распознавание за бабушками? Которые несут zero ответственности за результат.

Точно так же: кросс-валидацией. Только в лоу-техе валидатором будет другая бабушка (одна), а в хайтеке — посетитель порносайта (можно даже десяток, пусть валидируют с большим запасом).

Почитай http://www.google.com/recaptcha

Edited at 2012-11-25 10:15 am (UTC)
(no subject) - o_alexeyeva - Nov. 25th, 2012 10:32 am (UTC) - Expand
yakov_sirotkin
Nov. 25th, 2012 10:57 am (UTC)
Вроде как есть компании, которые профессионально занимаются сканированием архивов - у них есть OCR, есть производительные сканеры, есть технологии проверки работы операторов и так далее. Почему бы не обратиться к ним? По-моему, хайтека здесь совсем чуть-чуть.
lionet
Nov. 25th, 2012 11:01 am (UTC)
Можно и так, если это российские компании. Лишь бы без бабушек.
(no subject) - mabrek - Nov. 25th, 2012 09:11 pm (UTC) - Expand
koudesnik
Nov. 25th, 2012 11:34 am (UTC)
если задача все же оцифровать и желательно побыстрее, то вообще-то лучше всего будет купить готового ocr-софта с заказом возможной адаптации и обучения 1-2 человек работы с ним --если бюджет 1-2 миллиона то хватит вполне за срок порядка полугода
Аспиранты да будут хороши в плане хайтека и общего бла-бла что в области есть спецы по оср - внерегионального выхлопа имхо будет немного (т.к. вряд ли они достигнут большего чем small improvements в уже существующих методах), но не хороши в плане сроков и фактического достижения задачи (все таки перво-задача у аспирантов будет ознакомиться с методами и улучшить какой-нибудь, а не оцифровать вот этот конкретный архив)
Бабушки кстати тоже будут хороши для пиара, но в плане а) снижения безработицы б) как представители передового юнита-оцифровающего (причем довольно качественно, т.к. они будут распознавать лучше чем софт, впрочем вбивать в базу с опечатками так что наверное только немного лучше софта) любые архивы (другим областям будет очень интересно, ну а то какие именно методики бабушки используют можно не говорить :)
vit_r
Nov. 25th, 2012 12:15 pm (UTC)
Зато если потратить эти два лимона на двух аспирантов в годовом проекте оптического распознавания этой всей хрени, это получится три тысячи долларов в месяц на каждого аспиранта.

Или не получится. Или получится, но не с тем качеством. Или надо будет пять таких бюджетов.

Проблема в том, что даже машинно набитое людям придётся проверять вручную.

Кстати, в школе практика была в виде набивания данных для ГАИ на древних устройствах, работавших с лентами.
_adept_
Nov. 25th, 2012 12:39 pm (UTC)
Рассказываю с высоты своего ограниченного опыта участия в подобных проектах:

Основные проблемы имхо не в области IT, и два аспиранта ничего не решат. Нужно изменение процессов в "архивируемой организации" и борьба с низким качествома данных, и, соответственно, наибольшая польза будет от человека, который хорошо шарит именно в это области. Попробую аргументировать.

Чтобы пережевать существующий бумажный архив, надо:
1)Его отсканировать
2)Сделать OCR - распознать текст и выделить структуру в том потоке картинок, который мы отсканировали
3)Выделить и валидировать метаданные, куда-то их сохранить и как-то связать с отсканированными док-там
4)Организовать хранений исходных бумажных документов.

Дальше по пунктам.

1)Сканирование. В идеале - чтобы можно было грузить в сканеры пачками бумагу с одной стороны и через 10 минут забирать эту же пачку с дргой стороны, даже не заглядывая в нее. Что мешает на этом этапе? Скрепки. Ветхие странички (которые могут порваться). 1% двусторонних страниц среди односторонних или наоборот. Перевернутые вверх тормашками или лицевой стороной вниз страницы. Многостраничные документы, перемешанные друг с другом. Сканеры засоряются бумажной пылью, их надо чистить. Мощные сканеры имеют дневной лимит(!) по кол-ву страниц, и если его нарушать, лишаешься гарантии. В плюсах: если документы таки можно засовывать в сканер пачками, то мощный сканер можно арендовать, а не покупать. (т.к. сканеры могут составлять пол-бюджета проекта). Тут будет большая часть ручного труда.

2)OCR. Он распадается на две делаемых параллельно задачи: во-первых, надо распознать текст (или весь, или только определенные поля). Во-вторых, надо понять, что же именно мы отсканировали - где начинается один документ и кончается другой (если они много страничные), где у страницы верх и низ, где на ней ключевые поля и т.п.

Первая часть - OCR-для-распознавания текста, хоть бы и рукописного большой проблемой не является. Есть хорошие коробочные решения, которые дообучаются и/или настраиваются. Я видел несколько разных, плотно работал только с одними - от Abbyy. Когда распознавание поставлено на поток, OCR группировал вместе "похожие" ошибки и давал их оператору на валидацию все вместе - "вот это 200 штук неуверенно распознанных букв А, выделите те, которые точно не А". Человеческий глаз/мозг очень хорошо и быстро справляется с подобной задачей. После устранения ошибок распознавания символов результат проверялся по подключаемым словорям. Словари могли быть как контекстно-независимыми ("словарь русского языка"), так и контекстными ("словарь улиц города Н"). Про это можно рассказывать долго, но Abbyy мне за рекламу не платит :), поэтому просто повторюсь и скажу, что в OCR текста больших-ужасных проблем нет.

(to be continued)
lionet
Nov. 25th, 2012 05:55 pm (UTC)
1. Гугл книги не сканируют сканером, он их фотографирует фотоаппаратом.
(no subject) - _adept_ - Nov. 25th, 2012 08:39 pm (UTC) - Expand
_adept_
Nov. 25th, 2012 12:39 pm (UTC)
(начало - выше)

Вторая часть - распознавание структуры документов и извлечение метаданных - намного сложнее и является, с мой точки зрения, второй по величине проблемой после организации сканирования. В идеальном случае все документы будут одностраничными и с четко обозначенными полями, из которых извлекаются метаданные (ФИО, адрес, год рождения ...), да еще и со штрих-кодом в углу, по которому, как минимум, можно будет определить, что страница отсканирована вверх ногами. Естественно, такой идеальный случай в природе не встречается :)

Документы будут многостраничные, заглавные страницы у них будут 100500 разных форматов, метаданные будут писаться в 100500 разных мест. Даже если OCR позволяет писать деревья решений вида ("если мы видим ФИО, а ниже год-рождения, а в первых 5 строчках было слово "АКТ" и "рождении", то это Акт_регистрации_рождения"), все равно будет куча сбоев и необходимости ручного вмешательства.

Кстати, если целится на будущее, то надо сейчас поменять формы генерируемых бумажных док-тов так, чтобы максмально облегчить именно этот этап. Чтобы были машинно-распознаваемые маркеры начала и конца документа, номер текущей страницы и страниц всего, какие-то маркеры, которые позволяют определять ориентацию страниц, и в идеале - какой-то машинно-читаемый ID (баркод) хотя бы на одной странице. Если все это будет, то в будущем отсканировать такие документы будет проще простого.

3)Выделение и валидация метаданных. Еще одна проблемная область. Никто не будет знать точно, сколько разных типов документов есть в архиве. Какие поля в них точно есть (всегда), а какие могут и отсутствовать. Любые утверждения на эту тему в любой момент могут оказаться ложью или мутировать самым причудливым образом ("а, да, в 1998 году мы целый год не заполняли номера паспортов, но они есть отдельно в этой черной тетрадке"). Придеться искать баланс между желанием получить хорошие красивые непротиворечивые метаданные с одной стороны, и невозможностью их выделить или провалидивать с другой стороны. Любые возможные пробелы в данных надо учитывать при организации поиска - если не везде есть ФИО, то нелья делать поиск по ФИО, который говорит "мы такого не нашли, значит такого нет вообще". Может оказаться, что полноценно заполнить метаданные можно только после того, как весь архив будет отсканирован, и мы сгруппируем документы по людями и сможем заполнить пробелы, глядя на "соседние" документы.

4)Хранение исходных документов. После того, как архив отсканирован, имеет смысл сдать его куда-то на долгосрочное хранение так, чтобы он не занимал места и не требовал людей для его обслуживания. Есть компании, предоставляющие подобные услуги. Одна беда - у них, как правило, свои вполне определенные требования к организации документов, передаваемых на хранение, и их надо учитывать (чтобы после сканирования сразу сложить оригиналы правильным образом). Естественно, меняется и подход к получению оригиналов, их поиску и так далее.

Фух. Надеюсь, этой информации хватит, чтобы аргументировать мой изначальный тезис: основные проблемы - не в области R&D и два аспиранта их не решат.
lionet
Nov. 25th, 2012 05:59 pm (UTC)
2,3. Распознавание структуры данных может оказаться необязательным. Достаточно индексации, как в самаре. А раз так, то там можно воспринимать документ как bag of words. Это же в какой-то степени позволяет снизить остроту неопределённостей при распознавании: индексировать можно все варианты, причём с весами распознавания.

4. Как оно раньше дампилось в условный архив, так может и после сканирования дампиться. Это не существенная часть задачи.

Проблемы не в R&D — не соглашусь. Просто тут может вырисоваться не OCR/#ML R&D, а какой-то другой, более прикладной R&D.
(no subject) - _adept_ - Nov. 25th, 2012 08:42 pm (UTC) - Expand
(no subject) - lionet - Nov. 26th, 2012 05:56 am (UTC) - Expand
(no subject) - Andrey Popp - Nov. 26th, 2012 07:00 am (UTC) - Expand
(no subject) - alexander_mikh - Nov. 26th, 2012 02:37 pm (UTC) - Expand
bvlb
Nov. 25th, 2012 01:06 pm (UTC)
Превратить это в малтиплеер гейм вконтактике, подобно тому как делает фон Ан.
Получится все оцифрованное, отверефицированное и еще дешевле.
tzirechnoy
Nov. 25th, 2012 02:39 pm (UTC)
4) Реально почерков будет <количество_загсов>*9 примерно. Не так много.
Рукописный ввод с тренировкой под конкретного человека, насколько я знаю, даёт довольно приличные результаты.
Page 1 of 2
<<[1] [2] >>
( 105 comments — Leave a comment )

Profile

lionet
Lev Walkin
Website

Latest Month

December 2016
S M T W T F S
    123
45678910
11121314151617
18192021222324
25262728293031
Powered by LiveJournal.com
Designed by yoksel