|
|
N°83, 14 мая 2002 |
|
ИД "Время" |
|
|
|
|
Электронная машинистка
Несмотря на все достижения техники, количество бумаг только растет
Речь пойдет о программах для распознавания текста -- программах OCR (Optical Character Recognition). Такая программа совершенно необходима в наше время ведения двойной документации -- в электронной и бумажной форме. Сколько ни внедряли совершенных, «уникальных» и «адаптированных» систем ведения документации в электронной форме, результат повторялся с завидным постоянством: бумаг становилось еще больше. Кое-чего, впрочем, за эти годы удалось добиться: у бумажных документов появились электронные двойники, а сами документы стали намного лучше выглядеть благодаря современным текстовым редакторам и печатающим устройствам.
Перевести электронный документ в бумажную форму легко (методом нажатия кнопки «печать»), а вот перевод документа в электронную форму оказывается весьма трудоемким мероприятием. Решить этот вопрос радикально и эффективно позволяет только программа оптического распознавания текста. Вместо мучительного перепечатывания документа достаточно пропустить через сканер нужные страницы, после чего программа сделает за вас все остальное: просмотрит полученное изображение текста, рассортирует собственно текст, таблицы и картинки, распознает все буквы текста и опять соберет все вместе в виде файла. В идеале должна получиться точно такая же страница, но текст уже можно исправлять, дописывать, отправлять готовый документ в виде приложения электронной почтой и т.п. Из программ оптического распознавания в России наиболее популярна Fine Reader компании ABBYY. В мире выпускается достаточно много конкурирующих систем распознавания текста (из самых известных, например, Text Bridge), однако для российского пользователя все эти продукты почти не подходят по причине отсутствия поддержки кириллицы или неважной работы с русскоязычным текстом.
Задача превращения изображения текста в собственно редактируемый текст не так проста, как может показаться на первый взгляд. Казалось бы, достаточно заложить в программу образцы очертаний всех букв и символов -- после сканирования текста каждая буква будет сравниваться с эталоном и обычная «фотография» страницы быстро и без проблем превратится в нормальный, доступный для редактирования и сохранения в компьютере текст. На самом деле результат подобного распознавания будет более чем плачевный: в самом лучшем случае в получившемся продукте придется исправлять множество ошибок, а в худшем -- время правки каждой страницы окажется сопоставимым с временем ее перепечатывания с листа опытной машинисткой.
Программный комплекс оптического распознавания -- чрезвычайно сложный продукт, который для получения «неизменно превосходного результата» требует внимательного изучения многих тонкостей сканирования/распознавания и особенностей работы программы. Впрочем, уже заложенные в программу настройки «по умолчанию» обеспечивают точность распознавания с очень небольшим количеством ошибок: даже самая опытная машинистка допускает опечаток намного больше. Каких-нибудь пятнадцать лет назад невозможно было себе представить, что научить компьютер «читать» книги и мгновенно превращать их в электронный текст можно будет меньше чем за 100 долларов -- цена неплохого сканера с пакетом OCR в комплекте. Ну, еще затратить минут 40 собственного времени на уяснение основ работы с программой.Мощный эффект узнавания
Сегодня на мировом рынке программ распознавания существуют три основных игрока: ABBYY, Scansoft и ReadIris. Лидер рынка по объемам продаж -- американская компания Scansoft, ABBYY -- вторая. При этом ABBYY является технологическим лидером. Серьезное превосходство технологии дает нам шанс без серьезных маркетинговых инвестиций добиться достаточно быстрого роста нашего сегмента рынка на Западе за счет «отъедания» доли конкурентов. Наши доходы в Америке и Западной Европе удваиваются каждый год. Темпы роста в России и Восточной Европе, конечно, ниже. Немалых успехов мы достигли в Германии. Там у нас около 50% розничного рынка OCR.
Очень важным фактором продвижения программ распознавания, да и не только их одних, являются так называемые OEM-соглашения, когда производитель программного продукта договаривается с производителем «железа» (в нашем случае сканеров или многофункциональных устройств, включающих сразу и факс, и сканер, и принтер) о поставке своего ПО в комплекте с оборудованием. Такие контракты дают очень мощный «эффект узнавания». То есть имя вашего продукта тиражируется в огромных масштабах и распространяется прямо в руки ваших потенциальных покупателей. Ведь чтобы пользоваться OCR-системой, необходим сканер. Поэтому такой контракт -- самая замечательная реклама. Конечно, если у вас хороший продукт. Часть пользователей, «бесплатно» получивших программу, делает upgrade до полной версии, что создает кроме известности марки стабильный поток доходов. Сейчас у ABBYY примерно половина мирового рынка OEM-контрактов. FineReader поставляется по всему миру со сканерами Umax, Mustek, Microtek, Acer, Avigramm, Compaq и другими, а также с многофункциональными устройствами (MFD) Lexmark.
Значительный прирост доходов мы ожидаем от нового продукта FormReader -- системы распознавания форм. Мы начали его активное продвижение на Западе и рассчитываем достичь оборота в несколько миллионов долларов через пару лет. Технология ввода форм дает нам хорошую возможность поработать на Западе на рынке, где нет доминирующего игрока. Там в данной сфере есть несколько десятков небольших компаний, самая крупная из которых владеет примерно 10--15% рынка. В такой среде легче выйти на рынок, завоевать первоначальную его долю, продвигать продукт. Чем мы и намереваемся воспользоваться в ближайшее время.
Сергей АНДРЕЕВ, генеральный директор компании ABBYY
Сергей ПОТРЕСОВ