Всё, что нужно знать о современных системах OCR

Автор

Кирилл Чеханков

От архивов до общих центров обслуживания – везде, где компании имеют дело с большим объемом разрозненных документов, системы оптического распознавания символов (OCR) могут качественно изменить подход к обработке данных. На фоне выхода продуктов ABBYY из единого реестра российского ПО мы решили рассмотреть, какие альтернативы есть у тех, кто продолжает пользоваться технологиями OCR.

Технология оптического распознавания символов (Optical Character Recognition, OCR) позволяет извлекать данные из документов самых разных типов – от текстовых и PDF до фотоизображений. Получая их, мы можем структурировать данные, обеспечить быстрый поиск информации и передачу обработанных данных в бизнес-системы компании. При большом объеме входящей документации использование OCR актуально для кадровой службы, бухгалтерского или юридического отдела, архива. А также для общих центров обслуживания (ОЦО), которые все чаще создаются в крупных компаниях, работающих с массовым рынком.

Но OCR работает не только с бумажными версиями файлов: решения на базе этой технологии обрабатывают цифровые образы документов. В таком случае образ извлекается не в процессе сканирования, а передается из других систем, в том числе через системы электронного документооборота (ЭДО). Для ряда заказчиков этот сценарий актуален. Например, банки принимают кредитные анкеты из розничных сетей, а коллекторские агентства – договоры между банками и их должниками. Во всех подобных случаях OCR позволяет автоматизировать и повысить эффективность процесса извлечения данных.

Кроме того, растет интерес к технологии OCR в государственных организациях. Однако к решениям на ее основе, как и ко многим другим, здесь предъявляют особое требование: они должны обязательно входить в реестр российского ПО. К настоящему времени таких решений в нем немало и с каждым годом становится все больше.

От выбора системы OCR напрямую зависят финансовые показатели бизнеса, так как правильно настроенное решение позволяет снижать операционные издержки, фонд оплаты труда и быстрее получать точные данные для дальнейшей работы компании. Лишь на первый взгляд распознавание с точностью 75% незначительно отличается от 98%-ной, а на практике такая разница увеличивает количество обрабатываемых вручную документов с 2 до 25%. Таким образом, выбирая OCR-решение, очень важно не ошибиться.

Содержание

Три составляющие OCR-решений
Какие движки OCR доступны российским заказчикам?
С чем интегрируют OCR?
Как развиваются OCR на основе нейросетей?
Что нужно учесть при выборе OCR-системы?

Три составляющие OCR-решений

«Под капотом» OCR-решений находятся три ключевые составляющие: а) движок распознавания, б) инструменты настройки шаблонов, в) технологии машинного обучения, которые могут использоваться или нет в зависимости от решаемой задачи.

Для начала разберемся с движком – это основа технологии распознавания. Практически все крупные системы имеют собственные технологии распознавания. Так, Google, Amazon и Microsoft предлагают достаточно дешевое облачное полнотекстовое распознавание, однако на русском языке его качество оставляет желать лучшего. Yandex здесь выигрывает, но, в отличие от конкурентов, для него характерны ограничения размера изображений. Что касается промышленных движков, то мы рекомендуем enterprise-решения вроде ABBYY, Tesseract и Kofax.

Применение инструментов настройки шаблонов поверх движков распознавания – это уже уровень интеграции OCR с другими системами компании. Часто на данном этапе требуется написание программного кода для связки решений между собой. За счет программируемых шаблонов можно задать определенный функционал пред- и постобработки изображений, передачи данных из системы в систему. Проще говоря, могут быть созданы правила и сценарии обработки распознанных данных, которые соответствуют бизнес-процессам конкретной компании.

Типичный проект по внедрению решения OCR состоит из двух частей: выбора лицензионного софта (движка) и работы по созданию шаблонов. Обе части влияют на стоимость проекта – чем удобнее инструмент, тем ниже она будет. При этом реализация шаблонов и интеграции зависит от компании-исполнителя: кто-то использует только свой движок, а кто-то, как Konica Minolta, работает с любым софтом, подбирая решения под задачи заказчика.

Наконец, третий уровень OCR-решений – применение поверх движков и шаблонов технологий машинного обучения, машинного зрения и нейросетей. Об этом чуть ниже.

Какие движки OCR доступны российским заказчикам?

Среди наиболее популярных стоит отметить решение ABBYY — продукт на собственном движке, отличающийся «зрелыми» возможностями работы с кириллицей при доступной стоимости. Ключевой конкурент на мировом рынке, продукт от Kofax, несколько более дорогой и менее функциональный для отечественных пользователей из-за особенностей обработки языка. На российском рынке также встречаются решения на базе IBM DataCap, однако эта система сложнее в настройке и обладает меньшими возможностями, чем первые две, при этом ее цена в некоторых случаях выше.

Отдельно упомянем софт, подходящий компаниям, которым необходимо соблюдать требования законодательства об импортозамещении. Среди таких движков, например, российский SOICA, уже включенный в реестр отечественного ПО. А также платформу EasySeparate, способную использовать любой движок OCR, что позволяет достигать гибкости при внедрении и настройке. Кстати, сейчас идет процесс включения EasySeparate в реестр отечественного ПО.

Кроме того, существуют различные роботизированные решения класса RPA, которые претендуют на работу с распознаванием документов. Но стоит иметь в виду, что системы класса RPA не заточены под сложные случаи работы с извлечением данных, так как их роль в первую очередь состоит в автоматизации бизнес-процессов. Поэтому в проектах, где требуется автоматизировать задачи извлечения данных, RPA зачастую тесно интегрирован с OCR: ведь специализированные OCR-решения могут обеспечить точность распознавания до 99%, особенно при обработке сложных запросов, а в большинстве проектов эта точность служит критерием экономического обоснования и успешности проекта.

С чем интегрируют OCR?

Сама по себе технология OCR – только средство извлечения данных. Важно, для чего мы их получаем и каким образом будем обрабатывать, хранить и передавать дальше в пределах ИТ-инфраструктуры компании. Обычно заказчики хотят получить решения для сквозных процессов, и это правильно. Поэтому задачи проектов по извлечению данных тесно связаны с роботизацией процессов и теми же RPA: в таком случае OCR и RPA дополняют друг друга.

Сюда же относится взаимодействие OCR-решений с электронными архивами, где хранятся цифровые образы документов вместе с метаданными, которые были извлечены из них с помощью распознавания. Причем под классом электронных архивов подразумевается широкий спектр решений разного уровня сложности. Так, у Konica Minolta есть опыт реализации комплексных электронных архивов в качестве единого централизованного хранилища данных, которое автоматизирует процессы, маршрутизирует документы и связано с ЭДО, но компания работает и с более простыми цифровыми хранилищами в виде понятной структуры папок с упрощенным поиском данных.

На теме поиска нужно заострить внимание: в электронном архиве он существенно упрощается. Поскольку все документы получают текстовый слой, то электронный архив делает весь текст документа индексным. И если раньше вы могли искать только по атрибутам документов, например номеру или дате, то теперь – и по содержимому. Это может быть крайне актуально, когда компании необходимо быстро находить нужные файлы для контрагентов или той же ФНС, часто требующей предоставления информации в электронном виде. Сюда же относится налоговый мониторинг, который через витрины данных предполагает обмен информацией с налоговой службой.

Как развиваются OCR на основе нейросетей?

Наконец, третий уровень OCR-решений – наиболее интеллектуальный. С развитием нейронных сетей и фреймворков стало возможным обучать систему распознавать текст на определенных видах документов, и результат у таких специализированных решений будет выше, чем у универсальных. Например, решения от SmartEngines показывают высокое качество распознавания на паспортах, так как система была обучена именно на этих документах и учитывает их особенности.

Пандемия ускорила переход обработки в облако. Большинство лидеров рынка предлагают именно облачные системы. Так, ABBYY запустила платформу Vantage, а Microsoft развивает обучение документов в Azure Forms . Обе платформы позволяют подготовить и обучить систему извлечению значимых данных.

По сути, классические задачи простой индексации документов, то есть извлечения из них атрибутов, уходят в прошлое. Большинство проектов требуют не просто извлечения, но и детального анализа данных, а также выстраивания взаимосвязей между документами, что не только более ценно для компаний, но еще и упрощает работу в сравнении с классическим подходом. При наличии необходимых инструментов обучение нейросети может выполнить аналитик, а разработку шаблона выполняет только программист.

Что нужно учесть при выборе OCR-системы?

В первую очередь большое значение имеют возможности движка: он должен хорошо работать с кириллицей, что не все западные решения могут обеспечить. Более того, если компания должна соблюдать требования импортозамещения, ей нужен софт, включенный в единый реестр отечественного ПО.

Если предполагается распознавание сложных документов, особенно не текстовых, с нестандартным оформлением и структурой, не стоит полностью полагаться на встроенные инструменты решений RPA. Только OCR сможет обеспечить наилучшее качество распознавания данных.

В большинстве проектов после выбора движка требуется этап разработки шаблонов и интеграции OCR с другими системами, в том числе RPA и электронными архивами. Необходимо учесть совместимость движка и возможности вашего интегратора осуществлять работу с разными типами решений.

В ряде случаев значительный бизнес-эффект можно получить также от использования вместе с OCR технологий машинного обучения, компьютерного зрения и нейросетей. Этот продвинутый уровень позволяет быстро извлекать и анализировать данные из исходных источников любой сложности.

Источник

Этот доменпродается