Оперативные новости и аналитические материалы мира высоких технологий

Cognitive Technologies вложила в разработку технологии понимания сложных типов документов 70 млн руб.

Интеграция Документооборот Бизнес-приложения
мобильная версия

За последние 5 компания Cognitive Technologies в разработку технологии понимания сложных типов документов вложила 70 млн руб. Как рассказали CNews представители компании, это позволило создать систему, обеспечивающую промышленное качество ввода сложных типов документов, к которым, главным образом, относится первичная бухгалтерская документация (счета фактуры, товарно-транспортные накладные и т.д.). Основными потребителями такого решения являются, в первую очередь, крупные ритейлеры. Сегодня, по разным оценкам, они тратят порядка $200-250 млн ежегодно на решение этой задачи.

По словам представителей Cognitive Technologies, это кардинально иные технологии, нежели системы распознавания символов, в их традиционном понимании. «Обычные OCR-системы на реальных документах могут дать точность распознавания не более 50% полностью правильных строк таблицы, что говорит об их низкой пригодности для промышленного применения», — пояснил руководитель лаборатории систем массового ввода документов, к.т.н. Владимир Арлазаров. Как он рассказал, качество ввода документов такого класса характеризуется двумя параметрами: процентом распознавания табличных строк, а не отдельных символов и точности классификации товарных наименований.

«Порогом для промышленного применения распознавания, в среднем, считается правильный автоматический ввод 75% позиций, и мы в своем решении превзошли ее на несколько процентов, — продолжил Арлазаров. — Итоговым результатом ввода таких документов является информация, разложенная с высокой точностью по ячейкам внутренней базы данных заказчика, о наименовании товаров, их стоимости, поставщике, плательщике и т.д., десятки и сотни позиций. Понятно, что одна единственная ошибка сразу сводит весь результат на нет».

Автоматическая обработка сложных типов документов, доля которых в общем объеме бухгалтерского документооборота, по разным оценкам, составляет порядка 50%-60%, является одной из сложных задач искусственного интеллекта. По информации Cognitive Technologies, причина состоит в том, что в отличие от многих других типов бизнес-документов, например, платежных поручений, страховых анкет, налоговых деклараций и т.п., не существует единых правил, регламентирующих эти документы и определяющих расположение их элементов. Кроме того, сама форма документов этого класса также является, во многом, произвольной и может варьироваться от формата А5 до А4, допуская при этом еще и различные варианты ориентации (альбомная, портретная). Качество печати документов во многих случаях также оставляет желать лучшего.

Таким образом, система распознавания сложных документов фактически должна как человек понимать, к какому из признаков относится напечатанная в разных частях документа информация. Например, является ли напечатанное число одним из реквизитов платежного документа, или номером отгрузки, или суммой оплаты или какой-либо другой характеристикой. По словам Владимира Арлазарова, «человек распознает информацию на основе имеющихся у него данных и приобретенных с опытом правил соответствия одних элементов другим. Мы в нашей системе реализуем аналогичные механизмы понимания, наполнив “мозг” системы необходимыми данными и установив правила соответствия. Нами используются различные смысловые и семантические правила».

В итоге задача понимания сводится к определению соответствия каждого из элементов документа (например, адреса грузополучателя) определенной ячейке в базе данных, куда эта информация (адрес грузополучателя) должна быть помещена, пояснили в компании. В этом смысле наиболее сложными для обработки являются разделы документа, представляющие сплошной текст, в котором «интеллект» системы должен вычленить элементы, относящиеся к различным признакам.

Другой проблемой, с которой столкнулись разработчики, стало определение наименований товаров в тексте документа. Сложность состоит в том, что каждый из поставщиков использует, как правило, свой вариант написания каждого из наименований, указали в Cognitive Technologies. Таким образом, у одной и той же товарной позиции может быть такое количество вариантов написания, которое, по сути, способен выдумать человек.

«С математической точки зрения идентификация или классификация товарной позиции представляет собой определение соответствия между товарной позицией и номером ее кода в базе данных заказчика, который, при этом, на документах не печатается. Поэтому для определения такого соответствия используется смысловой анализ текста», — уточнили в компании.

Как известно, человек в таких случаях проводит идентификацию на основе просмотра всего документа и сравнения каждой из товарных позиций друг с другом. При этом он определяет в одну и ту же группу позиции, относящиеся к одному товару. По схожему принципу работает и интеллектуальная программа. При этом она научилась разбираться с однозначностями типа 0,5 кг, полкило, 500 грамм, пятьсот грамм и полбуханки.

Наконец, еще одним препятствием на пути промышленной обработки сложных документов было распознавание в документе печатей, подписей и отделениях их от служебных пометок. «Дело в том, что подписи и пометки во многих случаях отличить практически не возможно, — заявили в Cognitive Technologies. — Решается задача только с использованием дополнительных данных, имеющихся в документе». Так, например, подпись сравнивается с ее аналогом в других позициях или «читаются» близлежащие данные (Ф.И.О., наличие печати и т.д.), по которым графический элемент может быть идентифицирован как подпись и т.д.

Как сообщил CNews Григорий Липич, генеральный директор Abbyy Россия, для обработки структурированных финансовых документов, как правило, применяются не обычные OCR-системы, а более сложные решения. Они способны анализировать структуру документа, идентифицировать поля с информацией, табличную часть, обрабатывать многостраничные документы. По опыту проектов, реализованных компанией Abbyy для крупных государственных и корпоративных заказчиков, он указал, что качество автоматической обработки первичной финансовой документации составляет около 95%. «Другие ведущие мировые разработчики решений для массового ввода документов тоже уже много лет успешно решают задачи по вводу такой документации, так что решение местного разработчика улучшить свои продукты в этом направлении могу только приветствовать», — заключил он.

Представитель Cognitive Technologies Николай Никольский утверждает, что «в данном случае качество автоматической обработки символов и полей обычными OCR/ICR-системами зарубежных и российских разработчиков не имеет решающего значения. Даже 100%-ое распознавание полей первичных финансовых документов, не гарантирует решение задачи ввода и классификации товарных позиций на промышленном уровне. До появления нашей системы эта задача могла быть решена, только за счет стороннего ПО для классификации товарных позиций, работающего над OCR/ICR. Промышленных русскоязычных технологий, которые обеспечивают классификацию товарных позиций одновременно с распознаванием в мире до настоящего момента не было».

«Работы в направлении когнитивных технологий в понимании документов мы инициировали еще в середине 90-х, а реальный спрос на него возник только в последние годы, при появлении соответствующей аппаратной базы и организационного контура, — отметила Ольга Ускова, президент Cognitive Technologies. — Сегодня мы ведем исследования в области машинного зрения, big data, меметических вычислений (модели передачи информации, рассматривающие идеи как единицы информации, по аналогии с геном в генетике). Когда эти направления станут востребованными, мы уже будем в числе их лидеров».