Оперативные новости и аналитические материалы мира высоких технологий

Аналитики оценили рынок средств контентного поиска

Документооборот
, Текст: Михаил Демидов
Рынок контект-аналитики - совокупности технологий поиска и создания отчетности для управления неструктурированным контентом для бизнес-задач - получил оценку от аналитиков AIIM. В результате выяснилось, что некоторые типы контента слабо управляются в КИС. Заказчики при этом не всегда довольны существующими решениями, но планируют инвестировать в ПО для улучшения корпоративного поиска.

У большинства опрошенных AIIM пользователей решений, относящихся к системам управления контентом (СЭД, ECM, CMS, DAM и т.п.), поиск ассоциируется с Google-подобным механизмом ранжирования документов в зависимости от релевантности запроса. Тем не менее, во внутренних хранилищах контента такие поисковые механизмы пока не применяются — на это указывает то, что для 72% респондентов поиск данных в КИС представляется более сложным, чем во внешних источниках (в Сети). Примечательно, что в таких ситуациях не спасает и применение расширенного интерфейса — его использует всего 47% заказчиков, поскольку остальным требуются более специализированные или улучшенные инструменты. Еще один примечательный вывод исследователей заключается в том, что мультимедиа-контент (аудио, видео и графика) не имеет достаточных средств для поиска и анализа. В целом, бизнес-пользователи интересуются чаще всего (50% ответов) решениями, расширяющими поиск контента по ключевым словам (ускорение, повышение результативности, простота). По этой причине компании продолжат инвестировать в решения для управления контентом в ближайшие 18 месяцев, а совокупные расходы на средства корпоративного поиска, DAM и контент-аналитики значительно возрастут в ближайший год.

Российские компании-игроки рынка СЭД/ECM прокомментировали CNews результаты отчета AIIM о рынке контент-аналитики, отметив общие черты сходства между запросами зарубежных и отечественных заказчиков в этой сфере. Они считают обоснованной существующую диспропорцию между поиском во внутренних корпоративных ресурсах и в Сети. "Для внешних хранилищ формализовать запросы заранее невозможно, потому что в сети хранится неструктурированная информация. Соответственно, и поиск работает именно с такими данными. Во внутренних хранилищах можно искать только по созданным внутри них структурам - например, если нужно найти договор, то пользователь должен искать его по номеру и дате", - говорит Дмитрий Семенюк, менеджер по продуктам ЭОС.

Похожим образом объясняет разницу и Юрий Корюкин, директор по корпоративным проектам ABBYY Россия, когда говорит, что на внутренних ресурсах в основном ищутся специфические документы, а в Сети, наоборот, популярны стандартные, которые изначально и создавались, и размещались с учетом того, что их будут искать. "И количество дубликатов документа, и цитирование документа на других ресурсах, и оценка доверия к источнику публикации, и техническая реализация поисковых систем, и, как следствие, возможность оптимизации контента под них, влияют на "легкость" поиска". Кроме того, внутри организаций, действительно, не часто внедряются корпоративные системы поиска, так как, как правило, все уповают на средства, встроенные в самые разные информационные системы предприятия", - замечает специалист. Он считает, что некоторые производители, так или иначе, обращают внимание на данный вопрос и такие системы анонсируются, однако речь скорее о частных решениях по анализу информации, а не о реальной функциональности, т.к. в общем случае решать такую задачу становится достаточно дорого.

По мнению Дмитрия Семенюка, сегодня востребован полнотекстовый поиск, который позволяет пользователю искать внутри документов, хранящихся в системе; также вызывает интерес в бизнес-среде и нечеткий поиск, позволяющий искать данные, отличающиеся от написанных пользователем, имеющие похожий набор букв. Он считает, что ответы по удобству и доступности поиска различных типов контента в КИС, у западных и российских пользователей были бы схожи: основными объектами поиска в СЭД являются договора, входящая и исходящая корреспонденция, финансовые документы, а медиа-контент используется достаточно редко.

Владимир Митюнин, руководитель московского офиса департамента Documentum КОРУС Консалтинг, замечает, что поиск в Сети и во внутренних хранилищах организаций - это две абсолютно разные задачи и поэтому сравнивать их не вполне корректно. "Проблема внутрикорпоративного поиска связана, прежде всего, с тем, что в компании используется несколько информационных контуров (систем) – внутренний портал, учетная система, система документооборота, почтовые программы и их архивы, средства групповой работы, архивы документации и пр. Разумеется, сотрудникам неудобно осуществлять отдельный поиск по каждой из этих систем в отдельности, тем более что мы фактически должны знать, что именно ищем и где должен находиться этот документ (в отличие от веба, где поиск производится по заданному нами ключевому слову в огромном количестве неизвестных нам источников). Плюс к этому неудобно пользоваться разными формами (окнами) поиска для разных систем", - объясняет он.

Наиболее удобной для обычных пользователей, с его точки зрения, формой поиска является обычный поисковик (типа Google или Yandex), представляющий собой одно окно поиска, одну строку, ключевые слова или фразы, ранжирование результатов по релевантности запросу. Решением проблемы на корпоративном уровне в этом случае является общая поисковая технология, к которой подключены различные источники (информационные системы предприятия) и подобные поисковые технологии для корпоративных задач существуют, в том числе, и от крупных игроков как интернет-поиска, так и ECM. Тем не менее, как замечает господин Митюнин, в такой реализации остается проблема вычисления сквозной релевантности: "В веб-поисковике используется один механизм вычисления релевантности, в соответствии с которым представлены результаты. Когда к поиску подключено несколько источников, каждый со своим механизмом вычисления релевантности, возникает сложность ранжирования результатов. Как вариант решения этой проблемы используются разные алгоритмы, вплоть до возможности пользователю самому управлять релеватностью, проставлять вес источников и т.д.".

Эксперт считает, что в целом, внутрикорпоративные системы поиска обладают более "продвинутой" поисковой технологий с точки зрения семантики, поскольку в Интернете невозможно искать по мета-информации, а в специализированных системах поиск документов может вестись с помощью семантических сетей, по фактам и т.п. Тем не менее, возникает вопрос востребованности этих средств для обычных пользователей - как правило, технологии расширенного контент-анализа используются на рабочих местах аналитиков, а остальным сотрудникам нужен "принцип одного окна".

Евгений Кочуров, ИТ-аналитик компании Directum, приводит несколько принципиальных отличий между поиском в Сети и корпоративным поиском. Во-первых, разница определена через цели поиска — в интернете обычно ищут готовые ответы на конкретные вопросы, а в корпоративном поиске в целом порядка 20% запросов (в случае поиска сервисных журналов или медицинских карт – до 30%) связаны с аналитической деятельностью, то есть существенную долю задач составляет массовая обработка результатов поиска. Кроме того, как отмечает эксперт, "вес страницы, определенный по числу и весу ссылок на нее, лишен смысла для внутрикорпоративных источников", так как релевантность результата запросу часто определяется не столько содержимым документа, сколько его контекстом. "В силу этих причин, стандартные для публичных поисковых систем методы ранжирования перестают работать при попытке "натравить" их на корпоративные данные", - объясняет он.

Господин Кочуров отмечает и тот факт, что очень немногие компании дошли до использования единых средств поиска по всем внутренним источникам, поэтому, если для поиска требуется применять специальные средства в каждой из внутренних информационных систем, то пользователь, естественно, сочтет такой способ неудобным. Наконец, специалист отмечает роль метаданных, которые применяются для внутрикорпоративного контента и которые участвуют в формировании внутренних бизнес-процессов. Сергей Якимчук, руководитель центра компетенции MS SharePoint компании TerraLink, добавляет к ним то, что поиск часто является функцией, которую добавляют в СЭД уже после внедрения и настраивают специально для решения конкретной задачи. Кроме того, на уровень разработанности корпоративного поиска влияют и факторы безопасности и производительности, которые проводят границу между корпоративными приложениями и приложениями для маленьких компаний/частных клиентов. "Выборка данных из систем должна учитывать сложные регламенты доступа к ним, а регламенты эти порой заданы неявно. Объемы информации, с которыми работают корпорации, требуют значительных ресурсов для индексных серверов, при этом, далеко не каждая компания может позволить себе иметь центры обработки данных, сравнимые с ЦОД того же Google", - констатирует специалист.

"По нашим данным, многие российские компании ограничиваются поиском документов по нескольким ключевым реквизитам, таким как наименование, автор, дата, контрагент и т.п. Даже полнотекстовым поиском они пользуются крайне редко, несмотря на его доступность – просто потому, что поиск по реквизитам дает уже достаточно хороший результат, - констатирует представитель Directum. - Тем не менее, специализированные средства поиска имеют свою нишу в некоторых прикладных задачах, особенно связанных с аудио- и видеоконтентом, а также в случаях, когда поиск является важной частью основных бизнес-процессов компании". Эксперт полагает, что средства поиска и анализа контента, представленные в ведущих отечественных СЭД, заметно опережают потребности массового рынка, но еще пока недостаточны для некоторых узкоспециальных задач, связанных с медиаконтентом.

Сергей Курьянов, директор по развитию DocsVision, называет два ключевых источника диспропорции между степенью удобства поиска документов во внутренних хранилищах и поиску во внешних: "Во-первых, ожидания пользователя от качества поиска в вебе гораздо меньше, чем от поиска в документах предприятия, и критичность найденных (или не найденных) документов находится на том же уровне. Во-вторых, веб изначально строился так, чтобы в нем было легко искать, а внутренний контент предприятий, как правило, первично связан не с контекстом поиска, а с контекстом документирования хозяйственных и управленческих фактов".

Анализируя результаты опроса зарубежных заказчиков по степени доступности средств поиска и анализа типов контента, господин Курьянов пришел к выводу, что российские компании показали бы еще более слабые показатели. Тем не менее, как отмечает он, понимание важности контента по корпоративным ресурсам быстро растет и у отечественных заказчиков, и за ним последует рост предложения и сам рынок. "В той или иной форме контентная аналитика составляет не менее 30% функциональности любой отечественной СЭД - это и виртуальные папки, и параметрический поиск с его автоматизацией в типовых запросах, и контекстный поиск по вложенным файлам с учетом словоформ. Однако ключевой вопрос для корпоративного пользователя не в обилии поисковой функциональности конкретно СЭД или CRM, а в интегриремости их поисков в единую корпоративную поисковую систему, - замечает специалист. - Мне кажется ближайшее будущее в развитии поисковой функциональности СЭД — это именно интегрируемость поиска через разнообразные механизмы - от стандартизации до SOA, а также тесно связанная с этим функциональность публикации результатов запроса в формате HTML".

Вадим Ипатов, заместитель генерального директора по развитию бизнеса компании "Интертраст", считает, что на российском рынке систем электронного документооборота в настоящее время еще очень слабо распространены технологии анализа контента - максимум, что используют сегодня заказчики - это полнотекстовый и параметрический поиск (в интересах обнаружения необходимых документов). Однако, по мнению господина Ипатова, востребованность в технологиях анализа контента могла бы быть высокой при условии повышения их доступности. Он связывает ограничения в продвижении этих средств, прежде всего, с высокими затратами на их подключение, поскольку вложения требуются как от производителей СЭД (необходимы соответствующие компетенции, навыки, опыт), так и со стороны потребителей, а эффективность их использования пока крайне неопределенна.

Более оптимистической точки зрения придерживается Сергей Якимчук. По его оценкам, в ближайшие 2-3 года на рынке корпоративного поиска произойдет серьезный скачок, связанный, в первую очередь, с пропагандой таким систем от Microsoft: интегрированные в SharePoint поисковые механизмы, наследованные от FAST ESP, по его словам, будут активно продвигаться маркетинговой машиной этого вендора.

В компании "Корус Консалтинг" считают, что проблема поиска во внутренних хранилищах характерна не только для развитого западного рынка, но и для российских компаний. Зарубежные поисковые механизмы хуже работают с семантикой русского языка и в некотором роде это представляет проблему для адаптации западных решений к локальному рынку. Поэтому, как полагают в "Корус Консалтинг", существует ниша для отечественных разработок в области поиска, извлечения текста и данных, семантического анализа, которыми занимаются специализированные компании, а не разработчики СЭД по причине необходимости слишком серьезных вложений и наличия компетенции.

Ключевым трендом в настоящее время игроками отечественного рынка СЭД, называются решения по федеративному корпоративному поиску, которые позволяют работать с несколькими интегрированными источниками через одно окно. Они предоставляют возможность получения наиболее быстрого и понятного результата для пользователей, быстрого развертывания и встраивания в системы электронного документооборота. От поиска, как более конкретного и четко определенного понятия, полагают в "Корус Консалтинг", отрасль дальше будет двигаться к построению общей базы знаний компании (более продвинутому контент-анализу текстов и разных типов файлов).