Оперативные новости и аналитические материалы мира высоких технологий
Статья

Многовариантный поиск как конкурентное преимущество ECM-систем

Документооборот

Трудно и даже невозможно представить себе ECM-систему без функционала поиска. Для пользователей интернета, не представляющих себе жизнь без поисковых сервисов, задача кажется простой: всего лишь строка запроса и кнопка поиска. Но на самом деле все сложнее.

Для организации поиска в ECM-системе в первую очередь необходимо детализировать понятие хранящегося в ней контента. Поскольку ECM-система – это разновидность корпоративных систем, данные, которые накапливаются в ней, являются артефактами бизнес-процессов.

Существует несколько классификаций бизнес-процессов и контента, образующегося в процессе их выполнения. Аналитиками Forrester предложена удачная идея условно разделить весь контент на Transactional и Business. Первый класс – это регулярный организованный контент, образующийся в результате выполнения транзакционных бизнес-процессов. Применительно к ECM системе это будут приказы, договоры, акты, заявления, поручения, письма. Эта информация в системе дополняется значительным объемом метаданных: наименованиями документов, проектов, лиц и организаций, с ними связанных, датами, регистрационными номерами и т.п.

Business – произвольный, слабо организованный контент, который образуется в результате совместной или самостоятельной работы в рамках различных проектов или задач. Примером такой информации будут протоколы и итоговые документы по результатам совещаний, аналитические отчеты, результаты исследований и экспериментов, зафиксированные результаты мозговых штурмов и т.п. Состав метаданных здесь менее информативен и регулярен.

Для обоих типов контента существуют свои сценарии и, соответственно, свои методы поиска.

Поиск регулярно организованного контента

Сценариев поиска организованного контента множество, как универсальных, так и специализированных. С ходу можно придумать поиск документа по регистрационному номеру, поиск договоров по конкретному контрагенту или приказов за прошлый месяц. Задавая условия поиска, инициатор поискового запроса надеется получить список всех договоров, когда-либо заключенных с данным контрагентом, или же ищет все приказы, выпущенные в прошлом месяце. Ключевое слово здесь «все», то есть требуется обеспечить максимальную полноту поиска. Неполный список результатов поиска может стать причиной не просто ошибки, а вполне ощутимого ущерба для организации: экономического, правового, репутационного.

Например, если какой-то договор не вошел в результаты поиска, сотрудник может не включить его в расчет задолженности или реестр платежей, что в итоге приведет к экономически неблагоприятным последствиям. Если на запрос регулирующего органа будет представлен не полный перечень документов, это может повлечь штрафные санкции со стороны регулятора. Не найденное в результате выполнения поискового запроса письмо может вызвать репутационные или даже экономические издержки. Таких примеров, демонстрирующих, насколько важна полнота результатов поиска, можно привести множество.

Перед организацией встает задача обеспечения полноты поиска. Решается эта задача совокупностью организационных и технических методов. Из организационных методов можно упомянуть своевременную и полную регистрацию входящих, исходящих и внутренних транзакционных и организационно-распорядительных документов, организацию системы классификации документов.

Из технических методов – создание иерархии папок, обеспечение полноты заполнения и достоверности метаданных. Метаданные играют ключевую роль, так как часть документов может вовсе не содержать текстовых данных (нераспознанные скан-образы документов).

Крайне желательно, чтобы классифицирующие метаданные (например, проект, контрагент, ответственный сотрудник) были представлены справочным типом данных. А сами справочники должны быть полными, актуальными, не имеющие дуплицирующих данных.

Основными методами поиска будет поиск по метаданным и навигация по иерархической структуре папок. Перейдя в нужную папку, пользователь получает весь перечень документов данного класса. Или же, задав поисковые критерии для метаданных – реквизиты документов, пользователь получит полный перечень документов, соответствующих поисковым критериям.

Стоит также отметить, что результаты поиска формируются в соответствии с правами доступа данного пользователя. Поэтому, чтобы обеспечить полноту результатов поиска, необходимо обеспечить пользователю доступ ко всей информации, положенной ему по должности, в том числе вновь создаваемой. На помощь администратору системы придут политики, шаблоны, группы и роли пользователей.

Резюмируя вышесказанное, если перефразировать девиз компании «Яндекс» «Найдется всё», то для поиска регулярного организованного контента это должно звучать так: «А ничего и не терялось».

Поиск произвольного слабо организованного контента

По терминологии Gartner, к этому типу контента наиболее близким понятием является Business Content. Это всевозможные информационные объекты, создаваемые в ходе основной бизнес-деятельности организации.

Если основным продуктом организации является информация, то она структурирована, и ее управление и поиск осуществляются по сценариям и с использованием техник, перечисленных в предыдущем разделе. В большинстве организаций информационные артефакты оказываются побочным продуктом, но именно они формируют так называемые корпоративные знания.

Это только на словах звучит цельно, а на практике корпоративные знания состоят из множества слабо связанных между собой данных (документы, электронная почта, переписка в задачах, логи чатов, блоги, вики и масса других информационных объектов). И поиск в этой массе может значительно отличаться от поиска организованной информации.

Сотрудники часто избегают этой операции, и сначала обращаются за помощью к коллегам, которые могут подсказать, какие есть информационные материалы по тем или иным темам и вопросам. Одна из причин этого – потенциальное отсутствие прав доступа на искомую информацию. В организации может вестись масса проектов, проистекать множество бизнес-процессов, и информационные материалы могут быть открыты только участникам рабочей группы. И полная просьба может звучать, как не только предоставить список искомых материалов, но и дать право доступа к ним.

Но прямое обращение к компетентному сотруднику не всегда удается осуществить. Причин может быть масса, например, незнание, кто обладает необходимой информацией и может помочь. Придется искать нужную информацию самому.

Для слабо организованного контента так же важна полнота результатов поиска, но тогда в этот термин будет вкладываться немного другой смысл. Полнота здесь – это соответствие желанию пользователя, а не просто формальным поисковым критериям. Пользователю нужно найти материалы, касающиеся определенного вопроса, а не просто документы, где в названии или тексте есть определенная подстрока. Если результат поиска не полный, то это может повлечь принятие неоптимального управленческого решения. Если результаты поиска будут, наоборот, избыточные, то это также осложнит поиск нужной информации в море посторонних знаний.

Как и в предыдущем случае, полнота результатов поиска обеспечивается как организационными, так и техническими методами. Создание корпоративной базы знаний – большая отдельная тема, здесь же хотелось поговорить о технических методах.

Не секрет, что корпоративные знания разбросаны по множеству, если не всем информационным системам организации. Поэтому в ряде ситуаций не обойтись без средств сквозного корпоративного поиска (Google Appliance, Microsoft FAST, HP Autonomy, 3DS Exalead и другие решения). Такое решение позволяет искать информацию одновременно сразу в нескольких информационных системах.

Другой аспект, который нельзя обойти вниманием, это высокая роль в этих сценариях полнотекстового поиска. Причем для обеспечения полноты результатов это должно быть не примитивное сравнение строк, а интеллектуальный поиск. Базовые механизмы поиска уже включает некоторые элементы интеллектуального поиска, например, словоформы. Тем не менее, простор для развития направления есть.

С ходу можно предложить следующие техники, увеличивающие эффективность поиска. Поиск с учетом синонимов и таксономий : некоторые материалы, имеющие отношение к вопросу, могут вовсе не содержать искомого слова, но его синонимы. Поиск с учетом вариаций, например разные варианты транскрипции иностранного слова. В одном и том же репозитории могут быть собраны материалы, которые содержат не только англоязычное название Galaxy, но и русские варианты его написания – «Галакси», «Гэлакси» и т.д. Механизм поиска, включающий в результаты все варианты транскрипции, обеспечил бы большую полноту результатов. А механизм поиска с учетом ошибок может исправленный вариант, если в запросе что-то было неверно. Поиск на нескольких языках наверняка будет востребован в транснациональных организациях. Поиск на естественном языке позволит извлечь больше информации из поисковой фразы и обеспечить большую полноту результатов.

Как видно, поиск в ECM-системе – далеко нетривиальная задача. Иногда необходимо совместить диаметрально противоположные подходы, чтобы обеспечить и полноту результатов поиска, и их релевантность поисковым запросам. Это также простор для применения различных интеллектуальных технологий. Возможно, что в недалеком будущем наличие таких технологий будет серьезным конкурентным преимуществом.

Сергей Бушмелев