От документа к контенту и далее…

Раздел: Информационные технологии
Автор(ы): София Докука, Intelligent Enterprise (№9, 2012)	размещено: 25.12.2012 обращений: 5818

Термин «конвергенция» в сегодняшнем мире корпоративной автоматизации безусловно является одним из ключевых. В сфере корпоративных коммуникаций уже постепенно исчезают такие понятия, как передача телефонного трафика или видеопереговоров. Передаются исключительно данные — о бизнес-транзанциях либо несущие в себе в зашифрованном виде текст, речь, музыку, видео и любую другую информацию. Разделение же самих корпоративных данных на структурированный и неструктурированный контент пока сохраняется, хотя и тут имеет место пресловутая конвергенция.

Проявляется это по-разному — в основном через то, какие задачи сегодня приходится решать в бизнес-среде при помощи разных типов данных, а также через призму поведения компаний, предлагающих рынку соответствующие продукты и технологии.

Год за годом развивающиеся (в течение долгого времени практически исключительно для обслуживания документооборота в компаниях) технологии работы с текстовой информацией постепенно доросли до уровня текстовой аналитики (text mining) и мощных инструментов корпоративного поиска (enterprise search). И сегодня, помимо все тех же «вечных» задач информационной поддержки процессов оборота документов, специалисты склонны выделять по крайней мере две группы задач, сама постановка которых исходит из той степени зрелости, что на сегодняшний день достигнута в сфере обработки неструктурированного контента.

Контент как юридическая защита

Первая представляет направление, которое получило название e-Discovery и первоначально было связно с развитием ИТ-инструментария, призванного в любой ситуации обеспечить бизнес всей необходимой документарной информацией, способной помочь выиграть в суде тот или иной спор. Сегодня это направление распространяется на область ИТ-поддержки аудита деятельности организации и соответственно соблюдения требований регуляторов (compliance). Возросшая именно в последнее время актуальность этой проблемы, равно как и ее общность с упомянутым вопросом юридической поддержки бизнеса, практически очевидна. Основную категорию пользователей подобных систем составляют юридические департаменты компаний, а также контролирующие государственные организации. Функционально данное направление довольно узкое, при этом оно универсально в том смысле, что подобные задачи скорее всего должны вставать в любом бизнесе независимо от его отраслевой принадлежности и масштаба деятельности. Надо сказать, что существуют и финансовые ориентиры, характеризующие затратную часть внедрения технологий e-Dicovery. В различных источниках соответствующие цифры колеблются от одной до двух тысяч долларов за гигабайт обрабатываемой информации в зависимости от требуемой в конкретном бизнесе детализации.

Если рассматривать системы e-Discovery со стороны рынка предложения, то здесь тоже можно отметить некоторые особенности. С одной стороны, изначально они «вырастали» в среде богатых продуктовых линеек ведущих производителей систем Enterprise Content Management (а до этого — систем корпоративного документооборота) в виде одноименных модулей. Дополнительный импульс развитию e-Discovery придало партнерство их производителей с ведущими поставщиками транзакционных систем управления бизнесом. Одним из хрестоматийных примеров в этом отношении является альянс двух грандов в области ECM и ERP — компаний OpenText и SAP. Именно симбиоз функций продуктов обоих классов позволяет говорить о том, что теперь принято называть content in context или возможностью управлять документарной информацией предприятия в контексте бизнес-процессов. Ясно, что в этом случае становится гораздо проще и естественней выделять неструктурированный контент и управлять им в разрезе потенциальной юридической значимости тех отчетов (в том числе и содержащих ссылки на неструктурированный контент), которые составляются для различных регулирующих организаций. Попутно создаются благоприятные условия и для решения технологических задач. Одной из таковых, опять-таки легче решаемой именно в интегрированной информационной среде (ERP+ECM), является задача автоматического тегирования контента в зависимости от его отношения к тому или иному бизнес-процессу. Традиционно такую работу до сих приходится выполнять вручную. Кстати, это один из характерных примеров той же конвергенции — размывания содержательных границ между структурированной и неструктурированной информацией в бизнесе. Характерен в этом смысле и сам тип альянса, и помимо уже упомянутого, образованного по формуле ERP+ECM, для современного рынка характерен по крайней мере еще один, построенный соответственно по схеме BPM+ECM. Надо сказать, что попытка соединения ECM с направлением Business Process Management в настоящее время характерна и для отечественного рынка в отношении отечественных же продуктов.

Все виды контента — соединяйтесь

Еще одно направление, тесно связанное с развитием технологий неструктурированного контента, обусловлено возросшей актуальностью работы с пространством публичных интернет-ресурсов вообще и ресурсов, порождаемых технологиями Web 2.0, в частности. В отличие от e-Discovery речь в данном случае идет о совместном применении целой группы концепций. Наряду с уже упоминавшейся Enterprise Search (используемой в том числе и для e-Discovery) здесь подразумеваются и более углубленные методы работы с текстом — от традиционной text mining до новомодной sentiment analysis, с помощью которой можно определять эмоциональный настрой автора тех или иных высказываний, представленных в текстовой форме.

Той категорией пользователей, которая на сегодня признается основным драйвером внедрения данных технологий в практику ИТ-поддержки бизнеса, безоговорочно признаются маркетологи с их задачами анализа объективных предпочтений и субъективных настроений клиентской аудитории. Источников неструктурированной информации в данном случае целая гамма — от результатов обработки прямых опросов и интервью до анализа кратких высказываний в блогах и интернет-форумах. Еще одной часто упоминаемой специалистами категорией пользователей подобного функционала являются финансисты, скорее работающие на рынке корпоративных, нежели розничных финансовых услуг. Соответственно в данном случае акцент делается не на статистической обработке большого количества отдельных высказываний, а на автоматизированном выборе ограниченного числа ключевых источников информации и последующем (опять-таки автоматизированном) углубленном анализе их содержимого. Похожий шаблон работы с неструктурированным контентом складывается и у самой молодой категории пользователей, представляющей бизнес исследовательских и инжиниринговых компаний, а также у сотрудников данного профиля, работающих в государственном секторе. Основное отличие их потребностей состоит в том, что исходным источником данных являются не публичные интернет-ресурсы, а сугубо профессиональная информация, которая в Интернет, как правило, не попадает вовсе. Тем не менее она также в основном представлена в неструктурированном виде, объемы ее бывают весьма значительными, лексические и терминологические особенности довольно яркими, а создаваемые решения — достойными внимания крупных предприятий. Ярким примером здесь служит совместное программно-аппаратное решение Google и Dell, созданное этими компаниями для лаборатории NASA в Ленгли.

И наконец, в отдельную категорию выделяются активные потребители медиаинформации. В основном речь идет о профессиональном медиабизнесе, хотя в его фарватере идут компании самых разных отраслей, для которых соответствующий тип неструктурированного контента играет все более важную роль.

Рынок предложения систем второй категории гораздо более разнообразный, чем рынок e-Discovery. Если в первом случае родоначальниками продуктового направления являлись практически исключительно ECM-поставщики, то здесь движение изначально шло с нескольких направлений, среди которых можно выделить по крайней мере четыре.

Гранды публичного интернет-поиска (Google, Yahoo)

Производители систем Enterprise Search (FAST, Convera, Autonomy, впоследствии приобретенные более крупными игроками).

Производители аналитических систем (SAS, Information Builders), расширяющие свои продукты от работы с численной до анализа текстовой информации.

Поставщики ECM-систем (EMC Documentum, OpenText), в данном случае представленные такими функциональными направлениями, как анализ Web-контента (Web Content Management — WCM) или анализ медиаинформации (Digital Asset Management — DAM).

В практике реальных проектов соответствующие направления работы с контентом все более начинают смешиваться, интегрироваться и заимствовать друг у друга методы работы с информацией. Так, например, в работу с неструктурированным контентом все активнее проникают статистические методы, ранее применявшиеся исключительно в контексте использования численных данных. Аудиоданные автоматически конвертируются в текст и наоборот, а, скажем, упомянутый sentiment analysis начинает применяться и в аудиообработке, поскольку особенности устной речи точно так же, как письменной, способны говорить об эмоциональном настроении.

В результате рождаются разнообразные решения, удовлетворяющие потребностям вышеназванных категорий пользователей и часто сфокусированные только на них. Решаемые задачи (например, прогнозирование развития бизнеса) по своей постановке тоже все больше напоминают те, что возникают в связи с необходимостью обработки структурированных данных.

Одним из практических примеров (хотя далеко не единственном), характеризующих многое из вышесказанного, служит технология Google Trends. Она хорошо понятна как корпоративному, так и индивидуальному потребителю, и о ней хотелось бы рассказать чуть подробнее.

Утром — в Интернете, вечером — в пакете

Предсказание поведения потребителей критически важно для большинства компаний. Вычислительные инструменты сегодня позволяют выстраивать сложные математические модели, с той или иной степенью достоверности прогнозирующие развитие ситуации в зависимости от внешних условий.

И все же многоуровневые модели далеко не всегда с высокой долей достоверности предсказывают потребительский спрос, и сегодня маркетологи часто говорят о необходимости изучения еще и распространенных социальных сетей и других площадок для понимания покупательского поведения. Однако если с анализом социальных онлайн-сетей ситуация пока обстоит не лучшим образом, то анализ поисковых запросов позволяет на удивление точно предсказывать многие события, в том числе и поведение потребителей.

Наиболее востребованным и известным инструментом такого типа как раз и является публичное приложение Google Tends. Как отмечал исследователь из Yahoo! в ходе лекции в Центре исследования Интернета и общества Ингмар Вебер, механизм работы Google Trends довольно прост. Основываясь на определенном проценте поисков Google, приложение вычисляет, какое количество поисков по запросу было проведено по отношению к общему числу поисков за заданный промежуток времени (возможно использование данных с 2004 года). Если число запросов было очень мало, в результате они не будут отображаться.

Немаловажен и тот факт, что Google Tends позволяет сравнивать статистику по нескольким запросам, что дает возможность выявить наличие и характер связи между различными событиями. Ингмар Вебер приводит в пример сервис Google FluTrends, который на основе анализа поисковых запросов «делает вывод» (с определенной вероятностью, которая среди прочего вычисляется исходя из того, в какое время года и в каком географическом регионе этот запрос сделан) о том, болен человек гриппом или нет, а затем на основе его IP-адреса относит его к тому или иному населенному пункту. В результате у Google скапливается информация о том, сколько человек в каком регионе мира больны гриппом, и эти данные становятся отправной точкой для создания интерактивной карты, отображающей очаги эпидемии и динамику ее распространения.

Google Tends активно используется сегодня и в качестве экономического индикатора, отмечает журнал Business Week. Многие центральные банки (в том числе Израиля, Великобритании, Италии, Испании, Турции и т.д.) изучают Google Trends и находят взаимосвязи между поисковыми запросами населения и экономическими действиями. Так, считается достоверным тот факт, что благодаря инструментам Google Trends в США удалось улучшить прогнозирование продаж автомобилей и недвижимости.

Приложение позволило предсказать и более сложные экономические механизмы. К примеру, в Великобритании анализ запросов помог сделать прогноз относительно изменения уровня безработицы в стране. А в США модель, включающая в себя Google Trends, точнее предсказывала ситуацию с ипотечным кредитованием.

Очевидно, что главным преимуществом данных, получаемых с помощью Google Trends, оказывается их доступность и оперативность. Инструменты прогнозирования, существовавшие ранее, традиционно основывались на анализе уже совершённых действий, в то время как Google Tends позволяет «посмотреть вперед» и понять, что люди думают сегодня и что они будут делать завтра. Как подчеркнул Ингмар Вебер, анализируя мир онлайна сегодня, мы можем предсказать, что будет завтра в мире офлайна.

Тем не менее, несмотря на многочисленные достижения, новый инструмент не стоит идеализировать. Не нужно забывать, что данным поисковиком пользуются многие, но не все, а значит, анализируя потребительское поведение через Google Trends, мы изучаем поведение пользователя Google, а не произвольного субъекта, представляющего на данный момент отдельный элемент нужной выборки. Так что если, например, задачей является продажа товаров для людей преклонного возраста, то использование данного приложения ставится под вопрос — ведь немногие из них активно пользуются Интернетом вообще и поисковым сервисом в частности. Ясно и то, что люди с низким достатком и тем более находящиеся за чертой бедности тоже вряд ли могут позволить себе бродить по просторам всемирной паутины в поисках нужной им информации.

Приняв во внимание данные замечания, стоит попробовать использовать данный инструмент и посмотреть, сможет ли он изменить прогнозную модель в лучшую сторону.

Работа на перспективу

Сергей Плаунов,
руководитель практики по внедрению BPM- и ECM-систем компании КРОК

Подавляющее большинство коммуникаций в мире происходит в неструктурированном виде: документы, электронная почта и все то, что можно найти Интернете. В связи с этим обработка неструктурированной информации становится все более востребованной в самых разных областях. Стандартные средства отчетности, такие как BusinessIntelligence, не справляются с задачей анализа подобной информации, вместо них можно использовать специализированные системы — ContentAnalytics.

Возьмем, к примеру, крупную компанию по производству бытовой техники. В одной из партий холодильников случился заводской брак. Компания об этом узнает не сразу, отчет по бракованным товарам попадет к руководителю спустя пару месяцев. А между тем поставляемый бракованный товар будет портить имидж компании. Но ведь практически сразу можно отследить отзывы клиентов о низком качестве продукции в Интернете по частому употреблению слов «холодильник» и «брак» в контексте упоминания производителя. Уже через несколько дней система выявит рост негативных отзывов, а этого достаточно, чтобы оперативно отозвать партию товаров. Своевременное выявление проблемы позволит сохранить репутацию и деньги компании.

Кроме того, с помощью ContentAnalytics можно повысить степень удовлетворенности клиентов. Система позволяет на основе анализа большого объема замечаний, предложений и отзывов точнее предугадывать их потребности. Проследить контекст упоминаний компании в социальных сетях не так просто, ведь это огромный объем информации, и ContentAnalytics значительно облегчает эту задачу.

Существуют системы, позволяющие обрабатывать и речь. Они могут быть полезны при работе в контакт-центре. Решения класса SpeechAnalytics способны автоматически выявлять фрагменты разговоров, в которых упоминается заданный продукт или есть негативные высказывания клиентов. Это дает возможность узнать, корректно ли работает оператор, какие продукты чаще интересуют потребителей и т.д.