Современный анализ данных: поиск скрытых закономерностей

Раздел: Информационные технологии
Автор(ы): Татьяна Андрусенко, журнал "Корпоративные системы" (№3, 2005)	размещено: 29.09.2006 обращений: 21263

Разработка данных — важный инструмент управления знаниями, дополняющий интегрированные системы управления предприятием. В качестве примеров применения приводятся проблемы диагностирования энергетического оборудования, анализ механизмов стимулирования продаж.

Вторая часть работы¹ посвящена рассмотрению некоторых примеров анализа информации на основе методов Data Mining. Разработка или добыча данных (так обычно переводится этот термин) выступает важным инструментом управления знаниями, на практике дополняя возможности интегрированных систем управления предприятием (ERP), а также обеспечивает мощную поддержку проведения исследований и обучения.

Data Mining объединяет процессы поиска информации в различных внутренних базах данных и внешних источниках с процедурами анализа на основе широкого набора специальных методов, включая статистические, методы искусственного интеллекта, нечеткой логики, нейронных сетей и многие другие. В электронном учебнике (www.statsoft.ru) по промышленной статистике добыча данных определяется как процесс аналитического исследования больших массивов информации с целью выявления закономерностей и систематических взаимосвязей между переменными, которые затем можно применить к новым совокупностям данных.

Практические приложения указанного подхода поистине безграничны: производство, торговля, финансы, медицина, социология, научные исследования, образование и др. Инструментарий Data Mining используется для задач технической и медицинской диагностики, проектирования, управления процессами, контроля качества, прогнозирования, оценки кредитоспособности, анализа состояния рынков, маркетинговых исследований, планирования экспериментов, работы с клиентами, социологических опросов, моделирования и изучения сложных систем на основе истории их эволюции.

Концепция, лежащая в основе этой технологии, позволяет выявлять более общие "смыслы" в больших массивах данных, определяя взаимосвязи и тенденции, далеко не очевидные на первый взгляд. В контексте Data Mining можно встретить также термин Knowledge Discovery («обнаружение знаний») — понятие очень важное для принятия решений в различных областях человеческой деятельности.

АНАЛИЗ БИЗНЕС-ДАННЫХ

Исследуя различные проявления активности мозга, узнав о нем достаточно много, но, разумеется, далеко не все, ученые постоянно сталкиваются с проблемой определения того, какие вопросы относительно мозга являются разумными. Как указывает Герман Хакен (один из основателей синергетики), вопросы, которые в этом случае можно задать, зависят от предпочтений исследователя, его компетентности, теоретических концепций, имеющихся в распоряжении математических или экспериментальных методов, а также инструментальных средств моделирования.

Аналогичная проблема возникает и в случае работы с большими базами данных на предприятии. От аналитика, занимающегося обработкой данных, требуется ряд весьма нетривиальных умений, и как минимум необходимо уметь:

строить «правильные» запросы;
выбирать метод анализа, который бы обеспечил наилучший результат;
интерпретировать результаты;
прогнозировать возникающие изменения.

Как показывает практика, методы анализа данных очень отличаются в зависимости от условий поставленных задач. Выбор наилучшего метода, а их в больших программных пакетах насчитывается десятки, во многом зависит от времени, выделяемого для принятия решения, от требуемых результатов, от типа и объема данных, которые есть в наличии. Поэтому в процессе анализа данных на разных его этапах могут использоваться разные методы.

Необходимо особо выделить задачу представительности выборки для статистического анализа. Исследование мощности выборки и расчет ее объема — важный момент при планировании исследования, поскольку нехватка данных (либо чрезмерный их объем) дают ненадежные результаты.

Процесс анализа данных, лежащий в основе подхода Data Mining, реализуется традиционной цепочкой операций «исследование — построение модели — проверка» и предполагает несколько этапов:

выборка;
разведочный анализ;
обработка и преобразование данных (очистка, фильтрация, группировка и др.);
задание вида анализа (классификация, прогнозирование, моделирование и др.);
оценка результатов.

Каждая стадия анализа данных допускает корректировку и перенастройку структуры по результатам анализа. Если результаты по каким-то причинам неудовлетворительны, то можно провести весь анализ или какую-то его стадию заново.

В исследовательском аппарате Data Mining есть методы, которые позволяют проводить анализ данных не только по усредненным значениям (вроде средней заработной платы или средней платежеспособности клиента) , но и прогнозировать более конкретные тенденции или обнаруживать предпосылки возникновения экстремальных ситуаций, выявлять причины и возможные следствия.

В то время как традиционные методы математической статистики используются преимущественно для проверки заранее сформулированных гипотез, сама задача выдвижения гипотезы оказывается достаточно сложной. Автоматические процедуры Data Mining проводят формулировку возможных гипотез, обеспечивая визуализацию результатов (см. рис. 1-2).

Типовые возможности системы (Data Analisys, Data Mining, Quality Control)

Среди систем, реализующих различные возможности анализа данных, можно назвать Intelligent Miner (IBM), STATISTICA (StatSoft Inc.), «Галактика-ZOOM» («Галактика»), Poly Analyst («Мегапьютер Интеллидженс») и др. В них возможна работа как со структурированной информацией (таблицами, списками), так и с неструктурированной (текстами документов, графической информацией).

ПРИМЕНЕНИЕ В БИЗНЕСЕ

В больших массивах корпоративных данных часто хранятся ответы на многие вопросы, которые интересуют руководство и сотрудников организаций, например:

Кто является наиболее выгодным поставщиком?
Что будет влиять на прибыль предприятия в этом году?
Какой будет наиболее оптимальная цена на данный товар в следующем сезоне?
Как разработать эффективную систему сезонных скидок?
Каково максимальное время прогнозируемости курса акций?
Как экономно использовать имеющиеся ресурсы (электроэнергию, газ, воду, материалы)?
Какова оптимальная стратегия работы с конкретным вкладчиком?
Какими должны быть показатели устойчивости банка?
Какова оптимальная структура вопросника для данного социологического опроса?

Далее будут рассмотрены некоторые примеры анализа данных.

Техническая диагностика

Метод факторного анализа. При диагностировании энергетического оборудования штатными контрольно-измерительными приборами и обработке этих данных с помощью, например, программных средств системы STATISTICA можно прогнозировать отклонения в работе устройств задолго до их внешнего проявления [1].

Информацию о нарушениях, возникающих в процессе работы энергетических объектов, дают корреляционные связи между различными эксплуатационными параметрами (температурой газа, температурой смазочного масла в подшипнике турбины и пр.) и общими факторами (нагрузками на оборудование). При диагностировании традиционными методами, т. е. визуально по шкале приборов, объект будет выглядеть работоспособным, но корреляционные связи могут начать искажаться значительно раньше, чем появятся отклонения от нормы какого-либо параметра.

Такой анализ особенно эффективен в исторической перспективе, на больших массивах зарегистрированных параметров, когда наблюдения фиксируют состояние устройства в течение определенного времени. Увеличение среднего расстояния между факторными нагрузками (при полном соответствии текущего состояния устройства требованиям технической документации) всегда показывает, что в работе устройства уже наблюдаются серьезные отклонения. При ручном ведении эксплуатационных журналов подобный детальный анализ невозможен, а нередко и сами записи не сохраняются. В результате не удается определить предотказное состояние оборудования, что приводит к серьезным авариям.

Таким образом, выявление внутренних закономерностей процессов, происходящих в сложных системах различной физической природы (технических, социальных, биологических, психологических), позволяет обнаруживать изменения значительно раньше, чем они проявляются.

Маркетинговые задачи

Обобщенные ассоциативные правила. Одним из примеров анализа механизмов стимулирования продаж на основе больших массивов накопленных данных о поведении потребителей выступают обобщенные ассоциативные правила, полученные с помощью методов Data Mining. Ставится задача найти скрытые закономерности и типичные шаблоны поведения покупателей [2]. Для этого вводится понятие «покупательская транзакция»: набор товаров, купленных покупателем за один визит в супермаркет.

Отличительным свойством является то, что определяемые ассоциативные правила включают элементы, которые являются предками элементов, входящих во множество транзакций. В результате возможно выявлять ассоциации не только между отдельными элементами транзакций (событиями, произошедшими одновременно, например, конкретными купленными товарами), но и между различными уровнями иерархии элементов (таксономиями элементов, в данном примере — группами товаров, куда входят отдельные купленные товары). Если продукты питания разбить, например, на две группы товаров «Молочные продукты» и «Напитки», то иллюстрацией первого случая будет ассоциативное правило «Если покупатель купил сок, то он, скорее всего, купит кефир», а иллюстрацией второго — «Если покупатель купил молочные продукты, то он, скорее всего, купит минеральную воду». Подобные ассоциации не так конкретны, как в случае: «Если покупатель купил хлеб, то с вероятностью 75% он купит и молоко». Но использование алгоритма поиска обобщенных ассоциативных правил позволяет значительно расширить круг решаемых задач.

Интересной задачей, например, выступает нахождение зависимостей между товарами, продаваемыми некоторой фирмой, и ее покупателями в следующей постановке: требуется найти тех покупателей на конкретные товары данной фирмы (например, определенные товары, которые «завалялись» на складе), которые до сих пор покупали подобные товары других производителей.

Аппроксимационный метод. Задача анализа данных спроса и предложения для выработки оптимальных рыночных стратегий и сокращения расходов предприятия решается различными способами. В их числе использование специализированного программного обеспечения для прикладных и исследовательских приложений. Примером может служить система MAT-LAB, сочетающая мощные средства по обработке данных с технологиями визуализации математических вычислений [3].

Согласно традиционному подходу, принятому в экономической теории, рыночные характеристики товара определяются в двумерной системе координат «цена — количество», не учитывая множество неценовых факторов. В то же время конкурентная борьба заставляет обращать особое внимания на фактор качества товара. При этом в понятие качества закладываются практически все неценовые характеристики товара: надежность, долговечность, технологичность, экологичность, социальные и другие факторы.

В такой постановке корреляции спроса и предложения выступают как отображение различных аспектов поведения покупателей и рыночной стратегии производителя в трехмерной системе координат «цена — количество — качество». При этом графики функций кривых спроса и предложения на плоскостях «цена — качество», «цена — количество» и «качество — количество» показывают различные соотношения [3]:

минимальной цены, приблизительно соответствующей себестоимости продукции, максимальным производственным возможностям предприятия с учетом ограниченности ресурсов в краткосрочном периоде;
минимальной и максимальной рыночных цен товара, связанных с факторами покупательского спроса;
требований технических, социальных, экологических и других стандартов максимально возможному качеству товара, обусловленному финансовыми, кадровыми, научно-техническими и другими возможностями предприятия;
минимально допустимого качества товара и максимальной цены, которую согласен заплатить за него покупатель.

На основе этих и других закономерностей (потребительских предпочтений, изменений доходов покупателей, цен на ресурсы, налоговых ставок и др.) в пространстве «цена — количество — качество» строится кривая «рыночного равновесия» со множеством точек равновесия. Модель показывает оптимальный с точки зрения покупателя и производителя объем производства в соответствии с достигнутым качеством и средней ценой товара в каждый конкретный момент времени, что позволяет предприятию оперативно или в среднесрочном периоде вырабатывать подходящую рыночную стратегию.

Поиск и обработка текстовой информации

Во многих областях деятельности требуется поиск в сверхбольших текстовых базах данных, в том числе в реальном времени, и аналитическая поддержка принятия решений на основе найденной информации. Рассмотрим некоторые возможности решения этих проблем на примере системы «Галактика-ZOOM», которая уже работает в органах государственного управления, финансовых учреждениях, крупных медиа-компаниях, в информационно-аналитических отделах служб безопасности и на других предприятиях.

Модель выбранного для исследования информационного объекта (это может быть некоторая персона, событие, процесс, проблема) называется «информационным портретом». Такой «портрет» объекта формируется на основе заданных критериев поиска по выбранному массиву документов и представляет собой резюме прямой и косвенной информации о данном объекте. На основе этой концентрированной информации система позволяет сравнивать «портреты» нескольких объектов одновременно по различным параметрам, определять рейтинги объектов, отслеживать изменения в «информационных портретах» в исторической перспективе, выявлять характерные для этих объектов тенденции.

С помощью «информационных портретов» объектов можно решать следующие задачи:

проводить имиджевые исследования;
устанавливать заказчиков негативной информации или проводимого пиара;
осуществлять оперативную подготовку информационных материалов;
формировать и вести тематические досье;
проводить информационную разведку;
выявлять взаимосвязи и неявную корреляцию персон, событий, тенденций;
анализировать характерные или аномальные особенности выбранного объекта и пр.

Полученные с помощью «Галактика-ZOOM» «информационные портреты» объектов, связанных по некоторым критериям, могут выступать базовыми элементами мощной семантической системы — тезауруса.

Управление знаниями

Информационный анализ может касаться не только внешних объектов, но и проводиться в рамках предприятия, что не менее интересно, чем заниматься конкурентами. Здесь важно, какие запросы к корпоративным базам данных сформулирует аналитик. Оперативный поиск в архивах проектной документации аналогичных задач, программ, отдельных алгоритмов или другой информации поможет предприятию сэкономить время и ресурсы за счет повторного использования знаний. Особенно актуальна эта задача для крупных компаний, создавших десятки и сотни внутрикорпоративных сайтов. Как отмечают консультанты западных фирм, оказывающих услуги по управлению знаниями, в ходе аудита знаний нередко обнаруживается, что до 70% разработок уже выполнялось на предприятиях ранее. В результате потери информации теряются и потенциальные выгоды.

Современные средства поиска, хранения и анализа данных при надлежащей организации процесса информационной поддержки и мониторинга проектов предоставляют уникальные возможности не только для оперативного принятия решений, но и для моделирования, прогнозирования, стратегического управления знаниями.

Например, компания решает продать другим предприятиям часть своих знаний, которые, как считается, уже не дают ей конкурентных преимуществ. В качестве таких знаний могут выступать патенты, лицензии, какая-то часть бизнеса, программы и методики корпоративного обучения, некоторые технологии и т. п. Перед этим многие западные компании проводят тщательный аудит своих знаний, чтобы не потерять не замеченные ранее выгоды. В частности, исследование баз знаний методами Data Mining помогает установить такие скрытые закономерности, в результате чего компания может принять более взвешенное решение относительно того или иного ресурса.

Существует также задача конверсии знаний — изменения направления его приложения, если эффективность текущего использования уже, казалось бы, себя исчерпала или знание используется лишь частично.

Рассмотренные задачи довольно сложны, и прежде всего потому, что связаны с людьми, работающими на предприятии. Но в том, что касается анализа документов, предприятие может использовать методы Data Mining, чтобы получить ответы на свои вопросы и не потерять знания, не раскрывшие свой потенциал для компании.

Другие приложения Data Mining

Метод нейронных сетей (в частности, в составе системы STATISTICA) получил распространение в самых разных областях, где требуется найти значения неизвестных переменных по известным данным измерений (задачи регрессии, классификации, анализ временных рядов). Модель нейронной сети требует довольно больших массивов данных и особенно эффективна в случаях, когда закономерности между переменными слишком сложны, например:

прогнозирование финансовых временных рядов (в частности, цен на акции);
оценка кредитоспособности по анкетным данным заемщика;
управление производственными процессами с непрерывным регулированием управляющих параметров;
лингвистический анализ (синтез и распознавание речи);
обработка изображений и др.

Методы нечеткой логики могут выступать инструментом построения моделей, которые находят применение в биологии, медицине, экономике, социологии. Они особенно полезны в случаях, когда элементами данных служат экспертные высказывания на основе правил вывода «если — то», образующие так называемые нечеткие базы знаний. Эти правила могут генерироваться экспертами, а также получаться в результате выделения нечетких знаний из экспериментальных данных.

Компьютерные модели, использующие методы нечеткой логики, имеют различную интерпретацию. В тех случаях, когда требуется большая точность построения модели нелинейной зависимости, необходим большой объем выборки данных. Но тогда возникают трудности с содержательной интерпретацией параметров нечеткой модели. В случае же, когда для обоснования принимаемого решения более важна объяснительная способность модели, используются другие варианты нечеткой логики.

НАУЧНЫЕ ИССЛЕДОВАНИЯ

Методы Data Mining широко используются при моделировании динамических систем, разработке новых материалов и продуктов, в планировании экспериментов, спектральном анализе, исследованиях магнитных полей, биологической информатике, задачах фрактальной геометрии и многих других. В частности, при автоматизированном построении моделей динамических систем (например, технологического оборудования) решается как прямая, так и обратная задача моделирования. В первом случае требуется построить модель системы, если известны ее структура и параметры. Во втором — найти структуру и параметры моделируемой динамической системы по ее известным входным и выходным сигналам (задача идентификации).

Современные средства анализа данных позволяют создавать самые разные модели систем. Необходимость в построении нескольких моделей объясняется тем, что каждая из них отражает лишь некоторые отдельные свойства изучаемой системы, а более полную картину модели дают в совокупности.

Это стимулирует также разработку новых методов компьютерного анализа и новых программных средств. Так развиваются и сами аналитические моделирующие системы Data Mining, подтверждение чему — появление целого научного направления Natural Computing («природные вычисления»), объединяющего математические методы с механизмами принятия решений, существующими в живой природе уже много веков. К их числу, помимо нейросетевых методов, относятся:

генетические алгоритмы;
эволюционное программирование;
ДНК-вычисления;
клеточные автоматы;
муравьиные алгоритмы [4].

Например, поведение социальных насекомых — муравьев, термитов, пчел — давно привлекает ученых (общая масса муравьев примерно равна массе человечества) . Основу поведения муравьев составляет самоорганизация, механизмы которой обеспечивают теоретически оптимальное поведение. Принципы его состоят в достижении системой некоторой глобальной цели в результате низкоуровневого взаимодействия ее элементов. Здесь имеется в виду использование системой только локальной информации, при этом исключается любое централизованное управление и обращение к внешнему образу системы (было бы, наверное, хорошо, если бы так работали наши местные администрации). Имеются, также многие примеры самоорганизации так называемых «малых групп» — сообществ практиков, профессионалов или сетевых сообществ в контексте управления знаниями.

Муравьиные алгоритмы реализуются, в частности, в MATLAB. Они эффективны не только при решении таких известных задач, как задачи коммивояжера, оптимизации перевозок или календарного планирования, но показывают хорошие результаты для оптимизации нестационарных систем, параметры которых изменяются во времени (например, трафиков для телекоммуникационных и компьютерных сетей).

ОБУЧАЮЩИЕ СРЕДЫ

Для обучения решению задач или моделированию объектов предметной области в компьютерных учебных средах можно использовать тезаурус — систему понятий, связанных характерными для данной предметной области семантическими отношениями [5]. В качестве семантических отношений здесь выступают так называемые семантические универсалии: род, вид, часть, целое, причина, следствие, входит в, состоит из, ассоциация и др. Тезаурусы как модели предметных областей (учебных дисциплин) используются в средней школе и ВУЗах, эффективны они также для некоторых задач корпоративного обучения.

В лингвистической практике тезаурус служит способом систематизации терминологии. В поисковых системах на основе тезауруса строятся запросы к базам данных и связываются между собой отдельные документы. Существует целое направление — компьютерные онтологии (модели областей знаний, в которых собственно предметные знания — domain knowledge — отделены от знаний о решаемой задаче — problem-solving knowledge), включающее тезаурус как один из вариантов модели предметной области.

В компьютерном тезаурусе также могут быть реализованы процедуры добычи данных и поиска скрытых закономерностей (правда, в гораздо меньших масштабах, чем в промышленных системах).

С помощью этих процедур можно решать различные задачи, в частности:

классификации известных объектов предметной области;
построения новых объектов;
композиции и декомпозиции объектов;
конструирования дефиниции (определения) объекта по некоторым его известным свойствам;
задачи на доказательство или исследование и др.

Что наиболее важно, — данный подход позволяет обнаруживать знания, объективно существующие, но субъективно не известные обучаемому. Пример — определения куба, которых в компьютерном тезаурусе по стереометрии на основе неявных закономерностей можно построить более десяти, в то время как в учебнике содержится лишь одно определение.

Здесь возникают задачи обнаружения и конструирования знаний, а не только заучивания чего-то готового, что в значительной мере характеризует стандартно организованный учебный процесс. Кроме того, в традиционно математических областях (учебных дисциплинах) можно решать задачи невычислительного характера, на понятийном уровне, дополняя традиционные учебные программы.

В среде компьютерного тезауруса появляется также возможность моделировать индивидуальные знания эксперта или обучаемого, которые могут создавать и исследовать свои личные тезаурусы. Тезаурус может быть и совместным интеллектуальным продуктом группы проекта, отдела, целой компании, показывая разницу в содержании и форме знаний на всех уровнях. Тем самым организационное обучение опирается как на коллективные, так и на личные знания, а выработанные стандарты могут быть переданы другим людям или организациям.

Использование тезаурусов для целей корпоративного обучения позволит сотрудникам получить более целостное представление о структуре предприятия, о типах производственных задач, рассмотрев их с неожиданной точки зрения в учебных ситуациях. Эксперты смогут обмениваться опытом, а новички — получить доступ к корпоративным базам знаний в виде тезаурусов, обнаруживать новый взгляд на вещи, находить альтернативные возможности и решать проблему выбора максимально эффективно.

В заключение отметим, что описание процессов, протекающих в сложных технических и природных системах, показывает приоритет «простого», богатого энергией, и ведущую роль «сложного», богатого информацией. Переход от рассмотрения изолированных событий в частных информационных системах на предприятии к взаимосвязанным процессам, которые моделируются в интегрированных системах средствами Data Mining, позволяет обнаруживать более фундаментальные закономерности и выявлять различные пути развития предприятия.

ЛИТЕРАТУРА

Рыбалко В. В. Параметрическое диагностирование энергетических объектов на основе факторного анализа в среде Statistica // Exponenta Pro.— 2004. — N 2.— с. 78-83.
Ларин С. В. Выявление обобщенных ассоциативных правил // Exponenta Pro.— 2003.— N 3.— с. 34-38.
Быков С. Н., Щербинин С. В. Построение пространственных кривых спроса и предложения // Exponenta Pro.— 2003.— N 2.— с. 63-65.
Штовба С. Д. Муравьиные алгоритмы // Там же, с. 70-75.
Андрусенко Т. Б. Лингвистические структуры в компьютерных учебных средах. — К.: Наукова думка, 1994.— 160 с.

Автор благодарит компании Softline International и «Галактика» за предоставленные материалы. При подготовке статьи использованы также материалы по системе STATISTICA с любезного разрешения компании StatSoft Russia.

Об авторе:

Андрусенко Татьяна Борисовна

Современный анализ данных: общие вопросы Business Intelligence