Введение в анализ данных. Анализ данных

  • 28.06.2019

Понятие анализа данных достаточно широкое. Само понятие «анализ» пришло к нам из Древней Греции и значит «распутывать», «освобождать». В области анализа данных определений много и все они разные. Обратимся к Большому экономическому словарю (Институт новой экономики. А.Н. Азрилиян, 1997):

Анализ данных – это направление статистических исследований, включающее комплекс методов обработки многомерной системы данных наблюдений, характеризующейся многими признаками. В отличие от классических математико-статистических методов, предполагающих известную вероятностную модель порождения данных, методы анализа данных используют только сведения, зафиксированные в этих .

В целом определение верное и точное. Но для бизнеса важна и другая составляющая такого анализа. В определении словаря говорится только об обработке данных, но для любого руководителя или топ-менеджера важна не сама обработка и структурирование данных. Намного интереснее и полезнее при заключительный этап — поиск скрытых закономерностей и получение новых знаний.

Поэтому в бизнес-среде в последнее время очень популярно определение Марио Фариа (Mario Faria), вице-президента Gartner:

Анализ - преобразование данных в выводы, на основе которых будут приниматься решения и строиться действия с помощью людей, процессов и технологий.

Невозможно и неправильно смотреть на анализ данных только как на обработку информации после ее получения и сбора. В первую очередь, анализ данных - это средство и способ проверки гипотез и способ решения задач исследователя. Поэтому среди важных задач анализа данных мы выделяем:

  • прогнозирование,
  • выявление отклонений,
  • получение рекомендаций.

Характеристики данных анализа

С точки зрения своих характеристик данные, которое мы используем при анализе, делятся на 2 большие группы:

  • количественные
  • и качественные.

Качественные данные важны при маркетинговых исследованиях – какой ваш товар, за что его должны «полюбить» потребители. Наиболее интересными для прогнозирования, конечно, являются количественные данные. Цифры – наше все! На их основе можно, например, прогнозировать спады или рост продаж. А это, согласитесь, очень важно. Возможность закупить правильный объем товара, выстроить логистическую цепочку, подготовить персонал – все это, в конечном счете, влияет на выручку компании.

Как анализировать быстро и полезно?

Информации в мире становится все больше. В исследовании компании IBS говорится, что уже к 2003 году в миру было накоплено 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). В 2011 году данных будет уже 1,76 зеттабайта (1 ЗБ = 1024 эксабайта), а в мае 2015 года мировой объем данных составил более 6,5 ЗБ. По информации из исследования The Data Age 2025 прогнозируется, что к 2025 году будет сформировано более 400 зеттабайтов информации.

Но главное – все эти накопленные данные содержат в себе важную информацию, с помощью которой можно и нужно прогнозировать, делать выводы и принимать решения. Для того чтобы из всего массива накопленных данных выделить полезную информацию, необходима обработка этих данных. Или – анализ данных.

Обрабатывать данные становится все сложнее. Если раньше, лет 15 назад, в Excel был пределом совершенства, то сейчас это уже действительно «прошлый век». Вслед за запросом на анализ «больших данных» на рынке появляются новые решения для бизнеса – малого, среднего и крупного.

Решения для анализа данных варьируются в зависимости от стоимости внедрения и персонала, который будет задействован для управления ими. Есть решения для крупных корпораций, где, конечно, не обойтись без больших вложений – как на этапе внедрения, так и позже – на этапе работы решения (основная трата – это специалисты, работающие с ПО).

Понимание данных (DataInsight - DI):

DI - Область data science, в которой ключеаую роль по обработке данных играют эксперты. Мы рассматриваем это направление как узконаправленное, в интересах конкретной цели заказчика. Эксперты ищут информацию, источники данных, открытые ресурсы и основываясь на экспертной оценке, интуиции обобщают материалы, формируют новое знание. 80% всей информации разведками мира добываются именно таким образом - извлечение знаний экспертами из открытых источников. Это актуально, когда данные неформализованы, смысл скрыт. Например: сбор сведений о предмете интереса с неявными идентифицирующими признаками, косвенными связями. Результатом иссдедования становится аналитическая записка с указанием источников данных, принципов идентификации и причинно-следственными связями.

Анализ данных (Data Analysis):

DA - область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений.
Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.
Анализ данных является наукой изучения исходных данных с целью сделать выводы об этой информации. Анализ данных используется во многих отраслях промышленности, сфере услуг, чтобы позволить компаниям и организациям принимать лучшие бизнес-решения и в науке, чтобы подтвердить или опровергнуть существующие модели или теории.

Анализ данных отличается от интеллектуального анализа данных (data minig) по сфере применения, цели и направленности анализа. Интеллектуальный анализ данных оперирует огромными наборами данных, используя сложное программное обеспечение для выявления скрытых шаблонов и установления неявных связей. Анализ данных фокусируется на умозаключениях, процессе получения выводов, основанных исключительно на том, что уже известно исследователю.

Анализ данных, как правило, делится на поисковый анализ данных (EDA), поиск возможностей в данных, и подтверждающий анализ данных (CDA), для подтверждения или опровержения гипотез.
Анализ качественных данных (QDA) используется в социальных науках, чтобы сделать выводы из нечисловых данных, таких как слова, фотографии или видео.
Термин "аналитика" используется многими поставщиками продуктов бизнес-аналитики (BI), как умное слово для описания совершенно разных функций. Анализ данных используется для описания всего: от оперативной аналитической обработки данных (OLAP) до аналитики CRM в центрах обработки вызовов.
Не стоит обосабливать анализ "больших данных" (BigData Analysis) так как по сути в большинстве случаев используются те же методики и методы, что для анализа обычных данных, отличие начинается в технологиях, механизмах распараллеливания.
Особняком стоит DataInsight (Понимание данных) - в этом исследовании акцент делается не на математической обработке данных, а экспертной оценке. Выделении связей, оценка последствий.
Интеллектуальный анализ данных - это особый метод анализа данных, который фокусируется на моделировании и открытии данных, а не на их описании.

Интеллектуальный анализ данных (Data Mining):

Избыток данных и недостаток хороших методов их анализа приводил к ситуации богатства данными, но бедности информацией. Быстро растущие объемы накопленных данных быстро превысили способности человека в их обработке. В результате большие базы данных стали «могилами» данных – архивами, которые редко посещаются. Как следствие, важные решения принимаются не на основе информационно- насыщенных баз данных, а на основе интуиции человека, принимающего решения, так как он не имеет подходящих инструментов для извлечения полезных знаний из огромных объемов данных. Технология Интеллектуального Анализа Данных позволяет извлечь полезные знания, важные паттерны, способствуя совершенствованию бизнес- стратегий, баз знаний, научных и медицинских исследований. Интеллектуальным анализом данных мы будем называть процесс определения новых, корректных и потенциально полезных знаний на основе больших массивов данных. Извлеченное знание в результате интеллектуального анализа называется термином паттерн.

Паттерном может быть, например, некоторое нетривиальное утверждение о структуре данных, об имеющихся закономерностях, о зависимости между атрибутами и т.д. Таким образом, задачей интеллектуального анализа данных является эффективное извлечение осмысленных паттернов из имеющегося массива данных большого размера.
Для отсева большого количества возможных малополезных паттернов может вводится функция полезности. В реальности оценка полезности знания имеет субъективный характер, то есть зависит от конкретного пользователя. Можно выделить две главные характеристики «интересного» знания:
Неожиданность. Знание «удивительно» для пользователя и потенциально несет новую информацию.
Применимость. Пользователь может использовать новое знание для достижения своих целей.

Интересные знания, закономерности, высокоуровневая информация, полученные в результате анализа данных, могут быть использованы для принятия решений, контроля за процессами, управления информацией и обработки запросов. Поэтому технология интеллектуального анализа данных рассматривается как одна из самых важных и многообещающих тем для исследований и применения в отрасли информационных технологий.

Этапы в процессе интеллектуального анализа данных:
  1. 1. Изучение предметной области, в результате которого формулируются основные цели анализа.
  2. 2. Сбор данных.
  3. 3. Предварительная обработка данных: (a) Очистка данных – исключение противоречий и случайных "шумов"из исходных данных (b) Интеграция данных – объединение данных из нескольких возможных источников в одном хранилище (c) Преобразование данных. На данном этапе данные преобразуются к форме, подходящей для анализа. Часто применяется агрегация данных, дискретизация атрибутов, сжатие данных и сокращение размерности.

  4. 4. Анализ данных. В рамках данного этапа применяются алгоритмы интеллектуального анализа с целью извлечения паттернов.
  5. 5. Интерпретация найденных паттернов. Данный этап может включать визуализацию извлеченных паттернов, определение действительно полезных паттернов на основе некоторой функции полезности.
  6. 6. Использование новых знаний.
Data Mining (DM) - это процесс обнаружения в сы­рых данных (row data) раннее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний (закономерностей), необходимых для принятия решений в различных сферах человеческой дея­тель­ности (Г.Пятецкий-Шапиро).

Большие объемы накопленных данных постоянно приходится модифицировать из-за быстрой смены аппаратного и программного обеспечения БД, при этом неизбежны потери и искажение информации. Одним из средств для преодоления подобных трудностей является создание информационных хранилищ данных, доступ к которым не будет сильно зависеть от изменения данных во времени и от используемого программного обеспечения. Другой подход ориентирован на сжатие больших объемов данных путем нахождения некоторых общих закономерностей (знаний) в накопленной информации. Оба направления актуальны с практической точки зрения.

Наличие информационного хранилища данных - необходимое условие для успешного проведения всего процесса DataMining. Информационным хранилищем данных называют предметно-ориентированное, интегрированное, привязанное ко времени, неизменяемое собрание данных, используемых для поддержки процесса принятия управленческих решений. Предметная ориентация означает, что данные объединены в категории и хранятся в соответствии с теми областями, которые они описывают, а не в соответствии с приложениями, которые их используют. Такой принцип хранения гарантирует, что отчеты, сгенерированные различными аналитиками, будут опираться на одну и ту же совокупность данных. Привязанность ко времени означает, что хранилище можно рассматривать как собрание исторических данных, т.е. конкретные значения данных однозначно связаны с определенными моментами времени. Атрибут времени всегда явно присутствует в структурах хранилищ данных. Данные, занесенные в хранилище, уже не изменяются в отличие от оперативных систем, где присутствуют только последние, постоянно изменяемые версии данных.

В технологиях DM используются различные математические методы и алгоритмы: классификация, кластеризация, регрессия, прогнозирование временных рядов, ассоциация, последовательность.

Классификация - инструмент обобщения. Она позволяет перейти от рассмотрения единичных объектов к обобщенным понятиям, которые характеризуют некоторые совокупности объектов и являются достаточными для распознавания объектов, принадлежащих этим совокупностям (классам). Суть процесса формирования понятий заключается в нахождении закономерностей, свойственных классам. Для описания объектов используются множества различных признаков (атрибутов), Проблема формирования понятий по признаковым описаниям была сформулирована М. М. Бонгартом. Ее решение базируется на применении двух основных процедур: обучения и проверки. В процедурах обучения строится классифицирующее правило на основе обработки обучающего множества объектов. Процедура проверки (экзамена) состоит в использовании полученного классифицирующего правила для распознавания объектов из новой (экзаменационной) выборки. Если результаты проверки признаны удовлетворительными, то процесс обучения заканчивается, в противном случае классифицирующее правило уточняется в процессе повторного обучения.

Кластеризация - это распределение информации (записей) из БД по группам (кластерам) или сегментам с одновременным определением этих групп. В отличие от классификации здесь для проведения анализа не требуется предварительного задания классов.
Регрессионный анализ используется в том случае, если отношения между атрибутами объектов в БД выражены количественными оценками. Построенные уравнения регрессии позволяют вычислять значения зависимых атрибутов по заданным значениям независимых признаков.
Прогнозирование временных рядов является инструментом для определения тенденций изменения атрибутов рассматриваемых объектов с течением времени. Анализ поведения временных рядов позволяет прогнозировать значения исследуемых характеристик.
Ассоциация позволяет выделить устойчивые группы объектов, между которыми существуют неявно заданные связи. Частота появления отдельного предмета или группы предметов, выраженная в процентах, называется распространенностью. Низкий уровень распространенности (менее одной тысячной процента) говорит о том, что такая ассоциация не существенна.

Типичным примером применения ассоциации является анализ структуры покупок. Например, при проведении исследования в супермаркете можно установить, что 65 % купивших картофельные чипсы берут также и «кока-колу», а при наличии скидки за такой комплект «колу» приобретают в 85 % случаев. Подобные результаты представляют ценность при формировании маркетинговых стратегий.

Последовательность - это метод выявления ассоциаций во времени. В данном случае определяются правила, которые описывают последовательное появление определенных групп событий. Такие правила необходимы для построения сценариев. Кроме того, их можно использовать, например, для формирования типичного набора предшествующих продаж, которые могут повлечь за собой последующие продажи конкретного товара.

К интеллектуальным средствам DM относятся нейронные сети, деревья решений, индуктивные выводы, методы рассуждения по аналогии, нечеткие логические выводы, генетические алгоритмы, алгоритмы определения ассоциаций и последовательностей, анализ с избирательным действием, логическая регрессия, эволюционное программирование, визуализация данных. Иногда перечисленные методы применяются в различных комбинациях.

Нейронные сети относятся к классу нелинейных адаптивных систем с архитектурой, условно имитирующей нервную ткань, состоящую из нейронов. Математическая модель нейрона представляет собой некий универсальный нелинейный элемент, допускающий возможность изменения и настройки его характеристик. Нейронные сети широко применяются для решения задач классификации. Построенную сеть сначала нужно «обучить» на примерах, для которых известны значения исходных данных и результаты. Процесс «обучения» сети заключается в подборе весов межнейронных связей и модификации внутренних параметров активационной функции нейронов. «Обученная» сеть способна классифицировать новые объекты (или решать другие примеры), однако правила классификации остаются не известными пользователю.

Деревья решений - метод структурирования задачи в виде древовидного графа, вершины которого соответствуют продукционным правилам, позволяющим классифицировать данные или осуществлять анализ последствий решений. Этот метод дает наглядное представление о системе классифицирующих правил, если их не очень много. Простые задачи решаются с помощью этого метода гораздо быстрее, чем с использованием нейронных сетей. Для сложных проблем и для некоторых типов данных деревья решений могут оказаться неприемлемыми. Кроме того, для этого метода характерна проблема значимости. Одним из последствий иерархической кластеризации данных является то, что для многих частных случаев отсутствует достаточное число обучающих примеров, в связи с чем классификацию нельзя считать надежной.

Индуктивные выводы позволяют получить обобщения фактов, хранящихся в БД. В процессе индуктивного обучения может участвовать специалист, поставляющий гипотезы. Такой способ называют обучением с учителем. Поиск правил обобщения может осуществляться без учителя путем автоматической генерации гипотез. В современных программных средствах, как правило, сочетаются оба способа, а для проверки гипотез используются статистические методы.

Рассуждения на основе аналогичных случаев (Case-based reasoning - CBR) основаны на поиске в БД ситуаций, описания которых сходны по ряду признаков с заданной ситуацией. Принцип аналогии позволяет предполагать, что результаты похожих ситуаций также будут близки между собой. Недостаток этого подхода заключается в том, что здесь не создается каких-либо моделей или правил, обобщающих предыдущий опыт. Кроме того, надежность выводимых результатов зависит от полноты описания ситуаций, как и в процессах индуктивного вывода.

Нечеткая логика применяется для обработки данных с размытыми значениями истинности, которые могут быть представлены разнообразными лингвистическими переменными. Нечеткое представление знаний широко применяется в системах с логическими выводами (дедуктивными, индуктивными, абдуктивными) для решения задач классификации и прогнозирования.

Генетические алгоритмы входят в инструментарий DM как мощное средство решения комбинаторных и оптимизационных задач. Они часто применяются в сочетании с нейронными сетями. В задачах извлечения знаний применение генетических алгоритмов сопряжено со сложностью оценки статистической значимости полученных решений и с трудностями построения критериев отбора удачных решений.

Логическая (логистическая) регрессия используется для предсказания вероятности появления того или иного значения дискретной целевой переменной. Дискретная зависимая (целевая) переменная не может быть смоделирована методами обычной многофакторной линейной регрессии. Тем не менее вероятность результата может быть представлена как функция входных переменных, что позволяет получить количественные оценки влияния этих параметров на зависимую переменную. Полученные вероятности могут использоваться и для оценки шансов. Логическая регрессия - это, с одной стороны, инструмент классификации, который используется для предсказания значений категориальных переменных, с другой стороны - регрессионный инструмент, позволяющий оценить степень влияния входных факторов на результат.

Эволюционное программирование - самая новая и наиболее перспективная ветвь DM. Суть метода заключается в том, что гипотезы о форме зависимости целевой переменной от других переменных формулируются компьютерной системой в виде программ на определенном внутреннем языке программирования. Если это универсальный язык, то теоретически он способен выразить зависимости произвольной формы. Процесс построения таких программ организован как эволюция в мире программ. Когда система находит программу, достаточно точно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных дочерних программ те, которые являются наиболее точными. Затем найденные зависимости переводятся с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и т.п.). При этом активно используются средства визуализации.

В настоящее время широкое применение в экономике и бизнесе находят информационные аналитических системы как средства, обеспечивающие поддержку принятия решений. Растет степень и уровень использования интеллектуальных технологий, так как в базах данных организации накапливается огромное количество данных, которые благодаря применению этих технологий могут быть использованы для получения важной и своевременной информации .

Для оценки роли и места информационных аналитических систем на предприятии рассмотрим общую классификацию информационных систем с позиции применения их на каждом из уровней управления.

На нижнем уровне (уровень оперативного управления) находятся информационные системы, ориентированные на операционную обработку данных (торговые, финансовые, кадровые и др.) в режиме реального времени (OLTP, on-line transactional processing - системы оперативной обработки данных). На верхнем уровне (уровень стратегического управления) располагаются информационные системы, осуществляющие поддержку деятельности менеджеров высшего звена по принятию решений в условиях полуструктурированных и неструктурированных данных.

Информационные системы различных уровней управления тесно взаимодействуют друг с другом. При этом на каждом из уровней управления осуществляется поддержка решений специфичных функциональных задач в соответствии с бизнес-процессами предприятия или организации, что обеспечивает интеграцию информационных потоков по вертикали. Примеры задач представлены в табл. 3.6.

Таблица 3.6. Задачи функциональных подсистем на различных уровнях управления

Уровни

управ-

ления

Задачи функциональных подсистем

Маркетинг и сбыт

Производство

Снабжение

Финансы

Тактический

Анализ и планирование объемов сбыта. Ценообразование

Анализ и планирование производственных программ

Анализ и планирование объемов закупок

Анализ и планирование денежных потоков. Контроль бюджета

Оперативный

Учет заказов. Выписка счетов и накладных

Обработка производственных заказов

Складские операции. Заказы на закупку

Бухгалтерский учет и расчет зарплаты

Очевидно, что приведенная категоризация систем по уровням управления является модельным представлением, в реальных системах функции и уровни в той или иной степени интегрированы.

Системы поддержки принятия решений (СППР) - интерактивные системы, используемые в управлении для помощи в принятии решений в условиях частично и слабо структурированных задач. Они имеют развитый аналитический аппарат по сравнению с управленческими информационными системами, а также включают некоторую совокупность математических моделей. С целью реагирования на внешние изменяющиеся условия СППР в качестве входных данных используют информацию из офисных, профессиональных и транзакционных систем и систем управления, а также должны получать информацию из внешних источников.

Очевидно, что СППР могут использоваться как на стратегическом, так и на тактическом уровнях управления. Эти системы помогают принятию решения управления, объединяя данные, аналитические модели и удобное для пользователя программное обеспечение в систему, основная задача которой - предоставить пользователю инструмент анализа данных и построения моделей, служащих основой для принятия решений.

СППР предоставляют в распоряжение пользователей вычислительные и коммуникационные инструменты и мощности, позволяющие ответить на такие вопросы, как: «В каком состоянии находится бизнес?» или «Какие действия могут защитить предприятие или организацию от изменений конъюнктуры рынка?» и т.п.

Характеристики систем поддержки принятия решений:

  • обеспечивают решение проблем, развитие которых трудно прогнозировать;
  • оснащены сложными инструментальными средствами моделирования и анализа;
  • позволяют легко менять постановку решаемых задач и входные данные;
  • отличаются гибкостью и легко адаптируются к изменению условий;
  • имеют технологию, максимально ориентированную на пользователя.

В СППР можно выделить две основные части: хранилище данных и средства аналитической обработки данных, в которые входят составными частями отчетность, OLAP-средства и средства интеллектуального анализа данных (data mining) - рис. 3.45.

Средства отчетности обеспечивают формирование сводной корпоративной отчетности: формирование любых видов регламентированной отчетности, планирование генерации отчетов, доставка отчетов конечным пользователям, создание нерегла- ментированных отчетов «на лету».

OLAP-системы (on-line analytical processing ) представляют инструмент для анализа больших объемов данных в режиме реального времени. Взаимодействуя с OLAP-системой, пользователь может осуществлять гибкий просмотр информации, получать произвольные срезы данных и выполнять аналитические операции детализации, свертки, сравнения во времени. Если системы регламентированной отчетности позволяют ответить на вопрос: «Какова прибыль предприятия за последний месяц?», то OLAP-системы дают ответ на вопрос: «Какого поставщика мне выгодно выбрать и почему?»

Рис. 3.45.

Интеллектуальный анализ данных, или извлечение данных (data mining), позволяет проводить более глубокие исследования данных. Задачам и методам интеллектуального анализа данных посвящены последующие главы учебника.

Процедуры манипулирования данными в СППР должны обеспечивать следующие возможности:

  • - составление комбинаций данных, получаемых из различных источников;
  • - быстрое добавление или исключение того или иного источника данных и их автоматическое переключение при поиске данных;
  • - управление данными с использованием СУБД;
  • - логическую независимость данных этого типа от других баз данных, входящих в подсистему информационного обеспечения;
  • - автоматическое отслеживание потока информации для наполнения баз данных.

Практическая реализация СППР базируется на использовании OLAP-технологий и организации хранилищ данных (ХД, Data Warehouses ).

Вопросы практики. Рассмотрим результаты внедрения информационно-аналитической системы. Банк DeltaCredit стал первым коммерческим банком в России, специализирующимся на ипотечном кредитовании. Одной из важнейших составляющих работы любой кредитной организации является поддержание качества кредитного портфеля. Ипотечные кредиты выдаются на большой срок и несут в себе большое количество рисков для банка. Именно поэтому основным этапом при рассмотрении заявки на ипотечный кредит является тщательная проверка заемщика и предмета залога на соответствие требованиям банка. В 2007 г. началось сотрудничество DeltaCredit и BaseGroup Labs. Аналитическая платформа Deductor была внедрена в качестве системы поддержки принятия решения для аналитиков. Осуществлялась многофакторная проверка заемщиков по правилам Руководства по андеррайтингу ипотечных кредитов. За годы работы Deductor зарекомендовала себя как надежный помощник аналитиков, снижающий риски пропуска важной информации. В настоящий момент при рассмотрении любой заявки осуществляется проверка более чем сотни различных правил и требований. Успешная эксплуатация аналитической платформы привела к идее об использовании Deductor в качестве еще одного звена проверки - по внутренним базам данных банка. В целом компания BaseGroup Labs зарекомендовала себя как надежный партнер и профессионал своего дела, a Deductor - удобным инструментом, на который уже в ближайшем будущем возлагается еще больше надежд - анализ ответов из Бюро кредитных историй, анализ информации из внешних баз данных, поведенческий анализ, использование в качестве платформы для кредитного скоринга. Таков отзыв о системе руководителя Кредитного департамента ЗАО «КБ ДельтаКредит» Д. Ковалева (источник : Отзывы клиентов // BaseGroup Labs: [интернет-сайт]. URL: http://www. basegroup.ru).

Опрос сотрудников, клиентов, потребителей – не просто сбор информации, это полноценное исследование. А целью всякого исследования является научно- обоснованная интерпретация изученных фактов. Первичный материал необходимо обработать, а именно упорядочить и проанализировать.

Анализ данных исследования – ключевой этап. Он представляет собой совокупность приемов и методов, направленных на то, чтобы проверить, насколько были верны предположения и гипотезы, а также ответить на заданные вопросы. Данный этап является, пожалуй, наиболее сложным с точки зрения интеллектуальных усилий и профессиональной квалификации, однако позволяет получить максимум полезной информации из собранных данных.

Методы анализа данных многообразны. Выбор конкретного метода анализа данных зависит, в первую очередь, от того, на какие вопросы мы хотим получить ответ.

Можно выделить два класса процедур анализа данных:

  • одномерные (дескриптивные) и
  • многомерные.

Многомерные типы анализа данных

Многомерный анализ данных позволяет одновременно исследовать взаимоотношения двух и более переменных и проверять гипотезы о причинных связях между ними.

Техники многомерного анализа разнообразны. Мы рассмотрим следующие:

Суть факторного анализа , состоит в том, чтобы имея большое число параметров, выделить малое число макропараметров, которыми и будут определяться различия между измеряемыми параметрами. Это позволит оптимизировать структуру анализируемых данных.

Применение факторного анализа преследует две цели:

  • сокращение числа переменных;
  • классификация данных.

Факторный анализ довольно полезен на практике. Приведем несколько примеров.

Перед вами стоит задача исследовать имидж компании. Клиенту предлагается оценить данную компанию по целому ряду критериев, общее число которых может превышать несколько десятков. Применение факторного анализа в данном случае позволяет снизить общее количество переменных путем распределения их в обобщенные пучки факторов, например, «материальные условия компании», «взаимодействие с персоналом», «удобство обслуживания».

Еще одним случаем применения данного метода может служить составление социально-психологических портретов потребителей. Респонденту необходимо выразить степень своего согласия/несогласия с перечнем высказываний о стиле жизни. В итоге, можно выделить, например, целевые группы потребителей: «новаторы», «прогрессисты» и «консерваторы».

Актуальным примером исследования в сфере банковского дела, может послужить, изучение уровня доверия клиента к банку, которое можно описать следующими факторами:

— надежность сделок (включающий такие параметры, как сохранность средств, возможность беспрепятственного их перевода);

— обслуживание клиентов (профессионализм сотрудников, их благожелательность) и

— качество обслуживания (точность выполнение операций, отсутствие ошибок) и др.

(от англ. сluster – сгусток, пучок, гроздь) – это один из способов классификации объектов. Он позволяет рассматривать достаточно большой объем информации, сжимая его и делая компактными и наглядными.

Термин «кластерный анализ» был введен в 1939 году английским ученым Р. Трионом, предложившим соответствующий метод, который сводился к поиску групп с тесно коррелирующим признаком в каждой из них.

Целью кластерного анализа является выделение сравнительно небольшого числа групп объектов, как можно более схожих между собой внутри группы, и как можно более отличающихся в разных группах. В настоящее время разработано достаточно большое число алгоритмов кластерного анализа. Однако, попробуем объяснить его суть, не прибегая к строгому теоретизированию.

Допустим, вы планируете провести опрос потребителей, (а все потребители разные), и вам, соответственно, необходимы различные стратегии для их привлечения. Для решения данной задачи мы предлагаем сегментировать клиентов, прибегнув к методу кластеризации. Для этого выполняем следующие шаги:

  1. формируем выборку и проводим опрос клиентов,
  2. определяем переменные (характеристики), по которым будем оценивать респондентов в выборке,
  3. вычисляем значения меры сходства и различия между ответами респондентов,
  4. выбираем метод кластеризации (т.е. правила объединения респондентов в группы),
  5. определяем оптимальное число кластеров (групп).

В результате получаем таблицу следующего содержания:

Информация, представленная в таблице, позволяет нам составить портрет клиентов каждого кластера, которые впоследствии необходимо учитывать при составлении стратегии успешного продвижения продукта на рынке.

  • В социологии: разделение респондентов на различные социально-демографические группы.
  • В маркетинге: сегментация рынка по группам потребителей, группировка конкурентов по факторам конкурентоспособности.
  • В менеджменте: выделение групп сотрудников с разным уровнем мотивации, выявление мотивирующих/демотивирующих факторов в организации, классификация конкурентоспособных отраслей и поставщиков, и др.
  • В медицине — классификация симптомов, признаков заболеваний, пациентов, препаратов для успешной терапии.
  • А также психиатрии, биологии, экологии, информатике и т.д.

Федеральное агентство связи Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» ___________________________________________________ Кафедра информационных систем и технологий КОНСПЕКТ ЛЕКЦИЙ ПО УЧЕБНОЙ ДИСЦИПЛИНЕ «АНАЛИЗ ДАННЫХ» по специальности (направлению подготовки): Информационные системы и технологии, Бизнес-информатика Самара 2013 УДК 004.02:004.6 Салмин А.А. Анализ данных. Конспект лекций. – Самара.: ФГОБУ ВПО «ПГУТИ», 2013. - 111 с. Рассматриваются вопросы анализа данных. Приводятся некоторые из основополагающих методик анализа данных, такие как: регрессионный анализ, корреляция, дисперсионный анализ и др. Отражены вопросы интеллектуального анализа данных, с помощью которого можно выявить ранее неизвестные, нетривиальные закономерности в данных. Рецензент: Тарасов В.Н. – д.т.н., профессор, зав. кафедрой «Программного обеспечения и управления в технических системах» ПГУТИ Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» © Салмин А.А., 2013 2 Содержание конспекта лекций ВВЕДЕНИЕ 5 1. ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ» 7 1.1. Работа с данными 7 1.2. Этапы решения задачи анализа данных и их взаимосвязи 9 2. РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ 18 2.1.Вероятность 18 2.2.Распределения вероятностей 20 2.3.Случайные переменные и случайные выборки данных 23 2.4.Нормальное распределение 24 2.5.Формула Байеса 25 3. СТАТИСТИКА ВЫВОДОВ 30 3.1.Доверительные интервалы 30 3.2.Проверка гипотез 32 3.2.1. Типы ошибок 33 3.2.2. Области принятия и непринятия 34 3.2.3. t-распределение 35 3.3. Применение непараметрического теста для парных данных 39 4. АНАЛИЗ ТАБЛИЧНЫХ ДАННЫХ 43 4.1. Сводные таблицы 43 4.2. Вычисление ожидаемого количества наблюдений 46 4.3. Статистика хи-квадрат Пирсона 48 5. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА 51 5.1. Понятие «регрессия» 51 5.2. Простая линейная взаимосвязь 52 5.2.1. Уравнение регрессии 52 5.2.2. Подгонка линии регрессии 54 5.2.3. Интерпретация параметров регрессии 57 5.3. Проверка модели регрессии 59 3 6. КОРРЕЛЯЦИЯ 63 6.1. Понятие «корреляции» 63 6.2. Матрица корреляции 65 6.3. Матрица точечных диаграмм корреляций 66 7. АППАРАТ МНОЖЕСТВЕННОЙ РЕГРЕССИИ 69 7.1. Уравнение множественной регрессии 69 7.2. Проверка допущений регрессии 73 7.3. Пошаговая регрессия 75 7.4. Логистическая регрессия 76 7.5. Нелинейная регрессия 77 8. ДИСПЕРСИОННЫЙ АНАЛИЗ 78 8.1. Однофакторный дисперсионный анализ 78 8.2. Однофакторный дисперсионный анализ и анализ регрессии 84 8.2. Двухфакторный дисперсионный анализ 86 9. КОГНИТИВНЫЙ АНАЛИЗ. ГРАФЫ 92 9.1. Когнитивный анализ 92 9.2. Методика когнитивного анализа сложных ситуаций 93 9.3. Регрессионно - когнитивный анализ 96 10. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ 99 10.1. Системы аналитической обработки данных 99 10.1.1. CRM – технология 99 10.1.2. ERP – системы 102 10.1.3. OLAP – технология 103 10.2. Интеллектуальный анализ данных (Data Mining) 105 10.2.1. Этапы исследования данных с помощью методов Data Mining 105 10.2.2. Типы закономерностей 106 10.2.3. Методы Data Mining 107 4 ВВЕДЕНИЕ Предлагаемый конспект лекций по дисциплине «Анализ данных» обеспечивает подготовку студентов к эффективному использованию современных компьютерных средств анализа данных. Предлагаются основные темы, посвященные формированию теоретических и практических навыков работы с пакетами прикладных программ для решения задач анализа и интерпретации данных для создания прогнозов ситуации и принятия управленческих решений. В рамках конспекта лекций по дисциплине рассматриваются различные способы создания, форматирования, описания базовых принципов работы с таблицами данных с целью их последующего анализа при помощи статистических и математических методов. Таким образом, у будущих специалистов осуществляется формирование основ теоретических знаний и практических навыков работы в области анализа данных и принятия управленческих решений. Следует также отметить тот факт, что в качестве программного обеспечения для усвоения курса предлагается использовать продукт MS Excel, который располагает достаточными средствами анализа данных, такими как: пакет анализа, общими статистическими функциями мастера функций и т.д. Кроме тог, предлагается дополнительно использовать подключаемый модуль StatPlus. Дисциплина «Анализ данных» базируется на знании предметов «Информационные технологии», «Электронные 5 таблицы», «Вероятность и статистика», изучаемых в образовательных учреждениях высшего образования. Элементы курса «Анализ данных» используются при изучении курсов «Моделирование систем», «Проектирование информационных систем», «Надежность информационных систем». Задача материала данного конспекта лекций в том, чтобы: - предоставить студентам общие сведения о принципах обработки и анализа данных с целью получения из них новых сведений; - показать методы, средства и технологии анализа данных; - показать на примере регрессионного анализа принцип получения новых знаний из данных. Знания и навыки, полученные в результате изучения данной дисциплины, могут быть применены: 1. при проведении анализа данных с целью получения статистической информации или прогноза ситуации; 2. для интерпретации полученных результатов в ходе анализа; 3. при формулировании технического задания при создании ИС силами профессиональных разработчиков. 6 1. ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ» 1.1. Работа с данными Данные – это воспринимаемые человеком факты, события, сообщения, измеряемые характеристики, регистрируемые сигналы. Специфика данных в том, что они, с одной стороны, существуют независимо от наблюдателя, а с другой – становятся собственно «данными» лишь тогда, когда существует целенаправленно собирающий их субъект. В итоге: данные должны быть тем основанием, на котором возводятся все заключения, выводы и решения. Они вторичны по отношению к цели исследования и предметной области, но первичны по отношению к методам их обработки и анализа, извлекающим из данных только ту информацию, которая потенциально доступна в рамках отобранного материала. Данные получаются в результате измерений. Под измерением понимается присвоение символов образцам в соответствии с некоторым правилом. Эти символы могут быть буквенными или числовыми. Числовые символы также могут представлять категории или быть числовыми. Различают 4 типа шкал измерений: 1) Шкала наименований. Эта шкала используется только для классификации. Каждому классу данных присваивается свое обозначение так, чтобы обозначения различных классов не совпадали. Например, классификация людей по полу М и Ж (1 и 2, 10 и 100) или категория да/нет. Причем арифметические операции не имеют смысла для шкал наименований. Для данной шкалы 7 центром измерения является мода (часто повторяющийся элемент). 2) Порядковая шкала. Данная шкала позволяет не только разбивать данные на классы, но и упорядочить сами классы. Каждому классу присваивается различные обозначения так, чтобы порядок обозначений соответствовал порядку классов. Если мы нумеруем классы, то классы находятся в числовом порядке; если обозначаем классы по средствам букв, то классы находятся в алфавитном порядке. Например, необходимо идентифицировать индивидуумы по трем социально- экономическим категориям – низкий, средний, высокий: 1 – низкий, 2- средний, 3 – высокий; или X – низкий, Y – средний, Z – высокий. Применяются любые обозначения цифр или букв. Арифметические операции для этой шкалы также не имеют смысла. 3) Интервальная шкала. Эта шкала позволяет не только классифицировать и упорядочивать данные, но и количественно оценивать различие между классами. Для проведения таких сравнений необходимо ввести единицу измерения и произвольное начало отсчета (нуль- пункт). Например, температура в градусах Фаренгейту принадлежит интервальной шкале, где 0F является началом, 1F - единицей измерения. 4) Шкала отношений. Эта шкала отличается от интервальной шкалы лишь тем, что в ней задано абсолютное начало отсчета. Т.е. в данной шкале можно определить, во сколько раз одно измерение превосходит другое. Например: рост человека в дюймах принадлежит шкале отношений, в которой в которой 0 дюймов есть фиксированное начало отсчета, а 1 дюйм – единица измерения. 8 Кроме того, наблюдения делятся на: дискретные и непрерывные. Именованные и порядковые данные всегда дискретны, а интервальные и относительные могут быть как дискретными, так и непрерывными. Например, непрерывные: стрельба по мишени (любой исход), температура (интервальная шкала); дискретные: игральная кость (1, 2, 3 …6), монета (орел/решка), число телефонных вызовов за один час (шкала отношений) (рис. 1.1). Рис. 1.1. Дискретные и непрерывные данные 1.2. Этапы решения задачи анализа данных и их взаимосвязи Анализ данных – это совокупность методов и средств извлечения из организованных данных информации для принятия решений. Основные этапы решения задачи анализа данных показаны в левой части рис. 1.2. В правой части каждый из них разбит на более мелкие стадии. 9 Этап 1 1.1. Определение цели Постанов- исследования ка задачи 1.2. Определение состава данных 1.3. Сбор данных 1.4. Выбор средств анализа данных 1.5. Формализация данных Этап 2 2.1. Ввод данных в память Ввод ЭВМ данных в 2.2. Работа с архивом данных обработку 2.3. Формирование задания обработки Этап 3 3.1. Определение Качествен- простейших характеристик ный данных анализ 3.2. Визуализация данных 3.3. Анализ структуры данных Этап 4 4.1. Выбор модели данных Количест- 4.2. Выполнение обработки венное описание данных Этап 5 5.1. Анализ результатов Интерпрет 5.2. Принятие решений ация резуль- татов Рис. 1.2. Этапы анализа данных Постановка задачи (является определяющим этапом, от которого зависит весь ход анализа) начинается со стадии формулировки цели всего 10