Кто такой аналитик баз данных. Наука о данных. Олег Михальский о российском рынке и специфике создания нового продукта в сфере больших данных

  • 27.06.2020

Управление данными – это процесс, который подразумевает сбор, хранение, обработку и интерпретацию накопленных данных. Сегодня для многих компаний управление данными – это отличная возможность понять данные, которые уже собраны, «узнать» конкурентов, выстроить предикативную аналитику (прогнозирование), ответить на многие вопросы бизнеса.

Управление данными

Что включает управление данными? Перечислим основные процессы:

  • Управление базами данных
  • ETL-процессы (извлечение, преобразование и загрузка данных)
  • Сбор данных
  • Защита и шифрование данных
  • Моделирование данных
  • Собственно анализ данных

Исходя из вышеперечисленного становится ясно, что для успешного управления данными необходимо:

  • Решить технические вопросы (выбрать базу данных, определить, где будут храниться данные – в облаке, на сервере и т.д.)
  • Найти грамотные человеческие ресурсы 🙂

Основные проблемы при управлении данными

Среди самых распространенных ошибок и трудностей, которые возникают при сборе, хранении и интерпретации данных, называют:

  • Неполные данные
  • «Задваивание» данных (причем нередко противоречащих друг другу)
  • Устаревшие данные

Во многих вопросах на этапе сбора загрузки данных может помочь такой продукт, как , который помогает соединять данные из разных источников, обогащать и готовить их к использованию в системах Business Intelligence.

Анализ данных

У вас уже есть подходящий объем нужных и важных данных? Теперь, помимо хранения, их нужно анализировать. Анализ данных поможет ответить на многие вопросы бизнеса, принять взвешенные решения, «увидеть» своего покупателя, оптимизировать складские и логистические процессы. В общем, анализ данных важен и нужен в любой сфере, любой компании, на любом уровне.

Решение для анализа данных состоит из трех основных блоков:

  • Хранилище данных;
  • ETL-процедуры (извлечение, преобразование и загрузка данных);
  • Система отчетности и визуальной аналитики.

Все это кажется достаточно сложным, но на самом деле не все так страшно.

Современные аналитические решения

Что делать компаниям, у которых нет штата аналитиков? И нет программиста-разработчика? Но есть желание делать аналитику!

Конечно, решение есть. Сейчас на рынке представлено достаточно автоматизированных систем для аналитики и – что важно! – визуализации ваших данных.

В чем плюсы таких систем (типа ):

  • Возможность быстро внедрить (скачивайте программу и устанавливаете хотя бы к себе на ноутбук)
  • Нет необходимости в сложных IT- или математических знаниях
  • Невысокая стоимость (от 2 000 руб. в месяц за лицензию на март 2018 года)

Таким образом, внедрить такой аналитический продукт может любая компания: неважно, сколько сотрудников в ней работает. Tableau подходит и индивидуальным предпринимателям, и крупным компаниям. В апреле 2018 года ООН выбрала Tableau в качестве аналитической платформы для всех своих офисов по всему миру!

Компании, которые работают с такими автоматизированными системами аналитики, отмечают, что табличные отчеты, которые раньше строились за 6 часов, в Tableau собираются буквально за 10-15 минут.

Не верите? Попробуйте сами – скачайте бесплатную пробную версию Tableau и получите обучающие материалы по работе с программой:

Скачать Tableau

Скачайте БЕСПЛАТНО полную версию Tableau Desktop, 14 дней и получите в ПОДАРОК обучающие материалы по бизнес-аналитике Tableau

Подборка сайтов с бесплатными уроками по изучению больших данных.

В закладки

Средняя зарплата дата-аналитика, по данным HeadHunter, - 120 тысяч рублей. В материале выделены основные требования в вакансиях дата-аналитиков и места, где можно получить навыки в этой области бесплатно.

Кто такие дата-аналитики

Специалисты по работе с большими данными умеют извлекать полезную информацию из всевозможных источников и анализировать её для принятия бизнес-решений. Как правило, аналитики сталкиваются с разрозненной информацией, поэтому важно уметь извлекать нужные данные.

Сейчас профессия дата-аналитика считается одной из самых привлекательных и перспективных в мире. Чтобы стать хорошим аналитиком, нужно больше разбираться в статистике, чем в программировании. Потому что во время работы приходится строить математические модели, которые опишут проблему и фактические данные.

Дата-аналитик работает со случайными величинами и вероятностными моделями, его задача - найти неожиданные закономерности. Поэтому знание теории вероятностей и математической статистики - одно из главных требований к соискателям.

Также необходимо знать языки программирования R или Python и иметь представление о технологиях обработки больших данных. Этих знаний достаточно, чтобы претендовать на начальную позицию дата-аналитика.

Чтобы стать хорошим аналитиком, надо не только разбираться в программировании или статистике, но и отлично знать продукт, а главное, уметь проверять и предлагать гипотезы. Большие данные при правильном применении содержат огромное количество классных инсайтов и идей, как улучшить продукт или определить, что важно.

Но у большинства задач нет однозначного решения или алгоритма: в этом плане анализ данных - работа очень творческая. Важно и умение выбрать правильную визуализацию. Одни и те же данные могут выглядеть случайным набором точек или же рассказать много интересного при правильном подходе.

Во «ВКонтакте» мы работаем с огромными объёмами данных - более 20 млрд измерений в сутки. Информацию собираем на кластер Hadoop и используем различные инструменты для обработки: ответы на простые вопросы нам даёт Hive, а более сложную аналитику помогают осуществлять Spark, Pandas, Sklearn.

Для анализа продуктовых и технических метрик и A/B-экспериментов также используем разработанную нашей командой систему сбора данных, агрегации и визуализации. Благодаря анализу данных мы ежедневно проверяем десятки продуктовых гипотез и проводим сотни экспериментов, которые позволяют нам постоянно совершенствовать продукт, делать наши сервисы более удобными и персонализированными.

Например, в 2015 году мы начали анализировать активность пользователей в ленте новостей и смотреть, что можно улучшить. После большого количества исследований мы пришли к выводу, что можем сделать всё существенно удобнее, и в 2016 году запустили «умную» ленту, максимально интересную и полезную для каждого пользователя.

Мы постоянно продолжаем анализировать активность аудитории. В какой-то момент мы на практике обнаружили, что пользователям хочется расширять свой круг интересов и знакомиться с новыми авторами. Поэтому в 2017 году был запущен раздел «Рекомендации». И сейчас, анализируя растущую активность в новом сервисе, мы видим, что это было правильное решение.

Андрей Законов

Директор по росту и исследованиям «ВКонтакте»

Знание Python и R

Курс «Изучение Python »

Язык : английский.

Уровень : начальный.

Интерфейс Codecademy

Онлайн-платформа Codecademy предлагает интерактивное изучение Python: на одной странице объясняется краткая теоретическая информация и интерпретатор кода. Курс рассчитан на начинающих пользователей и рассказывает о базовых командах языка программирования.

Курс предоставляется условно-бесплатно: получить доступ к контрольным заданиям и работе над проектами можно только по платной подписке. Бесплатные уроки подойдут, чтобы изучить простые конструкции и разобраться в синтаксисе языка.

Самоучитель «Python 3 для начинающих »

Язык : русский.

Уровень : начальный.

Самоучитель Мусина - одна из крупных баз знаний про Python на русском языке. На сайте находится информация о модулях, материалы про анализ данных с помощью библиотеки Pandas, теоретическая информация, примеры задач и полезные ссылки. Также на основе опубликованных статей подготовлен самоучитель в PDF-формате.

Курс «Программирование на Python »

Язык : русский.

Уровень : начальный.

На курсе преподаватели знакомят с базовыми понятиями программирования. В качестве домашних заданий предлагается большой объём практических задач - все решения проверяет автоматическая система. При этом преподаватели не дают индивидуальные консультации. В курс также вошли задачи повышенной сложности, которые необязательно решать, чтобы пройти курс.

Курс «Python: основы и применение »

Язык : русский.

Уровень : средний.

Требования : базовые навыки программирования на Python или других языках программирования.

Студенты курса изучают фундаментальные основы языка: как интерпретатор исполняет код, где он хранит переменные и данные, как определяются собственные типы данных и функции. Курс рассчитан на пользователей, которые знакомы с базовыми навыками программирования.

Проверочные задачи в курсе разделены на два типа: на закрепление материала и поиск способов для применения изученных навыков. Решения проверяются системой.

Курс «Основы программирования на Python »

Язык : английский.

Уровень : начальный.

Слушатели изучают три базовые темы: использование функций, создание и использование классов. Последний урок посвящён созданию собственных проектов. Обучение строится на работе над мини-проектами и изучении важных концепций. Курс нацелен на тех, кто хочет стать программистом или планирует с ними работать.

Курс «Основы программирования на R »

Язык : русский.

Уровень : начальный.

В этом курсе преподаватели рассматривают R как язык программирования, а не как инструмент решения конкретных задач. Слушатели изучают основные типы данных и универсальные семантические правила, а также темы, связанные с анализом и обработкой данных.

Курс «Анализ данных в R »

Язык : русский.

Уровень : средний.

Требования : базовые знания в области статистики.

Преподаватели объясняют основные этапы анализа данных с помощью языка R. Студентам расскажут об основных этапах статистического анализа R, считывании и предварительной обработке данных, применении основных статистических методов и визуализации результатов.

Курс «Программирование на R в науке о данных »

Язык : английский.

Уровень : средний.

Требования : курс ориентирован на аналитиков, которым необходимо знание R для работы над статистическими проектами.

Курс разработан Microsoft вместе с Техническим университетом Дании. В курсе рассказывают про основы R, учат читать и записывать данные, работать с ними и получать результаты. Также преподаватели объясняют, как выполнять интеллектуальную аналитику с помощью R и визуализировать данные.

Проект DataCamp

Язык : английский.

Уровень : начальный.

Интерфейс системы обучения DataCamp

DataCamp предлагает интерактивные курсы изучения R и Python по темам в области науки, статистики и машинного обучения. Проект делает упор на работу с данными. DataCamp сотрудничает с RStudio, Continuum Analytics, Microsoft, привлекает преподавателей из компаний-лидеров Pfizer, Liberty Mutual, H2O, DataRobot и других.

Бесплатная подписка открывает доступ к базовым курсам и первой главе платных. Чтобы получить неограниченный доступ, нужно купить подписку за $29 в месяц или за $300 в год.

Знания в области статистики и машинного обучения

Курс «Основы статистики »

Язык : русский.

Уровень : начальный.

На курсе изучают подходы к описанию данных, полученных в ходе исследований, базовые понятия статистического анализа, интерпретацию и визуализацию полученных данных. Основной акцент делается на математических идеях, интуиции и логике, которые обуславливают методы и расчётные формулы.

Курс «Алгоритмы: теория и практика. Методы »

Язык : русский.

Уровень : средний.

Требования : знания в области одного из языков программирования: циклы, массивы, списки, очереди.

В курсе разбираются базовые алгоритмические методы: «жадные» алгоритмы, метод «разделяй и властвуй», динамическое программирование. Для всех методов преподаватели показывают математическое доказательство корректности и оценки времени работы.

Также на курсе рассказывают об особенностях реализации алгоритмов на C++, Java и Python. Большинство алгоритмов, которые рассматриваются на курсе, необходимо запрограммировать в рамках выполнения заданий.

Курс «Введение в описательную статистику »

Язык : английский.

Уровень : начальный.

Слушатели курса познакомятся с основными понятиями, используемыми для описания данных. Преподаватели расскажут о методах исследований, научат вычислять и интерпретировать статистические значения, вычислять простые вероятности. Студенты изучат законы распределения и научатся управлять ими для создания вероятностных прогнозов данных.

Курс «Введение в статистический вывод »

Язык : английский.

Уровень : начальный.

Требования : прохождение курса «Введение в описательную статистику».

Курс посвящён изучению вывода неочевидных данных. Студенты изучат оценку параметров с использованием выборочной статистики, научатся тестировать гипотезы и доверительные интервалы. Преподаватели объяснят работу t-критерия и дисперсионный анализ, корреляцию и регрессию, а также другие методы проверки статистических гипотез.

Курс «Введение в науку о данных »

Язык : английский.

Уровень : средний.

Требования : базовые навыки программирования на Python.

Слушатели курса изучат основные понятия науки о данных: управление данными, анализ данных с помощью методов статистики и машинного обучения, передача и визуализация информации, работа с большими данными.

Курс «Введение в машинное обучение »

Язык : русский.

Уровень : средний.

Требования : знание основ математики (функции, производные, векторы, матрицы), навыки программирования на Python.

На курсе рассматриваются основные типы задач, решаемых с помощью машинного обучения: классификация, регрессия и кластеризация. Слушатели научатся оценивать качество моделей и решать, подходит ли модель для решения конкретной задачи. Преподаватели расскажут о современных библиотеках, в которых реализованы изучаемые модели и методы оценки их качества.

Курс «Науки о данных: визуализация »

Язык : английский.

Уровень : начальный.

В курсе изучаются основы визуализации данных и анализа поисковых данных. Слушатели научатся использовать пакет R ggplot2 для создания пользовательских графиков. Также преподаватель расскажет об основных ошибках, которые допускаются при работе с данными.

Курс «Введение в искусственный интеллект »

Язык : английский.

Уровень : начальный.

Требования : практические задания основаны на Microsoft Azure и требуют подписки Azure.

Слушатели курса узнают, как использовать машинное обучение для построения прогностических моделей. Преподаватели курса расскажут, какое программное обеспечение необходимо для обработки и анализа естественного языка, изображений и видео. Также студенты научатся создавать интеллектуальных чат-ботов.

Курс «Машинное обучение »

Язык : английский.

Уровень : начальный.

Слушатели курса узнают об эффективных методах машинного обучения и получат практические навыки их реализации. Также преподаватели расскажут о лучших практиках Кремниевой долины в области машинного обучения и искусственного интеллекта.

Курс даёт широкое введение в машинное обучение, интеллектуальный анализ данных и распознавание статистических моделей. Курс основывается на тематических исследованиях и практическом опыте - студенты узнают, как использовать алгоритмы обучения для построения «умных» роботов, анализировать текст, получат навыки в области компьютерного зрения, медицинской информатики, аудио, интеллектуального анализа баз данных и других областей.

Обработка больших данных

Курс «Hadoop. Система для обработки больших объёмов данных »

Язык : русский.

Уровень : средний.

Hadoop - одна из популярных open-source систем для обработки больших объёмов данных. Среди пользователей системы - Facebook, Twitter, Yahoo!, Bing, Mail.ru. Слушатели изучат основные способы хранения и методы обработки больших объёмов данных. Также студенты курса научатся разрабатывать приложения, используя программную модель MapReduce.

Курс «Введение в Hadoop и MapReduce »

Язык : английский.

Уровень : средний.

Особые требования

Слушатели курса изучат основы работы с Hadoop и узнают, как его использовать для работы с большими данными. Преподаватели расскажут, какие проблемы решает Hadoop, объяснят концепции HDFS и MapReduce. По итогам курса студенты научатся писать программы с использованием MapReduce и получат опыт самостоятельного решения проблем.

Курс «Преобразование данных с помощью MongoDB »

Язык : английский.

Уровень : средний.

Особые требования : базовые навыки программирования в Python.

Преобразование данных - это процесс очистки данных для облегчения дальнейшей работы с ними. До сих пор некоторые учёные тратят на это большую часть времени. Студенты курса узнают, как собирать и извлекать данные из широко используемых форматов. Слушатели научатся оценивать качество данных и изучат лучшие методы очистки данных с помощью MongoDB - одной из ведущих баз данных NoSQL.

Работа с большими данными

UCI Machine Learning

Ресурс поддерживает 425 наборов данных для сообщества по машинному обучению. Сервис предлагает качественные, реальные и понятные наборы данных машинного обучения, которые можно использовать для практического изучения методов машинного обучения.

Kaggle

Платформа предлагает соревнования для исследователей разного уровня подготовки, где они могут опробовать свои модели на серьёзных и актуальных данных. Kaggle предусматривает денежное вознаграждение за лучшее решение.

Список KDnuggets

KDnuggets - один из ведущих сайтов по бизнес-аналитике, большим данным, интеллектуальному анализу, науке о данных и машинному обучению. Авторы проекта собрали на одной странице 78 источников открытых данных для обработки.

Список Джо Рикерта

Джо Рикер - один из постоянных участников R-сообщества. Он собрал список сайтов, на которых можно найти открытые данные для анализа в системе R.

Мы попросили ИТ-инженера Центра компетенций по супермассивам данных в «Сбербанк-Технологиях» Диану Борисову прокомментировать список и рассказать о других понравившихся курсах.

Самоучитель «Python 3 для начинающих» - отличные уроки. Материал разложен кратко и по теме. К этому сайту обращаются не только начинающие программисты, но также опытные ребята.

Курс «Программирование на Python» подойдёт людям, начинающим изучать Python. Имеет место, но не самый лучший. Основы рассказываются долго - лучше обратиться к самоучителю.

Из плюсов - задачи развивают алгоритмическое мышление, минус - не самое оптимальное решение некоторых задач (зная определённые функции можно решить в две строчки вместо 15).

О «Python: основы и применение» слышала много хороших отзывов. Для начинающих будет сложно. Поэтому он больше подойдёт тем, кто знаком с основами.

«Основы программирования на R» - неплохой курс для тех, кто начинает изучать R. Понятное и структурированное изложение, есть практические задания, обращают внимание на важные мелочи.

Курс «Анализ данных в R» ведёт крутой преподаватель, и курс тоже отличный. После изучения математической статистики и основ программирования на R этот курс нужно пройти обязательно

«Основы статистики» - отличный курс для начинающих. Теория изложена на простых и понятных примерах без погружения в доказательства и без огромного количества формул. Практика помогает закрепить теорию.

Курс «Алгоритмы: теория и практика. Методы» организован Computer Science Center, известным своим хорошим изложением теории программирования. Александр - один из лучших преподавателей центра.

Курс подходит для тех, кто уже имеет какое-то представление об алгоритмах. Практические задания помогают закрепить материал, над некоторыми задачами придётся посидеть подольше.

Лучше Андрея Райгородского - преподавателя курса - никто не объяснит эту тему. Разжёвывает всё, даёт понятные примеры. Курс однозначно стоит внимания.

После основ статистики можно продолжить углублять знания в данной теме и пройти второй курс. Анатолий Карпов излагает материал максимально понятно и просто.

Очередной отличный курс от Института биоинформатики. Для начинающих, возможно, будет немного сложно. Но курс в любом случае стоит внимания.

Сайт поможет изучить основы программирования на Python. Работа проходит прямо в браузере. Сначала читаешь статью, затем решаешь много практических задач от легкого уровня к сложному.

Курс с хорошими отзывами. Думаю, что для тех, у кого хромает математический аппарат, курс обязателен к изучению. Ничего лучше теории в сочетании с практикой придумать нельзя.

Диана Борисова

ИТ-инженер в Центре компетенций по супермассивам данных «Сбербанк-Технологий»

Юлия Перминова

Тренер Учебного центра Softline с 2008 года.

Базовый инструмент для работы с огромным количеством неструктурированных данных, из которых можно быстро сделать выводы и не возиться с фильтрацией и сортировкой вручную. Сводные таблицы можно создать с помощью нескольких действий и быстро настроить в зависимости от того, как именно вы хотите отобразить результаты.

Полезное дополнение. Вы также можете создавать сводные диаграммы на основе сводных таблиц, которые будут автоматически обновляться при их изменении. Это полезно, если вам, например, нужно регулярно создавать отчёты по одним и тем же параметрам.

Как работать

Исходные данные могут быть любыми: данные по продажам, отгрузкам, доставкам и так далее.

  1. Откройте файл с таблицей, данные которой надо проанализировать.
  2. Перейдите на вкладку «Вставка» → «Таблица» → «Сводная таблица» (для macOS на вкладке «Данные» в группе «Анализ»).
  3. Должно появиться диалоговое окно «Создание сводной таблицы».
  4. Настройте отображение данных, которые есть у вас в таблице.

Перед нами таблица с неструктурированными данными. Мы можем их систематизировать и настроить отображение тех данных, которые есть у нас в таблице. «Сумму заказов» отправляем в «Значения», а «Продавцов», «Дату продажи» - в «Строки». По данным разных продавцов за разные годы тут же посчитались суммы. При необходимости можно развернуть каждый год, квартал или месяц - получим более детальную информацию за конкретный период.

Набор опций будет зависеть от количества столбцов. Например, у нас пять столбцов. Их нужно просто правильно расположить и выбрать, что мы хотим показать. Скажем, сумму.

Можно её детализировать, например, по странам. Переносим «Страны».

Можно посмотреть результаты по продавцам. Меняем «Страну» на «Продавцов». По продавцам результаты будут такие.

Этот способ визуализации данных с географической привязкой позволяет анализировать данные, находить закономерности, имеющие региональное происхождение.

Полезное дополнение. Координаты нигде прописывать не нужно - достаточно лишь корректно указать географическое название в таблице.

Как работать

  1. Откройте файл с таблицей, данные которой нужно визуализировать. Например, с информацией по разным городам и странам.
  2. Подготовьте данные для отображения на карте: «Главная» → «Форматировать как таблицу».
  3. Выделите диапазон данных для анализа.
  4. На вкладке «Вставка» есть кнопка 3D-карта.

Точки на карте - это наши города. Но просто города нам не очень интересны - интересно увидеть информацию, привязанную к этим городам. Например, суммы, которые можно отобразить через высоту столбика. При наведении курсора на столбик показывается сумма.

Также достаточно информативной является круговая диаграмма по годам. Размер круга задаётся суммой.

3. Лист прогнозов

Зачастую в бизнес-процессах наблюдаются сезонные закономерности, которые необходимо учитывать при планировании. Лист прогноза - наиболее точный инструмент для прогнозирования в Excel, чем все функции, которые были до этого и есть сейчас. Его можно использовать для планирования деятельности коммерческих, финансовых, маркетинговых и других служб.

Полезное дополнение. Для расчёта прогноза потребуются данные за более ранние периоды. Точность прогнозирования зависит от количества данных по периодам - лучше не меньше, чем за год. Вам требуются одинаковые интервалы между точками данных (например, месяц или равное количество дней).

Как работать

  1. Откройте таблицу с данными за период и соответствующими ему показателями, например, от года.
  2. Выделите два ряда данных.
  3. На вкладке «Данные» в группе нажмите кнопку «Лист прогноза».
  4. В окне «Создание листа прогноза» выберите график или гистограмму для визуального представления прогноза.
  5. Выберите дату окончания прогноза.

В примере ниже у нас есть данные за 2011, 2012 и 2013 годы. Важно указывать не числа, а именно временные периоды (то есть не 5 марта 2013 года, а март 2013-го).

Для прогноза на 2014 год вам потребуются два ряда данных: даты и соответствующие им значения показателей. Выделяем оба ряда данных.

На вкладке «Данные» в группе «Прогноз» нажимаем на «Лист прогноза». В появившемся окне «Создание листа прогноза» выбираем формат представления прогноза - график или гистограмму. В поле «Завершение прогноза» выбираем дату окончания, а затем нажимаем кнопку «Создать». Оранжевая линия - это и есть прогноз.

4. Быстрый анализ

Эта функциональность, пожалуй, первый шаг к тому, что можно назвать бизнес-анализом. Приятно, что эта функциональность реализована наиболее дружественным по отношению к пользователю способом: желаемый результат достигается буквально в несколько кликов. Ничего не нужно считать, не надо записывать никаких формул. Достаточно выделить нужный диапазон и выбрать, какой результат вы хотите получить.

Полезное дополнение. Мгновенно можно создавать различные типы диаграмм или спарклайны (микрографики прямо в ячейке).

Как работать

  1. Откройте таблицу с данными для анализа.
  2. Выделите нужный для анализа диапазон.
  3. При выделении диапазона внизу всегда появляется кнопка «Быстрый анализ». Она сразу предлагает совершить с данными несколько возможных действий. Например, найти итоги. Мы можем узнать суммы, они проставляются внизу.

В быстром анализе также есть несколько вариантов форматирования. Посмотреть, какие значения больше, а какие меньше, можно в самих ячейках гистограммы.

Также можно проставить в ячейках разноцветные значки: зелёные - наибольшие значения, красные - наименьшие.

Надеемся, что эти приёмы помогут ускорить работу с анализом данных в Microsoft Excel и быстрее покорить вершины этого сложного, но такого полезного с точки зрения работы с цифрами приложения.

Рассказываем о тех, кто работает с большими данными, и знаниях, которые для этого необходимы.

Существует стереотип, что с большими данными работают исключительно IT-департаменты, программисты и математики. На деле эта молодая индустрия включает в себя довольно много профессий: от инженера до специалиста по data storytelling. В рамках спецпроекта совместно с IE Business School T&P поговорили с Джозепом Курто, аналитиком, бизнес-консультантом и предпринимателем, о мультифункциональности, возможности влиять на глобальные процессы и больших данных в сельском хозяйстве.

Джозеп Курто

управляющий независимой консалтинговой компанией Delfos Research, ассоциированный профессор IE School of Social, Behavioral & Data Sciences

- Специалист по Big Data - кто это?

Есть мнение, что специалист по Big Data - это суперпрофессионал, сверхчеловек с огромным количеством разных навыков. В какой-то степени это правда, ведь, помимо всего прочего, он должен неплохо разбираться в бизнесе. Безусловно, одному человеку сложно знать вообще все, так что мы чаще всего работаем в командах - это гораздо продуктивнее. Например, одна моя коллега - специалист только по визуализации данных и data storytelling. Она создает потрясающую инфографику, с помощью которой может рассказать любую историю в цифрах. Главное - иметь 360-градусный угол зрения, который появляется с опытом. Мне самому потребовалось на это почти 15 лет.

- Какой бэкграунд лучше иметь, если вы хотите работать с большими данными?

В Big Data существует очень много разных ролей: например, вы можете быть Big Data Engineer (то есть инженером) или аналитиком, и это совсем разные функции. Базовые вещи - это знание математики, статистики и информатики.

- Опишите основные этапы работы специалиста по Big Data?

Мы работаем с самыми разными направлениями: финансы, ретейл, правовые отрасли. Одна из важнейших ролей - это стратег: на первом этапе большинство компаний просто не знают, как начать работать с большими данными. Более того, иногда очень сложно понять, какая именно проблема в компании связана с этими данными и как ее решить.

Для начала самое главное - определить проблему, с которой столкнулась компания. Мы проводим воркшопы, на которых рассказываем о возможностях Big Data. В процессе работы мы должны трансформировать работу в компании, но наша первоочередная задача - решить проблему. Мы беседуем с клиентом, задаем множество вопросов о всех сферах деятельности. В процессе этих бесед появляются огромные списки пунктов и задач, которые мы будем учитывать и над которыми будем работать. Основная цель, которую мы преследуем, работая с Big Data, - возможность лучше понимать потребителя, продукт, сотрудников, поставщиков. Big Data охватывает все сферы деятельности компании.

После сбора информации мы обсуждаем все проблемные моменты и понимаем, связаны ли они с большими данными. Некоторые проблемы могут быть связаны с чем-то другим - например, с недостаточной мотивацией сотрудников. Так что мы должны сократить весь список и оставить в нем только проблемы, которые касаются нашей компетенции. Если вы хотите узнать больше о ваших продажах, это значит, что вы должны иметь возможность вести их учет. Иногда это довольно трудно. К примеру, в магазинах вы должны иметь возможность учитывать каждую покупку. Но это не проблема Big Data. Это значит, что вы должны просто приобрести систему для учета покупок. Иногда в компании должен произойти ряд существенных изменений для того, чтобы специалист по Big Data мог начать работу.

Следующий шаг - составление списка рекомендаций. После этого мы обсуждаем дальнейшую стратегию компании, какой ее хотят видеть управляющие. Внедрение Big Data - это не просто привлечение одного специалиста, это изменение мышления всех сотрудников. Очень важно, чтобы все понимали, что делает тот парень, который называет себя специалистом по Big Data. Очень важно развеять миф о том, что Big Data - это просто какая-то часть IT-департамента. После определения стратегии мы предлагаем пути ее внедрения.

- Какими основными навыками должен обладать специалист по Big Data?

Главное - это умение работать с большим объемом информации и знание технологий: их уже сотни, и каждый месяц появляются новые. В то же время он должен обладать научным мышлением, быть очень любознательным. Очень важно уметь мыслить в терминах бизнеса. Напомню, что можно быть узким специалистом в чем-либо и быть полезным членом команды, отвечая за свою часть процесса.

- Где чаще всего работают такие специалисты?

Нас очень часто привлекают в качестве экспертов; очень многие мои коллеги совмещают научную работу с преподавательской деятельностью.

- Какие отрасли больше всего нуждаются в Big Data?

Я считаю, что абсолютно все. В последнее время к Big Data все чаще прибегают в банковском секторе, государственном управлении, сельском хозяйстве. Привлечение специалиста по Big Data - это возможность посмотреть на имеющиеся данные с разных углов зрения. Иногда со студентами мы рассматриваем очень простые наборы данных - например, таблицы, состоящие всего из трех столбцов (дата, номер покупателя и сумма покупки). Несмотря на то что это может показаться примитивным, я показываю студентам, как много новой информации они могут из этого получить. Даже если у вас не так много данных, вы можете делать прогнозы и выводы.

- Как должно измениться образование для подготовки специалистов по Big Data?

Главное - это подготовка мультифункциональных специалистов. Важно уделять достаточно внимания математике и информатике, изучать новые технологии, подходы (например, NoSQL). Самое важное - аналитическое мышление. Это первое, чему я учу своих студентов. Специалист по Big Data знает математику, технологии и критически мыслит. Важно помнить - вы никогда не сможете знать все, это невозможно, но вы должны уметь искать и анализировать информацию.

- В какой самой необычной области вам приходилось работать?

Без сомнения, это сельское хозяйство. В этой отрасли множество самых разнообразных процессов, при этом они совершенно не готовы к новым технологиям. Нужно научиться говорить на их языке и понять, какие задачи стоят перед компаниями. Например, очень часто встречается задача снизить потребление воды, которая используется в сельском хозяйстве каждый день в огромных количествах. Иметь возможность помочь в решении таких задач - это потрясающе. Сельскохозяйственные организации вынуждены быть прагматичными, в этом им помогает Big Data.

Специалисты по Big Data - это новый тип профессионалов. Вы должны понимать, что самое потрясающее в этой работе - это возможность очень сильно влиять на глобальные процессы. Это что-то вроде работы детектива. Вы определяете, что произошло, где и почему. Вы можете помочь компаниям понять, почему они теряют деньги и клиентов, как в дальнейшем этого избежать и увеличить прибыль.

Юрий Котиков

консультант по стратегии в Ericsson, выпускник программы Master in Management IE Business School

Не могу не согласиться с коллегой. Действительно, Big Data в организациях начинается прежде всего не с закупки дорогостоящего оборудования, программных решений или анализа массивов данных, а с определения целей, которых можно достигнуть средствами аналитики, а также с правильного подхода к процессам их реализации.

Например, практически все ведущие мировые мобильные операторы создают под Big Data выделенные подразделения, имеющие свободный доступ к данным внутри компании, а также поддержку топ-менеджмента и акционеров. Это является одним из ключевых факторов успеха в Big Data проектах, которые затрагивают множество функций и влекут значительные изменения в процессах компаний.

Методологически важным фактором является так называемый Lean Startup Approach - гибкий подход к решению задач бизнеса с помощью Big Data. Вместо длительного процесса разработки конечной сложной модели или продукта, основанного на больших данных, необходимо двигаться маленькими итерациями и быстрыми победами, получая регулярную обратную связь от ключевых заказчиков решения. Например, компания Telefonica, разрабатывая свое решение Smart Steps с использованием агрегированных данных о местоположении абонентов, изначально ориентировалась на компании розничной торговли. Оператор планировал предоставлять клиентам данные о перемещении людей на определенных улицах города. Благодаря регулярной обратной связи Telefonica смогла принять решение о необходимом стратегическом вираже, изменив фокус продукта на анализ пассажиропотоков для транспортного сектора.

Если говорить про специалистов в области Big Data, то, на наш взгляд, ключевым качеством как для технических, так и для управленческих специалистов является кроссфункциональность. Обладать полным спектром навыков в области анализа данных практически невозможно. Однако технические специалисты должны иметь общее представление о функционировании бизнеса, а менеджеры - понимание базовых принципов аналитики. Поэтому образовательные программы в области больших данных, совмещающие как техническую часть, так и бизнес-аспекты и погружение в определенные индустрии, имеют хорошие шансы подготовить востребованные рынком кадры.

Рекомендованная учебная программа: Master in Business Analytics and Big Data

Магистратура Business Analytics and Big Data - современная программа, направленная на погружение в четыре области знаний, связанных со сферами бизнес-аналитики и больших данных: Big Data Technologies, Data Science, Business Transformation, Professional Skills. Программа состоит из трех триместров, каждый из которых заканчивается практическим проектом, среди которых - Big Data стартап и консалтинговый проект.

Компании ищут динамичных профессионалов с разным бэкграундом - опытом работы в бизнесе, IT, знающих экономику, математику и смежные науки и способных работать с информацией: собирать, анализировать и интерпретировать данные.

Огромное разнообразие различных платформ и инструментов для анализа данных может поставить в тупик любого специалиста, перед которым стоит задача построения бизнес процесса на основе продвинутого анализа данных предприятия. Сегодня машинное обучение и глубокий анализ данных уже не является чем-то новым. Это обязательный пункт, без которого бизнес не сможет нормально конкурировать в современном мире. Анализ собираемой информации — ключ к улучшению показателей бизнеса. Но для этого нужно располагать и оперировать инструментами для анализа данных. Какими? Давайте рассмотрим этот вопрос. Мы собрали для вас наиболее полный список представленных на рынке фреймворков, платформ, решений и систем продвинутой аналитики.

Кажется, что низкая стоимость распределенных вычислений и быстрота обработки делают Hadoop для Больших Данных примерно таким же по значимости решением, как и все остальные вместе взятые программные продукты. Любой перечень платформ Big Data с открытым исходным кодом действительно начинается с «железнорожденного слона», но Hadoop — не единственный краеугольный камень.

1 Hadoop

Presto поддерживает ANSI SQL, а это значит, что вдобавок к JSON, ARRAY, MAP и ROW, можно использовать стандартные типы данных SQL, функционал оконного интерфейса, статистические и аппроксимативные агрегатные функции.

По сравнению с Hive, у Presto есть недостаток: более активное участие в разработке, построении и развертывании определенных пользователем функций. Тем не менее, Presto считается одним из лучших механизмов с открытым исходным кодом для анализа Больших Данных.

7 Drill

9 IBM SPSS Modeler

Платформа IBM SPPS Modeler — коммерческий конкурент RapidMiner, который характеризуется низким порогом входа для начинающих. Понятность для новичков обеспечивается режимами «автопилота». Авто-модели (Auto Numeric, Auto Classifier) перебирают несколько возможных моделей с разными параметрами, определяя среди них лучшие. Не слишком опытный аналитик может построить на таком решении адекватную модель.

К основным особенностям SPSS следует отнести:

Пользовательский интерфейс SPSS постоянно улучшается, благодаря чему систему можно назвать интуитивно понятной. Выполнение простых задач вроде создания формул не требует подготовки в принципе. Все это делает IBM SPSS Modeler хорошим решением по части анализа данных для новичков.

Все достоинства IMB SPSS Modeler может затмить один недостаток, который отсекает крупную аудиторию пользователей. Речь о том, что данная система — это не лучший инструмент для анализа Больших Данных. Атрибуты, которые делают SPSS простым в использовании, слишком ограничены для масштабных подходов при работе с технологиями Big Data. В совсем плохих случаях, SPSS от перегрузки просто «падает».

Тем не менее, IBM SPSS Modeler остается популярным решением благодаря простоте использования и незатейливому интерфейсу.

10 KNIME

Аналитическая платформа Qlik предлагает полный доступ к ассоциативной машине индексации данных QIX, которая позволяет устанавливать взаимосвязи между несколькими источниками информации, которые, как правило, скрыты в иерархических моделях данных. «Фишка» в том, что именно QIX применяется компанией Qlik при создании своих остальных решений. QIX Engine использует столбчатое расположение данных в оперативной памяти, что обеспечивает высокую производительность при их индексации и сжатии. На практике это позволяет проводить data mining в более свободной форме, без необходимости предварительно определять возможные пользовательские запросы. В свою очередь, программисты могут более быстро создавать приложения на основе технологий Больших Данных, а пользователи — оперативно получать ответы.

Архитектура Qlik Analytics Platform включает в себя следующие элементы:

  1. Консоль управления Qlik (QMC) и Dev Hub.
  2. Интерфейсы программирования приложений (API) и наборы средств разработки (SDK) Qlik Sense.
  3. Вспомогательные службы Qlik Engine и Qlik Sense.

Платформа для анализа данных Qlik может быть использована в разработке аналитических приложений, информационных сервисов или платформ Интернета вещей. А обеспечение системой хороших визуальных и интерактивных возможностей позволяет пользователю лучше исследовать имеющиеся данные.

12

Это платформа российской разработки. Система предоставляет наиболее полный набор методов для Data Mining . В частности, в STATISTICA Data Miner реализованы инструменты предварительной обработки, фильтрации и чистки данных, что позволяет эффективно отбирать признаки из сотен тысяч возможных предикторов.

Особенностью данной платформы является возможность получения непосредственного доступа к базам данных даже без выполнения явных операций экспорта/импорта. ПО «умеет» обрабатывать, считывать и записывать данные почти со всех стандартных файлов. Сами прогнозные модели могут быть сгенерированы в различных форматах (PMML, C++, C#, Java, SAS, хранимые процедуры баз данных).

Пользователи отмечают, что благодаря встроенному Мастеру Data Mining, выполняющему автоматическое построение моделей, STATISTICA Data Miner отлично подходит людям, не связанным с разработкой ПО (например, аналитикам по маркетингу). Тем не менее, широкий набор методов кластеризации, архитектур нейронных сетей, деревьев классификации и регрессии, многомерного моделирования, анализа последовательностей, ассоциаций и связей делает данную платформу мощным инструментом в руках эксперта.

Отметим также, что недавно компания представила новый продукт — STATISTICA Big Data Analytics, который, как понятно из названия, дополняет список ПО для анализа Больших Данных. Данная платформа является масштабируемой; она может создавать выборки с помощью MapReduce, искать на движке Lucene/SOLR, проводить аналитику Mahout, работать в «облаке» и с текстом Natural Language Processing. А если интегрировать STATISTICA Big Data Analytics с корпоративной версией STATISTICA Enterprise, это позволит внедрить аналитику Больших Данных на уровне предприятия.

13 Informatica Intelligent Data Platform

Компания Informatica называет свою разработку «путем виртуальных данных». Informatica Intelligent Data Platform предоставляет интеллектуальные и управляющие сервисы, которые могут работать с большинством популярных данных и форматов: веб, социальные сети, машинные журналы.

Данная интеллектуальная платформа для анализа данных включает в себя Vibe — виртуальный механизм, который позволяет произвести интеграцию сопоставленных данных один раз, а затем запускать их в различных средах. Подобно STATISTICA Data Miner, Informatica IDP базируется на интерфейсе типа drag-and-drop, т. е. пользователю нужно лишь перетаскивать на рабочую среду необходимые элементы, а все инструкции генерируются системой автоматически.

Главной «фишкой» Informatica Intelligent Data Platform является подход, касающийся ввода структурированных, частично структурированных и неструктурированных данных на одной семантической волне. Понимание между этими данными возможно благодаря подходам мапинга, эвристики и сопоставлению с образцом.

Компания Informatica, которая считается одним из главных игроков в сфере разработки аналитических инструментов для работы с технологиями Big Data, гордится тем, что IDP является единственной платформой, получившей награды как от Gartner, так и Forrester почти во всех категориях управления данными.

Архитектурно Informatica Intelligent Data Platform состоит из 3 слоев:

  1. Vibe — это упомянутый выше движок управления любым типом данных. Поскольку сейчас Vibe является встроенным механизмом, он предоставляет всеобщий доступ к данным, независимо от их местоположения или формата. Так как Vibe исполнен в виде виртуальной машины, движок может работать на любой локальной серверной платформе, кластерах Hadoop или облачном сервисе.
  2. Data Infrastructure. Инфраструктурный слой данных располагается над виртуальной машиной Vibe. Он включает в себя все сервисы, предназначенные для автоматизации непрерывной подачи «чистых», безопасных и подключенных данных в любом масштабе к любой платформе, кластерам Hadoop или облачному сервису.
  3. Data Intelligence. Интеллектуальный слой данных находится поверх Data Infrastructure. Он собирает метаданные, семантические данные и прочую информацию со всей платформы. Как только данные собраны, Data Intelligence сегментирует их для упрощения дальнейшей обработки. Роль данного слоя — предоставить методы для обработки Больших Данных. Речь идет об аналитике, business intelligence (BI) , а также operational intelligence (OI) в режиме реального времени. А с недавнего времени Data Intelligence расширила список «навыков» Informatica IDP машинным обучением.

Итак, главными характеристиками платформы для анализа данных от Informatica являются гибридная структура, позволяющая подключить любое приложение к любому устройству, систематичность и глобальность данных, а также демократизация данных, исключающая обязательное присутствие у пользователя навыков разработки ПО и знание какого-либо языка программирования для анализа информации.

Data Lake отвечает за консолидацию данных в едином хранилище. Этот компонент нивелирует сложность хранения силоса данных, связанного с большим количеством разрозненной информации. Data Curator базируется на значениях из озера данных и предоставляет единый формат всех изученных и проиндексированных наборов данных как с самого Data Lake, так и с внешних источников. Согласно Dell EMC , куратор данных сохраняет до 80% времени специалистам по анализу данных при подготовке информации для аналитики. Data Governor содержит информацию о происхождении данных и обеспечивает их безопасность на протяжении всего процесса анализа. Также куратор данных позволяет видеть и использовать наборы данных в формате «end-to-end».

Итого, с Dell EMC Analytic Insights Module пользователь может:

  • исследовать, использовать и индексировать все данные в едином формате с помощью Data Curator;
  • узнать происхождение, обеспечить управление и безопасность для всех приложений и хранилищ данных с помощью Data Governor;
  • преобразовать всю важную информацию в управляемые данными приложения и бизнес-модели.

21 Windows Azure HDInsight

Azure Machine Learning не только предоставляет возможность для создания моделей прогнозного анализа, но и обеспечивает полностью управляемый сервис, который можно использовать для развертывания предиктивных моделей в виде готовых к использованию веб-сервисов.

При всей своей функциональности, нельзя сказать, что Azure Machine Learning поглощает финансовые ресурсы в гигантских масштабах. Поскольку сервис работает на публичном облаке Azure, необходимость приобретения «железа» или ПО отпадает сама собой.

Пожалуй, именно Azure Machine Learning на сегодняшний день является наилучшим инструментом для работы с машинным обучением.

23 Pentaho Data Integration

Система Pentaho Data Integration (PDI) — это компонент комплекса Pentaho, отвечающий за процесс извлечения, преобразования и выгрузки данных (ETL). Несмотря на то, что использовать ETL-системы предполагается в рамках комплекса хранения данных, средства PDI могут быть применены с целью:

  • обмена данными между приложениями или базами данных;
  • экспорта данных из таблиц баз данных в файлы;
  • загрузки массивов данных в базы данных;
  • обработки данных;
  • интеграции в приложения.

Pentaho исключает необходимость писать код, ведь весь процесс разработки ведется в визуальной форме, что дает основание говорить о PDI, как об ориентированной на работу с метаданными системе. С помощью рабочей панели и интерактивных графических инструментов, пользователи могут анализировать данные по нескольким измерениям.

Pentaho Data Integration упрощает интеграцию больших объемов данных с помощью «drag-and-drop» инструмента, который перемещает данные из хранилищ в хранилища Big Data. Система также способна дополнять и объединять структурированные источники данных с частично структурированными и неструктурированными источниками, чтобы в итоге сформировать единую картину.

Инструмент может быть полностью персонализирован: настройка визуализации, интерактивных отчетов, рабочей панели и специальный анализ — все это доступно пользователю. А поскольку PDI на 100% является Java-платформой, построенной на промышленных стандартах вроде веб-сервиса RESTful, интеграция с любым приложением не вызывает проблем.

24 Teradata Aster Analytics

Teradata Aster Analytics — это инструмент, который в рамках одного интерфейса и синтаксиса позволяет работать с текстом, графикой, машинным обучением, паттернами и статистикой. Бизнес-аналитики и специалисты по анализу данных могут провести комплексный анализ данных со всего предприятия путем выполнения одного запроса. У Teradata Aster Analytics есть более 100 интегрированных передовых аналитических запросов.

Данный инструмент позволяет объединить Graph, R и MapReduce в пределах одного фреймворка. Со всеми функциями, которые выполняются как команды SQL, и со всеми аналитическими движками, встроенными в инструмент, Aster Analytics обеспечивает высокую производительность при обработке больших массивов данных.

Аналитика Teradata Aster Analytics доступна в пределах экосистемы Hadoop и Amazon Web Services.

Aster Analytics на Hadoop:

  1. Расширяет сценарии использования озера данных. Aster Analytics делает «железнорожденного слона» доступным для большинства бизнес-аналитиков с навыками работы на SQL или R.
  2. Работает нативно. Пользователям не нужно перемещать данные из Hadoop на серверы для анализа данных.
  3. Быстро реализует аналитику. Пользователи могут создавать изолированную программную и рабочую среду на одном кластере Hadoop на одних и тех же данных.

Aster Analytics на AWS:

  1. Ускоряет окупаемость бизнеса. Компания может быстро подготовить аналитическую изолированную программную среду на облаке и, с целью ускорения процесса развития, использовать встроенные SQL-запросы.
  2. Повышает гибкость аналитики. Специалисту по анализу данных предоставляется мощный набор разноплановых инструментов: каждый аналитик может найти подходящее средство для работы с Большими Данными.
  3. Снижает финансовую нагрузку. Компании могут использовать встроенные передовые аналитические функции и наборы данных без необходимости использования нового оборудования.

25

Это инструмент, который направлен на то, чтобы оптимизировать ресурсы и повысить рентабельность в масштабах всей компании.

Интеграция экспертной аналитики с менеджером моделей на выходе дает более быстрые и точные результаты прогнозов, а также привносит прогностические идеи в бизнес-процессы и приложения — сферы, где пользователи взаимодействуют.

С SAP BusinessObjects Predictive Analytics можно:

  • автоматизировать приготовление данных, прогнозное моделирование, развертывание — и, как итог, легко переучить модель;
  • использовать расширенные возможности визуализации, чтобы быстрее сделать выводы;
  • интегрироваться с языком программирования R, чтобы открыть доступ к большому количеству пользовательских скриптов;
  • скооперироваться с SAP HANA .

SAP BusinessObjects Predictive Analytics расширяет границы возможностей Spark, чтобы предоставить клиентам более продвинутую интерактивную аналитику данных. Актуальная версия инструмента позволяет подключиться к SAP HANA Vora и выполнять прогнозное моделирование автоматически. Используя нативное моделирование Spark на одинаковых экземплярах Spark, SAP HANA Vora позволяет выполнять распределенную обработку автоматизированных алгоритмов.

Отметим, что Forrester Research в апреле 2015 года наградил SAP статусом лидера в предсказательной аналитике на Больших Данных.

26 Oracle Big Data Preparation

Построенный в среде Hadoop и Spark с целью масштабируемости, облачный сервис Oracle Big Data Preparation предлагает аналитикам высоко интуитивный и интерактивный способ подготовки структурированных, частично структурированных и неструктурированных данных для их последующей обработки.

Как и большинство вышеописанных инструментов, Oracle Big Data Preparation нацелен на бизнес-пользователей, поэтому сервис прост в использовании. Масштабируемость позволяет работать с итерационным машинным обучением в кластерной среде вычислений. Еще одним преимуществом Oracle Big Data Preparation является интеграция с рядом облачных сервисов.

Что касается функций данного инструмента, то их можно разбить на 4 части: потребление, расширение, управление и публикация, а также интуитивный авторинг.

В потреблении (ingest) сервис импортирует и работает с разнородной информацией, очищает данные (например, от незначимых символов), стандартизирует даты, номера телефонов и другие данные, а также вычисляет и удаляет ненужные дубликаты данных.

К расширению (enrich) следует отнести определение категорий данных и идентификацию их характеристик в терминах атрибутов, свойств и схем, обнаружение метаданных (обнаружение схемы определяет схему/метаданные, которые прямо или косвенно определены в заголовках, полях или тегах).

Управление и публикации (govern and publications) подразумевают под собой интерактивную панель управления, которая обеспечивает единый график всех обработанных наборов данных с соответствующими метриками и возможностями для дальнейшего детального аудита и анализа. В свою очередь, различные форматы публикаций обеспечивают максимальную гибкость.

Резюме

Нами был рассмотрен ряд средств для анализа данных от лучших производителей Big Data-решений. Как вы могли заметить, большинство решений являются опенсорсными, то есть имеют открытый исходный код. Фреймворков, баз данных, аналитических платформ и прочих инструментов действительно много, поэтому от вас требуется четкое понимание задачи. Определившись с поставленной целью, вы без проблем подберете нужное средство (или набор средств), которое позволит провести полноценный анализ данных.