Предиктивная аналитика

предиктивная аналитика

Предиктивная аналитика – это множество методов анализа текущих и/или прошедших данных или событий для прогнозирования. Основывается на применении статистики, анализа и теории игр.

Наиболее близким к предикативной аналитике (ее еще называют прогнозной, предикативной или предсказательной) является Data Mining, где частично используются похожие приёмы. Ядро всех используемых методов – задача определения параметров, которые влияют на прогнозируемые события. Такие задачи называют предикторами, а их совокупность составляет модель прогнозной аналитики. Подобная модель способна с определенной степенью вероятности предсказать некое будущее событие/явление.

Содержание

История

Считается, что нынешняя предиктивная аналитика берет свое начало из сороковых, когда начали использоваться метод Монте-Карло, линейное программирование и азы нейронных сетей.  Во время войны подобные модели помогали расшифровывать немецкие сообщения и прогнозировать ядерные цепные реакции проекта “Манхэттен”. 

Спустя двадцать лет крупные компании и исследовательские центры начали монетизацию предиктивной аналитики при помощи нелинейного программирования, что стало основой предсказания погоды и решения логистических задач на определение кратчайшего пути. С семидесятых начинается основной виток популярности методов. На сегодняшний момент прогнозная аналитика – одно из наиболее важных направлений корпоративной бизнес-аналитики, которая решает широкий спектр самых разных задач. 

Виды предиктивной аналитики

Из-за акцента на определении связей между историческими данными и прогнозом будущего на их основе используется один или несколько предикторов. Если заданные требования более высокие, то применяться могут расширенные методы. Основные среди них – с контролируемым и неконтролируемым обучением.

  • Контролируемое обучение

Предполагается, что модель будет строиться по уже имеющимся данным и выходящим результатам, т.е. известны предикторы и итоги, на которые они влияют. Контролируемое обучение состоит из:

Регрессия. Самый популярный вид предиктивной аналитики. Во время регрессии применяется количественная переменная, т.е. цена продажи автомобиля будет зависеть от ряда предикторных переменных: марки, трансмиссии, привода, цвета, внешнего вида, состояния салона и т.д. Взаимосвязь между ценой и всеми предикторами будет лежать в основе модели. Есть несколько видов регрессии, среди них – многомерная линейная, полиномиальная, регрессионные деревья.

Классификация. Здесь нашла применение так называемая категориальная вариация ответа. Например, уровень дохода. Его можно условно разделить на три группы: низкий, средний и высокий. Классификатор изучит полученный набор данных, где в каждом наблюдении будет присутствовать информация о переменной и предикторах. 

Например, исследуется уровень доходов лиц, которые отсутствуют в исходном наборе данных, по характеристикам возраста, пола и профессии. Аналитик сначала изучает весь набор данных, заданный алгоритм вычисляет комбинации, связанные с уровнем дохода, создавая так называемый обучающий набор. Затем алгоритм рассматривает другие наблюдения, где нет информации о доходе. В итоге, основываясь на классификации учебного набора данных, новым наблюдениям задается классификация: 64-летний мужчина, руководитель департамента информационной безопасности, будет отнесен к группе с высоким уровнем дохода.

Классификация делится на несколько видов: логистическая регрессия, случайные леса и др. 

  • Неконтролируемое обучение

Моделирование идет по входящим данным. Вывод подбирается уже в процессе.

Кластеризация основной вид неконтролируемого обучения, который помогает понять связи между переменными или наблюдениями, определяя их попадание в разные группы. Например, если анализировать клиентов, то в расчет принимаем несколько переменных: пол, возраст, доход и т.д. Если бы была доступна история покупок, можно было воспользоваться методом классификации, но этих ответов нет. Поэтому придется группировать клиентов на основе переменных, чтобы идентифицировать отдельные группы.

Программные инструменты

Рынок предлагает большой выбор инструментов предиктивной аналитики. Основное отличие в функционале: одни предназначены для процесса моделирования, другие – для интерпретации моделей. 

Из наиболее известных решений:

  • R
  • Python
  • Rapid Maner
  • Knime
  • IBM SPSS Modeler
  • IBM Watson Analytics
  • SAS Enterprise Miner
  • SAP BusinessObjects Predictive Analytics
  • Oracle Big Data Preparation.
0 0 Голоса
Рейтинг статьи
0 Комментарий
Межтекстовые Отзывы
Посмотреть все комментарии