Data Science – наука о данных и методах их изучения (анализа)

Data Science

Одного единого мнения относительно расшифровки термина не существует до сих пор. Благодаря достаточно простой идее, лежащей в основе Data Science, в последние годы получает широкое распространение другая трактовка данного термина: набор методов обработки/анализа данных и их практическое применение. 

Сфера включает в себя преобразование больших массивов различно структурированной информации в человекочитаемый формат. Сюда же относят их наглядную интерпретацию, машинное и глубокое обучение, аналитические и статистические методы, анализ вероятностей, нейронные сети и их применение к наиболее острым и актуальным задачам.

Частая задача Data Scientist – объяснить, что произошло, используя историю данных.

Содержание:

История Data Science

Годом основания Data Science как выделенной дисциплины считается 1966 год. Сам же термин появился позже, в 1974, благодаря Петеру Науру – датскому ученому-информатику. Он определил науку о данных как дисциплину, которая изучает цифровые данные от появления до их трансформации для представления в других областях. Широкое распространение понятия получило в 1990-ых, а в 2003 Колумбийский университет выпустил  The Journal of Data Science. На сегодняшний момент профессия дата сайентиста (от англ. data scientist) считается одной из самых востребованных и перспективных в мировом разрезе. 

Для чего используется Data Science:

  • для обнаружения аномалий;
  • для настроек персонализированного маркетинга;
  • для скоринговых систем;
  • для количественных прогнозов;
  • для взаимодействия с клиентами.

Модели Data Science

  • Predictive causal analytics

Иначе – предиктивная аналитика. Подобная модель спрогнозирует степень возможности конкретного события в будущем. Самый простой пример – выдача кредита. Если есть сомнения в том, будет ли клиент погашать платежи вовремя, вы можете создать модель, которая и предскажет, будут ли платежи поступать своевременно или нет.

  • Prescriptive analytics

Или аналитическое прогнозирование. Это уже иная модель, которая “принимает собственные решения” и способна изменяться благодаря динамическим параметрам. Здесь включается своеобразный консалтинг, поскольку аналитическое прогнозирование не только дает прогноз, но и предлагает ряд сценариев и результатов, которые можно получить. 

  • Machine learning (making predictions)

Машинное обучение с учителем применяется для построения моделей определения будущих тенденций по транзакционным данным. Обучением это называется не просто так: оно основано на парадигме, что у вас уже есть данные, благодаря которым вы можете обучать свои машины. Пример – социальная сеть Twitter.  Пользователи могут фильтровать контент по времени публикации или популярности, что стало возможным благодаря machine learning. ИИ (искусственный интеллект) изучает и анализирует каждый отправленный твит в режиме реального времени и оценивает его по нескольким критериям. Алгоритм Твиттера показывает те записи, которые с наибольшей вероятностью понравятся пользователю, при этом выбор основывается на его личных предпочтениях.

  • Machine learning (pattern discovery)

Машинное обучение без учителя базируется на том, что у вас нет параметров, по которым можно делать прогнозы. Для этого нужно определить скрытые шаблоны, поэтому самый распространенный алгоритм – кластеризация. 

Инструменты Data Science

  • Электронные таблицы и инструменты обработки данных:
    СУБД, ХД, ETL, SQL;
  • Библиотеки визуализации и анализа в Python;
  • Майнинговые инструменты
  • Jupiter, Zeppelin.
0 0 Голоса
Рейтинг статьи
0 Комментарий
Межтекстовые Отзывы
Посмотреть все комментарии