Одного единого мнения относительно расшифровки термина не существует до сих пор. Благодаря достаточно простой идее, лежащей в основе Data Science, в последние годы получает широкое распространение другая трактовка данного термина: набор методов обработки/анализа данных и их практическое применение.
Сфера включает в себя преобразование больших массивов различно структурированной информации в человекочитаемый формат. Сюда же относят их наглядную интерпретацию, машинное и глубокое обучение, аналитические и статистические методы, анализ вероятностей, нейронные сети и их применение к наиболее острым и актуальным задачам.
Частая задача Data Scientist – объяснить, что произошло, используя историю данных.
Содержание:
История Data Science
Годом основания Data Science как выделенной дисциплины считается 1966 год. Сам же термин появился позже, в 1974, благодаря Петеру Науру – датскому ученому-информатику. Он определил науку о данных как дисциплину, которая изучает цифровые данные от появления до их трансформации для представления в других областях. Широкое распространение понятия получило в 1990-ых, а в 2003 Колумбийский университет выпустил The Journal of Data Science. На сегодняшний момент профессия дата сайентиста (от англ. data scientist) считается одной из самых востребованных и перспективных в мировом разрезе.
Для чего используется Data Science:
- для обнаружения аномалий;
- для настроек персонализированного маркетинга;
- для скоринговых систем;
- для количественных прогнозов;
- для взаимодействия с клиентами.
Модели Data Science
- Predictive causal analytics
Иначе – предиктивная аналитика. Подобная модель спрогнозирует степень возможности конкретного события в будущем. Самый простой пример – выдача кредита. Если есть сомнения в том, будет ли клиент погашать платежи вовремя, вы можете создать модель, которая и предскажет, будут ли платежи поступать своевременно или нет.
- Prescriptive analytics
Или аналитическое прогнозирование. Это уже иная модель, которая “принимает собственные решения” и способна изменяться благодаря динамическим параметрам. Здесь включается своеобразный консалтинг, поскольку аналитическое прогнозирование не только дает прогноз, но и предлагает ряд сценариев и результатов, которые можно получить.
- Machine learning (making predictions)
Машинное обучение с учителем применяется для построения моделей определения будущих тенденций по транзакционным данным. Обучением это называется не просто так: оно основано на парадигме, что у вас уже есть данные, благодаря которым вы можете обучать свои машины. Пример – социальная сеть Twitter. Пользователи могут фильтровать контент по времени публикации или популярности, что стало возможным благодаря machine learning. ИИ (искусственный интеллект) изучает и анализирует каждый отправленный твит в режиме реального времени и оценивает его по нескольким критериям. Алгоритм Твиттера показывает те записи, которые с наибольшей вероятностью понравятся пользователю, при этом выбор основывается на его личных предпочтениях.
- Machine learning (pattern discovery)
Машинное обучение без учителя базируется на том, что у вас нет параметров, по которым можно делать прогнозы. Для этого нужно определить скрытые шаблоны, поэтому самый распространенный алгоритм – кластеризация.
Инструменты Data Science
- Электронные таблицы и инструменты обработки данных:
СУБД, ХД, ETL, SQL; - Библиотеки визуализации и анализа в Python;
- Майнинговые инструменты
- Jupiter, Zeppelin.