Big Data (большие данные)

Big Data

Big Data – это совокупность разнообразных структурированных и неструктурированных данных сверхбольшого объема, которые можно обрабатывать и получать из них новую воспринимаемую человеком информацию, а также инструменты работы с ними. 

Под этим термином подразумевается не некий конкретный объем данных, а серия методов, подходов и инструментов обработки данных, которые позволяют с ними работать. Все это можно применить как к огромным массивам данных (например, все страницы во всемирной сети либо персональные данные, включающие ФИО, электронную почту, номер телефона, возраст, геолокацию, IP-адрес и т.д.), так и к небольшим (информация в одном excel-документе). 

Иначе говоря, Big data представляет собой широкий инструментарий, который способен извлечь смысл из неструктурированных данных на максимально возможном уровне практического применения.

Содержание:

История Big Data

Ввод понятия в широкое использование связывают с Клиффордом Линчем, известным издателем и редактором журнала Nature. Выпуск издания от 3 сентября 2008 года был посвящен росту объемов информации, в контексте чего и было употреблено выражение «big data». Уже к 2011 году крупнейшие мировые IT-корпорации, в числе которых HP, IBM, Oracle, EMС, Microsoft, используют в своей деятельности большие данные. В этом же году Gartner отметила Big Data как один из трендов-лидеров в мире технологий, а в 2015 году признала переход от теоретизированного «шума» к применению на практике.

Источники данных:

  • социальные сети;
  • радиочастотные идентификаторы;
  • геоданные;
  • GPS-сигналы от автомобилей;
  • транзакционная деловая информация;
  • различные архивы;
  • оцифрованные книги;
  • логи поведения пользователей в интернете;
  • интернет вещей;
  • астрономические наблюдения;
  • метеорологические данные;
  • показания устройств (аудио, видео, датчиков).

Данные накапливаются практически в любой сфере человеческой жизни, особенно связанной с вычислениями или взаимодействием с другими людьми. Именно поэтому акцент идет на соцмедиа, медицину и т.д.

Признаки и принципы Big Data

В 2001 году Meta Group выработала набор признаков, которые являются определяющими для Big Data – VVV:

  • Volume (объем) – физический объем;
  • Velocity (скорость) – скорость прироста и быстрой обработки данных;
  • Variety (многообразие) – возможность одновременной обработки данных разных видов (структурированные или частично структурированные).

Сейчас существуют версии с другими V:

  • Veracity – подлинность;
  • Variability – жизнеспособность;
  • Value – ценность;
  • Variability – вариативность;
  • Visualization – наглядность.

Однако, классической до сих пор считается формация VVV.

Технологии Big Data

Все технологии, которые используется в работе с Big Data, можно разбить на три большие группы:

  • для непосредственного анализа данных
    Тестирование, проверка гипотез, machine learning (например, Apache Spark, Elasticsearch);
  • сбор и хранение данных
    Различные БД и облачные хранилища (например, Apache Hadoop, NoSQL, PostgreSQL);
  • средства визуализации
    Таблицы, графики, BI-системы (например, Tableau, Power BI, Qlik).

Выбор конкретного инструментария для выполнения той или иной задачи тесно связан с кейсом и требованиями заказчика. 

Преимущества:

  • продвижение товаров/услуг
    получение доступа к данным из поисковых систем и иных ресурсов дает возможность организациям намного точнее составлять прогнозы и маркетинговые стратегии;
  • совершенствование сервиса для потребителей
    отпадает традиционная система фидбэков, которая заменяется на новую, где Big Data используется для восприятия и оценки отзыва покупателей;
  • операционная эффективность
    необходимую информацию найти становится проще, и, благодаря объединению  больших данных и хранилищ данных, организации могут оптимизировать собственную работу.
0 0 Голоса
Рейтинг статьи
0 Комментарий
Межтекстовые Отзывы
Посмотреть все комментарии