ETL — Extract, Transform, Load (извлечение, преобразование, загрузка)

etl

ETL – аббревиатура от английских слов Extract (извлекать), Transform (трансформировать), Load (загружать).

Содержание
Понятие
Назначение
Задачи
Функции
Инструменты
Архитектура

Понятие ETL

Решения ETL — это системы корпоративного класса, используемые для того, чтобы приводить разрозненные данные из нескольких учетных систем к единым справочникам и загружать их в корпоративные хранилища данных.

Назначение ETL

Использование решения ETL обуславливается необходимостью получения достоверной отчетности из имеющихся данных в системах класса ERP. В таких системах информация может быть некорректной по следующим причинам:

  • из-за возникновения случайных ошибок, которые появляются на этапе ввода или переноса информации;
  • из-за наличия различий в справочниках и детализации данных у смежных ИТ-систем.

Задачи ETL

Системы класса ETL нацелены на решение 2-х основных задач:

  • агрегировать разнородные данные, используя единую систему значений и детализации, и обеспечивать качество и надежность этих данных;
  • осуществлять трансформацию данных таким образом, чтобы после преобразования исходных данных было понятно, из каких сумм собралась та или иная строчка новых данных.

Функции ETL

Функции ETL-систем представляют собой последовательный процесс, в котором данные подвергаются:

  • загрузке (на этом этапе данные из разных источников загружаются в ETL-систему для их последующей обработки);
  • валидации (определяется, насколько данные корректны и какой полнотой обладают);
  • мэппингу (осуществляется сопоставление данных из источников с данными в ETL-системе);
  • агрегации (устраняется разрозненность данных при их детализации для загрузки в системы);
  • выгрузке в целевую систему (осуществляется процесс передачи данных в выбранную систему).

Инструменты ETL

ETL-процесс может осуществляться с помощью использования почти любого языка программирования. Среди лидеров по разработке ETL-инструментов выступают такие крупные компании, как: IBM, Oracle, Informatica.

ETL-инструмент следует выбирать, исходя из поставленных задач и учитывая существующие программные средства компании. В зависимости от этого, при преобладании тех или иных технологических продуктов, целесообразно обратить внимание на такие решения, как: Data Stage и Data Manager (IBM); PowerMart и PowerCenter (Unix); SSIS (Microsoft).

Наиболее известными ETL-инструментами на рынке считаются: DataStage, Data Manager, PowerCenter, PowerMart, Cloud Big Data, IBM InfoSphere, iWay Software, Microsoft SQL Server, OpenText, Oracle GoldenGate, Pervasive Data Integrator , Pitney Bowes, SAP Business Objects, Sybase.

Архитектура ETL

ETL как система хранилища данных корпоративного пользования тесно взаимодействует с системой хранения данных и использует временную и постоянную области хранения. В каждой из них протекают свои ETL-процессы.

Функционирование подсистемы ETL можно представить в виде последовательной совокупности процессов:

  • извлечь данные (необходимые данные собираются из разнородных источников и сохраняются в определенных таблицах);
  • преобразовать данные (данные извлекаются из таблиц, затем преобразуются с использованием определенных правил и сохраняются во временной области хранения);
  • загрузить данные (после трансформации начинается загрузка данных в область оперативного хранения, проверяется целостность и корректность данных, после чего следует их загрузка в область детальных данных);
  • агрегировать данные (детальные данные считываются и происходит их агрегация).

Однако всегда необходимо помнить, что необходимо тщательно изучать технологии, чтобы реализовать ETL, если одним из источников является ERP-система, поскольку они обладают сложной и запутанной моделью данных. В них огромное количество таблиц – более десятков тысяч, и чтобы провести ETL корректно, правильно и без серьезных временных затрат, к разработчикам следует добавить специалиста, знакомого с этой ERP.

0 0 Голоса
Рейтинг статьи
0 Комментарий
Межтекстовые Отзывы
Посмотреть все комментарии