ETL – аббревиатура от английских слов Extract (извлекать), Transform (трансформировать), Load (загружать).
Содержание
• Понятие
• Назначение
• Задачи
• Функции
• Инструменты
• Архитектура
Понятие ETL
Решения ETL — это системы корпоративного класса, используемые для того, чтобы приводить разрозненные данные из нескольких учетных систем к единым справочникам и загружать их в корпоративные хранилища данных.
Назначение ETL
Использование решения ETL обуславливается необходимостью получения достоверной отчетности из имеющихся данных в системах класса ERP. В таких системах информация может быть некорректной по следующим причинам:
- из-за возникновения случайных ошибок, которые появляются на этапе ввода или переноса информации;
- из-за наличия различий в справочниках и детализации данных у смежных ИТ-систем.
Задачи ETL
Системы класса ETL нацелены на решение 2-х основных задач:
- агрегировать разнородные данные, используя единую систему значений и детализации, и обеспечивать качество и надежность этих данных;
- осуществлять трансформацию данных таким образом, чтобы после преобразования исходных данных было понятно, из каких сумм собралась та или иная строчка новых данных.
Функции ETL
Функции ETL-систем представляют собой последовательный процесс, в котором данные подвергаются:
- загрузке (на этом этапе данные из разных источников загружаются в ETL-систему для их последующей обработки);
- валидации (определяется, насколько данные корректны и какой полнотой обладают);
- мэппингу (осуществляется сопоставление данных из источников с данными в ETL-системе);
- агрегации (устраняется разрозненность данных при их детализации для загрузки в системы);
- выгрузке в целевую систему (осуществляется процесс передачи данных в выбранную систему).
Инструменты ETL
ETL-процесс может осуществляться с помощью использования почти любого языка программирования. Среди лидеров по разработке ETL-инструментов выступают такие крупные компании, как: IBM, Oracle, Informatica.
ETL-инструмент следует выбирать, исходя из поставленных задач и учитывая существующие программные средства компании. В зависимости от этого, при преобладании тех или иных технологических продуктов, целесообразно обратить внимание на такие решения, как: Data Stage и Data Manager (IBM); PowerMart и PowerCenter (Unix); SSIS (Microsoft).
Наиболее известными ETL-инструментами на рынке считаются: DataStage, Data Manager, PowerCenter, PowerMart, Cloud Big Data, IBM InfoSphere, iWay Software, Microsoft SQL Server, OpenText, Oracle GoldenGate, Pervasive Data Integrator , Pitney Bowes, SAP Business Objects, Sybase.
Архитектура ETL
ETL как система хранилища данных корпоративного пользования тесно взаимодействует с системой хранения данных и использует временную и постоянную области хранения. В каждой из них протекают свои ETL-процессы.
Функционирование подсистемы ETL можно представить в виде последовательной совокупности процессов:
- извлечь данные (необходимые данные собираются из разнородных источников и сохраняются в определенных таблицах);
- преобразовать данные (данные извлекаются из таблиц, затем преобразуются с использованием определенных правил и сохраняются во временной области хранения);
- загрузить данные (после трансформации начинается загрузка данных в область оперативного хранения, проверяется целостность и корректность данных, после чего следует их загрузка в область детальных данных);
- агрегировать данные (детальные данные считываются и происходит их агрегация).
Однако всегда необходимо помнить, что необходимо тщательно изучать технологии, чтобы реализовать ETL, если одним из источников является ERP-система, поскольку они обладают сложной и запутанной моделью данных. В них огромное количество таблиц – более десятков тысяч, и чтобы провести ETL корректно, правильно и без серьезных временных затрат, к разработчикам следует добавить специалиста, знакомого с этой ERP.