Data lake do planowania popytu

Wyzwanie

Celem projektu było wdrożenie efektywnego środowiska do analizy danych dotyczących zużycia energii. W ramach projektu opracowano architekturę środowiska Data Lake oraz przepływy danych z kilku systemów źródłowych. Celem biznesowym było zapewnienie efektywnego prognozowania zużycia energii. Celem technicznym było optymalizowanie obecnych procesów transformacji danych i raportowania.

Rozwiązanie

Apache Hadoop (HDFS, Hive, Spark)
Airflow
Zeppelin Notebook
Oracle (source system)
SAS

Wynik

Instalacja i konfiguracja klastra (system operacyjny, komponenty klastra, bezpieczeństwo)
Integracja klastra z systemami zewnętrznymi
Tworzenie raportów umożliwiających analizę danych dotyczących zużycia energii
Rozwój repozytorium danych w technologii rozproszonego przetwarzania
Skrócenie czasu przygotowywania raportów rozliczeniowych z kilku godzin do kilku sekund

Efektywniejsze analizy sprzedażowe w ujęciu międzykanałowym