Celem projektu było wdrożenie efektywnego środowiska do analizy danych dotyczących zużycia energii. W ramach projektu opracowano architekturę środowiska Data Lake oraz przepływy danych z kilku systemów źródłowych. Celem biznesowym było zapewnienie efektywnego prognozowania zużycia energii. Celem technicznym było optymalizowanie obecnych procesów transformacji danych i raportowania.
Rozwiązanie
Apache Hadoop (HDFS, Hive, Spark)
Airflow
Zeppelin Notebook
Oracle (source system)
SAS
Wynik
Instalacja i konfiguracja klastra (system operacyjny, komponenty klastra, bezpieczeństwo)
Integracja klastra z systemami zewnętrznymi
Tworzenie raportów umożliwiających analizę danych dotyczących zużycia energii
Rozwój repozytorium danych w technologii rozproszonego przetwarzania
Skrócenie czasu przygotowywania raportów rozliczeniowych z kilku godzin do kilku sekund
Efektywniejsze analizy sprzedażowe w ujęciu międzykanałowym