Data lake do planowania popytu

Wyzwanie

Celem projektu było wdrożenie efektywnego środowiska do analizy danych dotyczących zużycia energii. W ramach projektu opracowano architekturę środowiska Data Lake oraz przepływy danych z kilku systemów źródłowych. Celem biznesowym było zapewnienie efektywnego prognozowania zużycia energii. Celem technicznym było optymalizowanie obecnych procesów transformacji danych i raportowania.

Rozwiązanie

  • Apache Hadoop (HDFS, Hive, Spark)
  • Airflow
  • Zeppelin Notebook
  • Oracle (source system)
  • SAS
apache_cassandra_logo

Wynik

  • Instalacja i konfiguracja klastra (system operacyjny, komponenty klastra, bezpieczeństwo)
  • Integracja klastra z systemami zewnętrznymi
  • Tworzenie raportów umożliwiających analizę danych dotyczących zużycia energii
  • Rozwój repozytorium danych w technologii rozproszonego przetwarzania
  • Skrócenie czasu przygotowywania raportów rozliczeniowych z kilku godzin do kilku sekund

Efektywniejsze analizy sprzedażowe w ujęciu międzykanałowym