Apache Spark Programming (Spark 105): Trzydniowy, stacjonarny kurs z instruktorem

Opis szkolenia:

Trzydniowy stacjonarny kurs z instruktorem

Lokalizacja: Warszawa, Polska (adres szkolenia zostanie podany)

Kurs dla data inżynierów, analityków, architektów, software engineerów, menedżerów IT, którzy są zainteresowani dokładnym i praktycznym wprowadzeniem w Apache Spark.

Kurs obejmuje podstawowe API do korzystania ze Sparka, podstawowe mechanizmy i zasady działania frameworka, SQL i inne high-levelowe narzędzia dostępu do danych, a także omówienie możliwości steamingu Sparka oraz machine learning API.

Każda lekcja jest prezentowana w formie wykładu opartego o slajdy oraz warsztatowe wykorzystanie Sparka w eleganckim środowisku notebooków dostępnych przez przeglądarkę. Zainspirowane narzędziami takimi jak IPython/Jupyter, notebooki umożliwiają uczestnikom kodowanie, wprowadzanie zapytań dotyczących analizy danych oraz wizualizację za pomocą własnego klastra Spark. Cały kod z zajęć nadaje się do bezpośredniego użycia w otwartym oprogramowaniu Spark lub w dowolnej komercyjnej dystrybucji Spark.

Po odbyciu szkolenia uczestnik będzie mógł:

  • Opisać podstawową mechanikę Sparka.
  • Używać podstawowych interfejsów API Spark do działania na danych.
  • Nazwać i wdrożyć typowe use case dla Sparka.
  • Budować data pipelines za pomocą SparkSQL i DataFrames.
  • Analizować zadania Spark przy użyciu interfejsów oraz logów.
  • Tworzyć projekty Streaming i Machine Learning.

Moduły:

  • Omówienie Sparka.
  • Podstawy RDD.
  • SparkSQL i DataFrames.
  • Wykonywanie Spark Job.
  • Architektury klastrowe dla Apache Spark.
  • Wstęp do Spark Streaming.
Koszt: 2500 USD za osobę.

Wymagania:

Wszyscy uczestnicy będą potrzebowali laptopa ze zaktualizowanymi wersjami przeglądarki Chrome lub Firefox (Internet Explorer i Safari nie są obsługiwane).

Czym jest Databricks?

Czym jest Databricks?
Misją Databricks jest przyspieszenie innowacji dla swoich klientów poprzez zintegrowanie data science, inżynierii i biznesu. Na Uniwersytecie Berkeley założyciele Databricks rozpoczęli projekt badawczy o nazwie Spark, który później zamienił się w Apache Spark. Databricks dostarcza platformę Unified Analytics obsługiwaną przez Apache Spark dla zespołów zajmujących się danymi do współpracy z inżynierią danych i biznesem w celu tworzenia produktów do przetwarzania danych.
Dzięki Databricks, tworząc przepływy pracy analitycznej, które pochodzą z narzędzi ETL i interaktywnej eksploracji danych do produkcji, użytkownicy znacznie szybciej uzyskują korzyści. Databricks ułatwia użytkownikom koncentrowanie się na danych, zapewniając w pełni zarządzalną, skalowalną i bezpieczną infrastrukturę chmury, która zmniejsza złożoność operacyjną i obniża całkowity koszt utrzymania.

Databricks, wspierane przez Andreessen Horowitz, NEA i Battery Ventures, ma globalną bazę klientów obejmującą Viacom, Shell i HP.

Więcej informacji można znaleźć na stronie www.databricks.com.

Apache, Apache Spark and Spark są znakami towarowymi Apache Software Foundation.

Poznaj instruktorów

Amadeusz

Architekt oprogramowania zajmujący się przetwarzaniem big data oraz uczeniem maszynowym. Ma doświadczenie w projektowaniu, opracowywaniu i wdrażaniu różnorodnych rozwiązań: począwszy od uczenia maszynowego dla danych strumieniowych po  isolated software sandbox. Amadeusz prowadzi szkolenia z Apache Cassandra i Apache Spark, jest inżynierem informatyki oraz posiada certyfikat Apache Spark Developer.

Marcin

Ma doświadczenie w tworzeniu aplikacji internetowych przy użyciu Scala dla back-endu i AngularJS z TypeScript dla front-endu. Jest entuzjastą czystego i dobrze przetestowanego kodu. Marcin jest licencjonowanym architektem Amazon Web Services Associate Level i jest na drodze do uzyskania tytułu inżyniera informatyki na Politechnice Warszawskiej. Jego praca inżynierska związana jest z sequential pattern mining przy użyciu Sparka.

Apache Spark Programming

Trzydniowy, stacjonarny kurs z instruktorem

Zapisz się: