Machine learning z zastosowaniem Apache Spark

Spark

Apache Spark jest jednym z najpopularniejszych narzędzi stosowanych do przetwarzania Big Data. Obsługuje zarówno dane w miejscu, jak i strumienie. Jest to wysoce skalowalne narzędzie przetwarzające dane ustrukturyzowane i częściowo ustrukturyzowane, strumienie, grafy. Jego zastosowanie obejmuje również trenowanie i stosowanie modeli uczenia maszynowego, od prostych algorytmów do sieci neuronowej.

Semantive oferuje szkolenia z zakresu zastosowania środowiska Apache Spark, w tym również komponentów Spark Structured Streaming, Spark SQL, Spark ML i GraphX. Nasi instruktorzy wykorzystują Sparka w codziennej pracy projektowej, dzięki temu w ramach szkolenia oferują nie tylko wiedzę teoretyczną, ale również przydatne wskazówki i rozwiązania na podstawie własnych doświadczeń. Szkolenie przygotuje Cię do projektowania, tworzenia i uruchamiania wysoce wydajnych aplikacji w Sparku.

Plan

  1. Wprowadzenie do przetwarzania Big Data
    • Zagadnienie Big Data
    • Przetwarzanie wsadowe
    • Hadoop: implementacja paradygmatu Map-Reduce
    • Spark: rozwinięcie idei MR
  2. Przetwarzanie zbiorów (Datasets): Spark Core
    • Instalacja Sparka
    • Dystrybucja danych
    • Przetwarzanie danych: RDD
      • Transformacje i akcje na danych
      • Broadcast i akumulatory
      • Cachowanie
      • Dobre i złe praktyki
    • Przetwarzanie danych: DataFrame i SQL
    • Zewnętrzne źródła danych
      • Cassandra
      • HDFS
  3. Przetwarzanie strumieni danych: Spark Streaming
    • Streaming danych rozproszonych
      • Proste przetwarzanie danych
      • Windowing
      • Strumieniowanie w aplikacji stanowej
    • Odporność na błędy
      • Konfiguracja cache
      • Mechanizm checkpointów
      • Mechanizm write-ahead
    • Integracja z systemami zewnętrznymi
      • Kafka
  4. Uczenie maszynowe: Spark ML
    • Wprowadzenie do uczenia maszynowego
      • Powtórzenie aparatu matematycznego
    • Spark ML – Pipelines API
      • Przygotowanie danych
      • Transformacje, Estymatory
      • Zapisywanie i wczytywanie wytrenowanych modeli
    • Klasyfikacja i regresja
      • Przygotowanie danych
      • Algorytm Bayesa
      • Regresja liniowa i logistyczna
      • Lasy losowe
      • Perceptron (sieć neuronowa)
      • Strojenie parametrów modelu
    • Grupowanie
      • Algorytm centroidów (k-średnich)
      • Bisekcyjny algorytm centroidów
    • Filtrowanie społecznościowe
  5. Uruchamianie Sparka
    • Architektura Sparka
      • Wbudowany manager klastra
      • Wykorzystanie Mesosa
    • Monitorowanie klastra

Poznaj instruktorów

Amadeusz

Architekt oprogramowania zajmujący się przetwarzaniem big data oraz uczeniem maszynowym. Ma doświadczenie w projektowaniu, opracowywaniu i wdrażaniu różnorodnych rozwiązań: począwszy od uczenia maszynowego dla danych strumieniowych po  isolated software sandbox. Amadeusz prowadzi szkolenia z Apache Cassandra i Apache Spark, jest inżynierem informatyki oraz posiada certyfikat Apache Spark Developer.

Marcin

Ma doświadczenie w tworzeniu aplikacji internetowych przy użyciu Scala dla back-endu i AngularJS z TypeScript dla front-endu. Jest entuzjastą czystego i dobrze przetestowanego kodu. Marcin jest licencjonowanym architektem Amazon Web Services Associate Level i jest na drodze do uzyskania tytułu inżyniera informatyki na Politechnice Warszawskiej. Jego praca inżynierska związana jest sequential pattern mining przy użyciu Sparka.

Machine learning z zastosowaniem Apache Spark

Zapisz się