BIG DATA: Apache SPARK



Souvent présenté comme le successeur de Hadoop, SPARK simplifie la programmation des traitements BigData permettant l'utilisation de scala, Python ou Java. Cette formation apprendra aux programmeurs à traiter un flux de données en temps réel et à effectuer des traitements batch (du SQL jusqu'au Machine Learning).


MODALITES D'EVALUATION

Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…

Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.



Objectif

  • Maîtriser les concepts fondamentaux de Spark
  • Développer des applications avec Spark Streaming 
  • Exploiter des données avec Spark SQL
  • Faire de la programmation parallèle avec Spark sur un cluster
  • Avoir une première approche du Machine Learning

Public Cible

  • Ingénieurs Big Data et Data Scientists
  • Développeurs Backend
  • Chefs de Projets et Managers


Réserver Votre place



Effectif Maximal 10
Durée Totale 1 Mois
Calendrier
Prix Nous Consulter
Prochaine Session mai 2024
Lieu de Formation 261 Bd Abd El Moumen Residence Al Amal Immeuble B No 17 Etage 4. Casablanca

Réservez dès Maintenant !


Programme de la Formation

PRESENTATION D'APACHE SPARK
  • Les différentes versions de Spark (Scala, Python et Java).
  • Comparaison avec l'environnement Apache Hadoop.
  • Les différents modules de Spark.
Travaux pratiques
  • Installation et configuration de Spark. Exécution d'un premier exemple 


PROGRAMMER AVEC LES RESILIENT DISTRIBUTED DATASET (RDD)
  • Démarrer et utiliser la console Spark
  • Introduction aux Datasets et DataFrames Spark
  • Les opérations sur les DataFrames
  • Créer des DataFrames depuis diverses sources de données
  • Sauvegarder des DataFrames
  • Les schémas des DataFrames
Travaux pratiques
  • Manipulation de différents Datasets à l'aide de RDD et utilisation de l'API fournie par Spark.


MANIPULER DES DONNEES STRUCTUREES AVEC SPARK SQL
  • SQL, DataFrames et Datasets.
  • Les différents types de sources de données.
  • Interopérabilité avec les RDD.
  • Performance de Spark SQL.
  • JDBC/ODBC server et Spark SQL CLI.
Travaux pratiques
  • Manipulation de Datasets via des requêtes SQL. Connexion avec une base externe via JDBC.


TRAVAILLER AVEC DES DATASETS SPARK EN SCALA
  • Les différences entre Datasets et DataFrames
  • Créer des Datasets
  • Charger et sauvegarder des Datasets
  • Les opérations sur les Datasets


ÉCRIRE, CONFIGURER ET LANCER DES APPLICATIONS SPARK
  • Écrire une application Spark
  • Compiler et lancer une application
  • Le mode de déploiement d'une application
  • Configurer les propriétés d'une application


ANALYSER EN TEMPS REEL AVEC SPARK STREAMING
  • Principe de fonctionnement.
  • Présentation des Discretized Streams (DStreams).
  • Les différents types de sources.
  • Manipulation de l'API.
  • Comparaison avec Apache Storm.
Travaux pratiques
  • Consommation de logs avec Spark Streaming.


MACHINE LEARNING AVEC SPARK
  • Introduction au Machine Learning.
  • Les différentes classes d'algorithmes.
  • Présentation de SparkML et MLlib.
  • Implémentations des différents algorithmes dans MLlib.
Travaux pratiques
  • Utilisation de SparkML et MLlib.



S'inscrire en Ligne !


Copyright© Innov-Center Consulting . All rights reserved. Powered by InnovCenter