Résumé de Architecture Big Data - ABDAT

Architecture Big Data - ABDAT

L’importance de l’utilisation des données n’étant plus à prouver, les entreprises se trouvent désormais face à un défi de taille : traiter plus de données, plus rapidement et à moindre coût. Comment sont gérés actuellement les projets d’accès aux données et comment faire pour améliorer cette gestion au quotidien ?

Le cours « Architecture Big Data» permet d’acquérir des connaissances de bases pour comprendre l’environnement dans sa complexité. L’objectif est de comprendre les concepts sous-jacents à la réalisation d'un environnement de Big Data et les différents outils disponibles et nécessaires dans cet univers. Les parties théoriques permettront de comprendre l’architecture des différents composants. Les travaux pratiques permettront de se familiariser avec cet environnement.

Les différentes technologies qui seront utilisées : Hadoop, spark, hive, Kubernetes, ans, gcp, introduction à la plateforme Dataiku.

A travers des cours théoriques et des travaux pratiques les élèves seront capables de :

Comprendre les différents composants d’un projet big data et comment ils interagissent ensemble
Comprendre les architectures distribuées
Appréhender le paradigme big data et le mécanisme de gouvernance de données
Utiliser les principales technologies associées : Hadoop, Spark, hive, docker, kubernetes
Mettre un projet en production et réussir à monitorer les ressources utilisées
Apprendre à utiliser l'environnement GCP (créer une instance, créer une bucket pour stocker de la donnée, lancer des jobs sur cloud run)
Maîtriser les principaux concepts de Dataiku
Utiliser DSS pour automatiser le calcul d’un modèle de prédiction