General
Introduction au Big Data
Ce cours d'introduction au Big Data permet d'aborder d'un point
de vue pratique l'utilisation d'une architecture BigData pour
réaliser des analyses de données.
Le cours commence par une introduction sur le data mining
à l'ère du Big Data, mettant en avant les problématiques
de volumétrie, variété, vélocité (les fameux "V" du
BigData).
Une deuxième séance de cours plus pragmatique présente
l'environnement Hadoop, un des frameworks open source de
stockage et de traitement distribués. Seront
abordés le système de fichier distribué HDFS, les principes de
traitement distribué Map/Reduce, mais aussi, brièvement
l'écosystème d'outils autour de Hadoop. L'accent sera mis sur
l'architecture technique, les composants tels que les noeuds d'un
cluster, les flux de données entre noeuds, etc de sorte à
comprendre les mécanismes de base de Hadoop.
Enfin, des séances de TP viendront illustrer la mise en
oeuvre de tels outils. Les étudiants manipuleront le
système de fichier HDFS, réaliseront en Python des Mappers et des
Reducers pour procéder à des analyses simples de jeux de données
tels que des logs d'achat ou des cours de bourses. Des exercices
permettront également d'utiliser la librairie de Machine Learning
Mahout, fournissant ainsi aux étudiants les bases de la
manipulation avancée de données sous Hadoop avec la réutilisation
des outils de développement connus tels que Python ou Java
déployés sous Hadoop.
Enseignants : Cécile BOTHOREL, Laurent LECORNU