Pour savoir où on va, il faut savoir d'où l'on vient

Vous avez
une question ?
Un projet ?

Contactez nous !
 

Contactez-nous

Vous avez une question ? un projet ? 
Vous souhaitez plus d'informations sur un produit ? sur notre offre ? 
Contactez-nous, on vous répond sous 4H.

retour

Intégration et traitement (distribué) de données massives

Intégration et traitement (distribué) de données massives

ETL
Afin d’alimenter un datawarehouse à partir des différentes sources de données ou de synchroniser en batch des données entre systèmes, on utilise une gamme d’outils appelés ETL, pour « Extract, Transform, Load ».
Comme le nom l’indique, ces outils permettent d’extraire des données à partir de différentes sources, de les transformer (rapprochement, format, dénomination, calculs), et de les charger dans la base de données cible, comme un datawarehouse dans le cas d’un projet décisionnel.
L’ETL permet de masquer, grâce à une modélisation visuelle, la complexité de manipulations (réparties) des données (hétérogènes) au sein des traitements et ainsi d’en réduire fortement les coûts de développement et maintenance.
Un ETL est généralement composé d’un studio de modélisation des traitements ainsi que d’un ou plusieurs environnements d’exécution et des outils d’administration voire de visualisation de données suivant les versions.

Frameworks de traitements distribués - Map-Reduce
Modèle d’architecture portant sur la distribution et la répartition des traitements de données sur plusieurs noeuds d’une grappe de serveurs (cluster).
Dans l'étape Map, les données à traiter et traitements à effectuer sont répartis sur les noeuds de traitement.
Dans l'étape Reduce, les nœuds de traitements remontent leur résultat pour agrégation (il peut y avoir plusieurs niveaux de traitement).