Big Data, c’est quoi au juste ?

Big Data ne signifie pas « données en masse »

Le Big Data est certainement l’avenir du stockage et du traitement de la donnée.

la circulation des données

Que cache le terme de Big data

J’entends souvent des propos qui laisseraient penser que le Big Data correspond à la capture et à l’utilisation de masses de données.
Ce n’est pas faux, mais on risque à s’exprimer ainsi d’occulter un sujet majeur.
La plupart des entreprises de services stockent leurs données dans des Systèmes de gestion de bases de données (SGBD) qui utilisent des bases de données relationnelles et des modèles de données relationnels.

Autrement dit, les données sont stockées dans des tables qui sont reliées entre elles selon le schéma ci-après :

table de données

N’imaginons pas stocker les nouveaux flux de données de l’ère du Big data dans nos vieilles bases de données relationnelles.

L’Eldorado des nouveaux usages des données, réside justement dans cette faculté de capter et de stocker des données qui n’entrent pas dans ces modèles.

  • elles ne sont pas nécessairement organisées sous forme de tables et leurs structures peuvent varier ;
  • elles sont produites en temps réel
  • elles arrivent en flots continus
  • elles sont associées à nombre de métadonnées (localisation, heure, jour, etc.) ;
  • elles proviennent de sources très disparates (voix, téléphone mobile, téléviseurs connectés, tablettes, PC fixes, objets connectés etc..) de façon plus ou moins imprévisible

Les modèles de stockage de ces données sont très différents de nos modèles relationnels habituels.
Les modes de stockage et de traitement de ces données sont nés dans les laboratoires de Yahoo et Google. Aujourd’hui le protocole HDFS (Hadoop Distributed File System) est retenu par IBM, Informatica, Oracle etc . Il a été conçu pour stocker de gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés.

Le Big Data permet le stockage des données de messages en audio, en vidéo ou de messages écrits, d’informations de localisation et autres et fait tout simplement rêver les « marketeurs ».

Mais le chemin à parcourir est semé d’embûches, retenons simplement deux interrogations :
1 / Comment intégrer ses données nouvellement collectées à l’existant ?
2 / Comment assurer la qualité de ces nouvelles données stockées ?
Que nous parlions de nos bonnes vielles données sociodémographiques ou des données nouvelles issues de no modes de vie « connectés », le défi de la qualité des données reste entier.

Le Big Data n’apporte pas de solution miracle au « gavage » des bases de données par des informations incomplètes, altérées ou « datées ».

Le Big Data, pas un miracle…mais quand même

Pour aller plus loin :

Hadoop ;

Comment les entreprises utilisent le Big Data

Un exemple de solution : Oracle

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s