Devenez dompteur de données

 

Woman ride giraffe . Mixed media

Pourquoi les données ne se laissent-elles pas apprivoiser ?

Nous assistons à la fin progressive du marketing empirique, au profit d’un marketing qui quantifie, évalue et prend ses décisions sur des résultats quantitatifs.
Les opportunités de collecter des données ne manquent pas, les volumes de données à traiter ne sont pas en reste…mais encore faut-il maîtriser la gestion de ces données.

La qualité des données mises à disposition du marketing est souvent perfectible.Il y a longtemps que les entreprises traitent les données de leurs clients. Toutefois la cohérence des données et des indicateurs utilisés n’était pas forcément critique.
Ces données servaient à produire des statistiques à destination de Directions qui travaillaient en silos et qui avaient peu d’occasion de confronter leurs résultats.
De plus le niveau de personnalisation était faible et les actions commerciales largement décidées sur la base de l’expérience acquise.
En revanche, lorsque l’environnement change si vite que l’expérience est rapidement caduque (c’est particulièrement le cas dans le domaine du marketing opérationnel sur Internet), ou lorsque des Directions deviennent plus interdépendantes, la qualité et la cohérence des données deviennent cruciales.

Le défi des données exactes, intègres et de grande fraîcheur

Les données sont difficiles à maîtriser. Elles semblent avoir développé des capacités inouïes à s’altérer, se recombiner de façons inattendues, à se cacher sous des noms qui n’ont plus rien à voir avec leur composition réelle. J’ai trouvé, par exemple, neuf définitions de la donnée « client » dans une banque de détail. Chacun utilisait l’une ou l’autre en étant persuadé de calculer la même information.

Les raisons sont parfaitement :

  • Les données ont été créées tout au long de l’histoire de l’entreprise en fonction de besoins parfois très éloignés des usages actuels.
  • La qualité des données n’est généralement pas pilotée.
  • Peu de personnes sont réellement sensibilisées et mobilisées pour qualifier et enrichir les données. Les commerciaux ou les conseillers ne se sentent généralement pas réellement impliqués dans la gestion de la qualité de la donnée. Tout au plus vérifient-ils les données de contact (adresse physique, téléphone, e-mail) et encore pas vraiment systématiquement.

Dompter la donnée par « La gouvernance »

Organiser la « gouvernance de la donnée » consiste à définir des structures, des processus, des outils, des Kpis, qui sont spécifiquement affectés au traitement des données de l’entreprise.

Les structures de gouvernance :

Plusieurs modes d’organisation sont possibles. Certains préfèrent centraliser le traitement de la totalité des données sous la responsabilité d’une structure unique (le Chief Data Officer peut être le responsable de cette structure), d’autres préfèrent construire des « quartiers » ou blocs de données, chacun étant affecté à un responsable spécialiste de ce domaine. Un quartier ou domaine peut être constitué, par exemple, des données du marketing (données clients, offres, canaux), un autre quartier ou domaine peut regrouper les données concernant le risque, le réglementaire etc…
Chaque solution a ses avantages et ses inconvénients.
Une solution très centralisée pourra jouer sur les synergies, mais elle aura plus de mal à mobiliser les acteurs et installer sa légitimité. Une organisation par quartier de données permet une plus grande implication des acteurs et une plus grande légitimité, mais créé des « frottements » entre les Directions qui partagent les mêmes données.

Le dictionnaire des données :

A la base de toute gouvernance de la donnée, il faut établir un dictionnaire des données. C’est un inventaire des données qui attribue pour chacune, une définition, un mode de calcul (le cas échéant), une ou des sources, des applications utilisatrices et un responsable.
La notion de responsable de chaque donnée est très importante. La donnée est un patrimoine, l’entretien de sa qualité est une responsabilité qui doit être portée par une personne clairement identifiée.
Ce dictionnaire se construit de manière incrémentale, sur la base d’outils qui peuvent être très simples d’accès (j’ai vu un dictionnaire de la donnée d’une banque de détail géré avec succès sur Excel). Bien évidemment avec le temps il est préférable d’utiliser des outils spécialisés.
L’enrichissement du dictionnaire peut se faire par des personnes affectées à cette tâche (solution qui a parfois du mal à fonctionner. Ce travail devient vite rébarbatif et les personnes qui en sont chargées ne peuvent pas être des experts de toutes les données).

Les processus de gestion 

Le processus de renseignement du dictionnaire est l’un des plus sensible. Il a tout intérêt à être décentralisé, mais doit être piloté par des processus organisés et suivis par le/les responsable(s) de la gouvernance de la donnée.
La décentralisation peut également trouver des solutions efficaces avec la mise en place d’un réseau social consacré à cette gouvernance de la donnée.
Le réseau social facilite les échanges, la signalisation des anomalies, la complétude du dictionnaire. Il donne tout leur rôle aux responsables de données et identifie des experts qui peuvent apporter des informations précieuses par leur connaissance de certaines données.

Les outils de la qualité :

Au-delà du dictionnaire, l’équipement en outils spécifiques du traitement de la qualité bien utile. Des outils qui sont capables de faire le diagnostic de données en anomalies et qui sont mêmes en capacité de traiter automatiquement certaines erreurs.
Les éditeurs sont nombreux et leurs produits ont atteint une bonne maturité. Je n’insisterai pas plus sur ce point, car trop souvent la qualité des données est abordée du point de vue de la technologie à mettre en œuvre, alors qu’il s’agit d’abord d’une question de positionnement du « pilote », d’une question de pertinence des processus et de l’implication des acteurs qui sont au contact des données.

Les Kpis :

Aspect essentiel du pilotage, le choix du niveau de qualité recherché est rarement piloté.
Pourtant le coût de la qualité de la donnée est directement lié aux niveaux de qualité à atteindre. Sur cet aspect, un benchmark du marché et de la concurrence est loin d’être inutile.  Faire mieux que les concurrents ou les meilleurs du marché n’est pas à rejeter d’emblée, mais estimer le coût et l’intérêt de cette sur-qualité est incontournable.

La mobilisation de tous :

Enfin l’amélioration de la qualité de la donnée ne peut réussir qu’avec l’implication de tous. Depuis les développeurs, jusqu’aux commerciaux, en passant par les juristes, les responsables des traitements de bases de données, les responsables des processus, tous doivent être sensibilisés à l’impact de leurs décisions sur la qualité de la donnée.
La donnée doit être considérée par tous comme un élément du patrimoine de l’entreprise.
Il en résulte que tout projet de mise en place d’une gouvernance de la donnée doit se préoccuper de l’accompagnement du changement de la « culture de la donnée ».

En somme, dompter la donnée, c’est bien plus une question d’accompagnement de la transformation de la culture qu’une question technologique.

Big Data, c’est quoi au juste ?

Big Data ne signifie pas « données en masse »

Le Big Data est certainement l’avenir du stockage et du traitement de la donnée.

la circulation des données

Que cache le terme de Big data

J’entends souvent des propos qui laisseraient penser que le Big Data correspond à la capture et à l’utilisation de masses de données.
Ce n’est pas faux, mais on risque à s’exprimer ainsi d’occulter un sujet majeur.
La plupart des entreprises de services stockent leurs données dans des Systèmes de gestion de bases de données (SGBD) qui utilisent des bases de données relationnelles et des modèles de données relationnels.

Autrement dit, les données sont stockées dans des tables qui sont reliées entre elles selon le schéma ci-après :

table de données

N’imaginons pas stocker les nouveaux flux de données de l’ère du Big data dans nos vieilles bases de données relationnelles.

L’Eldorado des nouveaux usages des données, réside justement dans cette faculté de capter et de stocker des données qui n’entrent pas dans ces modèles.

  • elles ne sont pas nécessairement organisées sous forme de tables et leurs structures peuvent varier ;
  • elles sont produites en temps réel
  • elles arrivent en flots continus
  • elles sont associées à nombre de métadonnées (localisation, heure, jour, etc.) ;
  • elles proviennent de sources très disparates (voix, téléphone mobile, téléviseurs connectés, tablettes, PC fixes, objets connectés etc..) de façon plus ou moins imprévisible

Les modèles de stockage de ces données sont très différents de nos modèles relationnels habituels.
Les modes de stockage et de traitement de ces données sont nés dans les laboratoires de Yahoo et Google. Aujourd’hui le protocole HDFS (Hadoop Distributed File System) est retenu par IBM, Informatica, Oracle etc . Il a été conçu pour stocker de gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés.

Le Big Data permet le stockage des données de messages en audio, en vidéo ou de messages écrits, d’informations de localisation et autres et fait tout simplement rêver les « marketeurs ».

Mais le chemin à parcourir est semé d’embûches, retenons simplement deux interrogations :
1 / Comment intégrer ses données nouvellement collectées à l’existant ?
2 / Comment assurer la qualité de ces nouvelles données stockées ?
Que nous parlions de nos bonnes vielles données sociodémographiques ou des données nouvelles issues de no modes de vie « connectés », le défi de la qualité des données reste entier.

Le Big Data n’apporte pas de solution miracle au « gavage » des bases de données par des informations incomplètes, altérées ou « datées ».

Le Big Data, pas un miracle…mais quand même

Pour aller plus loin :

Hadoop ;

Comment les entreprises utilisent le Big Data

Un exemple de solution : Oracle

Segmentation comportementale : mort annoncée

Mort annoncée d’une segmentation comportementale

segmentation comportementale

mort d'une segmentation

Pourquoi les segmentations comportementales meurent-elles ?

Et combien de temps sont-elles utilisables avec de bons résultats ?

Nous nous intéresserons aux segmentations développées par les grandes entreprises disposant d’un grand nombre de clients (banques, compagnies d’assurances, grand courtiers d’assurances, grande distribution, édition, constructeurs d’automobiles  etc.)

Le premier facteur d’obsolescence, c’est l’évolution des comportements :

Par construction, les segmentations comportementales visent à construire des groupes de clients dont les comportements sont stables.

Les comportements retenus correspondent à des courants qui traversent toute la population.

Il ne serait pas raisonnable d’agir autrement compte tenu du coût de création d’une telle segmentation et de l’investissement nécessaire pour déployer ce genre de segmentation à l’ensemble des métiers et à l’ensemble des acteurs en contact d’une entreprise.

Sauf grave crise, on peut considérer que les comportements identifiés ont une durée de vie d’environ  5 à 8 ans.

Les comportements nouveaux qui émergent ont besoin de temps pour se diffuser, ils s’affirment progressivement.

Illustrons ce propos par l’utilisation d’internet dans l’achat de produits de voyages.

Internet est apparu avec des fonctions de e-business dès les années 95-97. Déjà les instituts d’étude annonçaient un futur raz de marée pour ce type d’achat. Dès 1998 apparaissent en France des « Pure-players » de la vente en ligne.

Dans le domaine de l’e-tourisme, Nouvelle Frontière ouvre son premier serveur commercial en 1995. Il propose des enchères dès 1998 et en 2010 l’e-tourisme est une question de survie pour les voyagistes.

Mais on peut considérer que c’est seulement à partir de 2003 avec l’arrivée du haut-débit et surtout dans les années 2006-2009 avec sa large diffusion, que les volumes d’achats sur internet imposent la prise en compte de ce comportement dans la construction d’une segmentation comportementale.

Une segmentation comportementale créée dans les années 1995 pouvait ignorer le phénomène, elle devait être adaptée à la marge en 2000 pour identifier les « pionniers » de l’internet sans nécessiter une importante refonte.

En revanche à partir de 2003, elle nécessitait une refonte importante pour prendre en compte ce comportement d’achat qui touchait désormais une population significative et qui caractérisait une nouvelle manière d’acheter.

Mais parfois des modifications de comportements peuvent très brutales.

Il faut toujours rester aux aguets vis-à-vis de comportements émergents, ou de comportements qui connaissent un frein à leur expression.

Une évolution réglementaire, une crise économique, l’apparition d’un nouvel intervenant peuvent brusquement élargir le champ d’expression d’un comportement jusque-là limité à une niche de clients ou simplement temporairement «masqué ».

Illustrons ce propos par la vente de lunettes correctrices sur Internet.

La vente de lunettes correctrices se fait en magasin spécialisé, la France ayant longtemps refusé d’ouvrir cette activité commerciale sur Internet.

De grandes enseignes de ventes de lunettes en magasin ont ignoré le potentiel d’achat de ces produits sur Internet.

L’achat d’un produit aussi technique leur semblait impossible sur ce canal.

Mais seul la loi était un obstacle, le comportement d’achat existait potentiellement chez les consommateurs. Dans ce cas ne pas s’y préparer en identifiant le comportement potentiel est un vrai danger.

Les points de vente se sont multipliés.

Mais l’Europe a imposé à la France de supprimer l’interdiction de vente sur Internet.

Ceux qui n’ont pas anticipé le mouvement risquent bien d’en mourir. Tout le monde s’accorde pour dire qu’internet prendra très vite une part de marché significative à cause de l’attrait du prix sur ce canal. Beaucoup de points de vente vont fermer, des enseignes qui n’ont pas prévu de s’adapter sont clairement en danger.

Ceux qui n’ont pas prévu ce comportement d’achat dans leur segmentation doivent vite réagir.

Le deuxième facteur d’obsolescence, ce sont les données identifiant les comportements :

Les comportements ne sont pas directement lisibles dans le système d’information.  Ils sont interprétés à partir de données qui elles sont disponibles.

Les données utilisables sont celles dont on dispose dans la base de données des clients, avec  leurs qualités et leurs défauts.

Prenons le cas d’une banque :

Imaginons un comportement de clients inquiets pour l’avenir.  Ces clients aux revenus dans la moyenne française, épargnent chaque mois une part importante de leurs revenus en surveillant strictement leurs achats.

Appelons-les, des clients ayant un comportement « d’épargne par l’effort».

Dans la base de données clients on les reconnait aux fréquentes visites en agence bancaire, la détention de plus de 3 produits d’épargne, l’absence de découvert bancaire et la consultation, deux fois par mois, des soldes de leurs comptes d’épargne sur internet. Ils sont très réactifs aux augmentations de tarifs.

Tout client qui a ses caractéristiques est donc associé au comportement « Epargne par l’effort ».

A côté de cela, imaginons un comportement « d’épargne insouciante ». Ces clients dépensent beaucoup et ne se soucient pas des frais qui leurs sont facturés. Mais leurs revenus sont tels que le solde de leur compte en fin de mois peut « nourrir » leurs comptes d’épargne sans effort particulier.

Ils seront par exemple caractérisés par un grand nombre d’opérations sur leur compte chaque mois, et par un virement vers les comptes d’épargne lorsque leur compte dépasse un certain seuil. Ils ne sont pas du tout réactifs aux augmentations de tarifs. Ils ne consultent que rarement leurs soldes sur Internet

La qualité d’attribution du comportement dépend de la qualité des données.

Si des données sont fréquemment manquantes, si la qualité des données collectées se dégrade, l’identification du comportement va aussi se dégrader.

Une segmentation qui s’use si l’on s’en sert.

De plus cette segmentation a été conçue pour permettre d’améliorer la profitabilité des clients par la mise en œuvre d’actions commerciales adaptées.

Une banque va chercher généralement à transformer l’épargne courte en une épargne longue, Dans le cas qui nous sert d’illustration, la banque souhaitera inciter les « épargnants insouciants » à mieux suivre les soldes de leurs comptes de dépôt pour effectuer plus rapidement leurs virements sur leurs comptes d’épargne (pour stabiliser cette épargne et fidéliser le client).

Elle va chercher à rencontrer ces clients (visite en agence), elle va les inciter à consulter leurs comptes plus fréquemment (consultation de leurs comptes sur internet) et les inviter à effectuer des virements plus fréquemment pour améliorer la rentabilité de leurs économies.

Au final, les critères qui permettaient de les repérer ne vont plus être aussi distincts. Pour un certain nombre d’entre eux, leurs caractéristiques dans le fichier clients deviendront très proches de celles des « épargnant par l’effort ».

C’est cette mécanique qui fait vieillir non pas les comportements, mais leur identification dans le système d’information.

Enfin, tenons compte du vieillissement des données elles-mêmes :

L’identification des comportements reposant sur la pertinence des données de la base de données client, il est essentiel d’en assurer la qualité.

Ce n’est pas le moindre des problèmes, car les données vieillissent très vite.

Les données concernant la profession, l’adresse changent très rapidement (une vérification tous les 2 ou 3 ans est indispensable).

La composition de la famille change aussi très vite (phénomène des familles recomposées)

L’arrivé de nouvelles offres conduisent parfois à créer de nouveaux champ de valeur pour une même donnée, ce qui changent la nature de la donnée.

Ainsi la gestion de la donnée de la base de données client va avoir une grande influence sur la durée de vie d’une segmentation comportementale.

Les segmentations comportementales sont des outils précieux du marketing relationnel, mais ce sont aussi des objets fragiles, qui nécessitent une surveillance et des soins constants, ces facteurs sont à prendre en compte avant d’envisager la création d’une telle segmentation.