Big Data study Case ING Belgium


Pourquoi se lancer dans le Big Data?

Pour ING Belgium, le choix de s’orienter vers le Big Data est lié à la nécessité de trouver de nouvelles ressources de ciblages.

En 2009, 5% des contacts commerciaux s’appuient sur des modèles de scores. Mais en 2014, c’est 60% des contacts qui résultent de modèles prédictifs.Environ 4,4 millions de scores sont utilisés dans la sélection des clients à contacter.

La demande du marketing porte sur des ciblages de plus en plus fins et le potentiel de réponses basées sur les techniques utilisées jusque-là s’épuise.

Pour qui et sur quels thèmes initier la démarche ?

En 2014, ING Belgium décide de créer un « Lab Big Data ». Les premières applications sont réalisées pour le marketing « retail » et les entreprises. La Direction du Marketing était la plus intéressée par cette démarche et constituait un excellent « sponsor ».

Les premiers travaux portent sur des données non structurées, il s’agit d’exploiter les « commentaires libres » laissés par les conseillers dans l’outil de CRM. La recherche s’oriente ensuite vers l’identification du réseau de contacts des clients entreprises. Ces travaux sont très vite encourageants.

Aujourd’hui le Big data est bien installé dans une fonction d’exploration de données qui ne seraient pas exploitables par les techniques habituelles d’analyses statistiques.

Comment organiser un « Lab Data » ?

L’équipe est constituée de 9 personnes. Elle présente la particularité d’être pluridisciplinaire

  • 3 spécialistes de l’IT qui maintiennent la plateforme et déploient les outils*
  • 1 expert métier
  • 3 Datascientists
  • 1 planificateur/organisateur

Quelle expérience en retire ING Belgium ?

Tout d’abord le Big Data recèle bien des trésors de connaissance.

Dans le cas présent, le Big data est envisagé comme un outil de R&D. La plateforme est déconnectée des infrastructures de production de la Banque. On gagne en souplesse et on ouvre des voies de recherche qui n’auraient pas pu être investiguées autrement.

Pour ING Belgium, la clé du succès d’un Big Data de R&D repose sur une équipe pluridisciplinaire constituée d’experts IT, d’experts métiers, de Datascientists et d’au moins un organisateur.

Le Datascientist doit avoir un profil particulier. Il a d’autres compétences que le statisticien travaillant habituellement sur les scores.

  • Il a l’esprit tourné vers l’exploration, il est curieux, il est autonome pour trouver des solutions
  • Il a une bonne expertise du métier pour lequel il fait ses recherches
  • Il sait coder en différents langages pour assurer son autonomie (dont « R » et « Python »)
  • Il est statisticien et mathématicien
  • Il a des connaissances en intelligence artificielle
  • Enfin, il aime travailler en équipe

Comme on s’en rend compte, il n’utilise pas spécialement SAS ou d’autres outils standardisés d’analyses statistiques (SPSS…)

Une autre clé du succès tient à l’organisation du travail. Il est indispensable d’entretenir un rythme soutenu sinon le risque de s’enliser dans des recherches sans intérêt existe réellement.

ING Belgium s’organise avec des méthodes agiles (dans ce cas, c’est du Scrum avec des « sprints » de 2 semaines).

Tous les 15 jours une réunion de travail permet un échange pluridisciplinaire sur les recherches engagées et prend la décision de continuer ou d’arrêter l’analyse.

Le succès de cette démarche ouvre sur de nouvelles questions, l’une d’entre elles retient l’attention.

Compe tenu de la connaissance métier nécessaire au Datascientist et au travail d’équipe à organiser autour de thèmes de recherche, faut-il ouvrir ce Data Lab à d’autres Directions de l’entreprise, ou créer autant de Data Lab que de domaines d’expertises ?

Nous verrons dans un prochain article un début de réponse à cette question.

voir la vidéo de l’intervention lors de la conférence Eacp-Marketvox, IESEG

Study Case Big Data ING Belgium

Publicités

Cherche ces mots ! cherche !

Cherche ces mots !..

… ou le Business Search au SEMO

search marketing

Le search marketing

Le SEMO (le salon des études) tenait sa 15è édition au Palais des Congrès le 2 et 3 Novembre 2011

Cette année le SEMO connaissait sa crise.

Le monde des études a connu son vent de révolte cette année avec la création du collectif « Re-Création » qui a fait sécession, quittant le SEMO pour organiser sa propre manifestation, « Le printemps des études » qui se tiendra le 5 et 6 avril 2012.

Résultat, les rangs étaient clairsemés et les allées du salon bien tristes (Repères, Harris Interactive, Stratégir, Mica Research entre autres ont déserté le SEMO pour Le Printemps des Etudes).

Ghislaine Chambrain (Groupe Tarsus France, organisateur du SEMO) déclarait: « Nous faisons tout pour avoir une manifestation petite mais de qualité ». L’objectif de faire une petite manifestation a bien était atteint, je confirme.

Ceci dit, quelques conférences valaient vraiment le déplacement.

L’une d’entre m’a ravi et inquiété.

La présentation du « Social Media Search » :

D’une manière générale, les outils du « Business Search » sont des applications qui analysent les données structurées et non structurées (photo, verbatim par exemple) du web pour restituer des informations sur la manière dont les avocats  ou les détracteurs de l’entreprise ou d’un produit s’expriment.

Les outils de « Search Marketing » font de gros progrès et leur intérêt devient de plus en plus évident en matière de perception des attentes des consommateurs.

La démarche est relativement simple.

1 – La première étape consiste toujours a bien identifier le problème, ex : mon produit plaît-il toujours au consommateur, malgré l’irruption d’un concurrent qui a beaucoup communiqué (l’exemple le plus intéressant portait sur une étude faite pour le compte d’un laboratoire pharmaceutique).

2 – On définit ensuite les sites Internet, les forums, les blogs, que l’on va visiter pour connaître l’avis des consommateurs. C’est l’étape d’indexation des sites à visiter.

C’est une étape importante, on peut facilement arriver au choix de plusieurs milliers de sites.

3 – Vient alors le choix des mots, des noms, des logos, des expressions que l’on va détecter pour constituer une base d’analyse.

Dans l’exemple proposé, il s’agissait de rechercher tout ce qui pouvait évoquer une prescription médicale « X » sur Facebook, Twitter, Youtube, sur les blogs, les forums etc…

Les forums sont une source particulièrement intéressante. Outre les sites traditionnels d’échange sur les effets des médicaments comme « doctissimo« , il y a de nombreux sites communautaires de personnes atteintes de certaines affections qui sont très riches en informations extrêmement précises.

On y ajoute ce que la société Lingway (qui propose une solution de Business Search) appelle de l’Open Web. C’est la  recherche de sites qui évoquent le sujet traité mais qui n’ont pas été indexés (on cherche par ce moyen de nouvelles sources d’informations, sources naissantes ou sites qui s’ouvrent au sujet de l’étude).

4 – On lance alors la recherche. C’est l’outil dénommé Crawler qui va lire toutes les pages qui nous intéressent et qui va « remonter » les informations utiles dans notre base de travail.

Un autre outil (textmining et moteur d’analyse sémantique) analyse ces informations, les trie et les ordonne.

L’outil de textmining va reconnaître la langue, les mots ou des expressions. Il doit être capable de tenir compte d’une utilisation plus ou moins libre de l’orthographe, s’affranchir des pièges de la typographie etc.

Interviennent ensuite les outils d’analyse syntaxique, puis l’outil d’analyse sémantique qui vont donner une valeur aux  informations collectées en les replaçant dans leur contexte.

Quand on aborde un sujet très technique, l’outil d’analyse sémantique va permettre de constituer un dictionnaire des mots du métier.

5 – Nous voilà prêt à construire une représentation statistique de ce qui se dit sur le web à propos de notre produit.

On peut utiliser ces techniques pour suivre sa réputation (ce que l’on dit sur ma marque), pour réaliser de la veille sur un sujet à l’étude (que pensent les consommateurs du partage de véhicule pour les déplacements urbains) ou tout simplement pour constituer un moteur de recherche interne dans la documentation d’une entreprise.

S’agissant de la présentation faite au SEMO, il était question d’apprécier la réputation d’un médicament. On va pouvoir déterminer  si les utilisateurs évoquent principalement les effets secondaires et dans quelle proportion ou si à l’autre extrême le médicament évoque le bien être par exemple.

L’intérêt de la méthode est bien évidemment de passer d’un ensemble de discours (données non structurées) à des données structurées que l’on va pouvoir ordonner, classer, évaluer, analyser à l’aide d’outils statistiques.

Il est possible de produire des tableaux de bord qui permettront de donner une représentation de la situation actuelle et de son évolution.

Il existe un grand nombre de solutions techniques permettant de réaliser ce type d’analyse.

Lingway présentait la sienne au SEMO, mais j’ai eu l’occasion de voir des démonstrations avec la solution Sinéqua qui est aussi particulièrement impressionnante pour analyser les sites dans de multiples langues, ce qui peut être un atout pour une entreprise qui a une présence internationale.

Bien entendu ces bijoux de technologie ont un prix, une licence d’un de ces outils sophistiqué peut dépasser les 25 à 30 000 euros, ce qui ne les met pas à portée de toutes les entreprises. Heureusement il existe des propositions moins sophistiquées et moins chères.

Mais revenons sur le témoignage des personnes qui partageaient leur expérience avec les visiteurs du SEMO.

On imagine bien tout l’intérêt d’une telle mise en oeuvre.

Toyota par exemple, l’utilise comme outil de veille pour collecter des commentaires sur ces modèles de voiture (avis sur la finition, la consommation, la tenue de route).

Le Laboratoire qui témoignait au SEMO l’utilise pour mieux connaître les effets secondaires de ces molécules.

Mais certaines utilisations font débat.

Témoin ces utilisation également proposée au SEMO.

1 – La mise en fiche des « influenceurs » :

Un prestataire utilise cet outil pour mettre à disposition de ces entreprises clientes une carte de ceux qui parlent de leurs produits.

Ceux qui s’expriment sur cette marque font l’objet d’une fiche présentant leur identité, le ou les sites sur lesquels ils s’expriment et une évaluation de leur capacité à influencer l’opinion. Sont particulièrement surveillés les Blogs et les Twitt.

Cette société utilise aujourd’hui 18 critères d’informations de ces acteurs du web.

S’agissant d’une entreprise française, je suis persuadé que cela se fait strictement dans le respect de la protection des données personnelles. Mais nous avons vu que ces outils sont multilingues et que n’importe quelle entreprise dans le monde peut réaliser ce « fichage » , y compris des entreprises qui n’ont pas la même déontologie ou les mêmes contraintes que nos entreprises nationales.

2 – L’aveuglement du Web :

Une entreprise témoignait sur une technique qui mérite également réflexion.

Face à une marée d’avis critiques sur un nouveau produit, elle identifie les sources de ces avis (dans le cas proposé il s’agissait de Facebook), puis elle organise l’inondation du web, par des avis positifs qu’elle fabrique sur les sites à l’origine du « Bad Buzz ».

Si j’admets qu’en cas de crise, il faut parfois savoir éteindre un incendie, une technique systématique d’extinction des critiques me semble sans intérêt.

Une entreprise a tout intérêt à écouter ses consommateurs et les « influenceurs » de son marché pour progresser.

Sachant que Lingway et Sinéqua font bien leur travail, je suis persuadé que leur marque ayant été citées, ils détecteront mon « post ».

Qu’ils sachent que je les remercie pour leurs explications patientes et éclairées. 

Vive le SEMO !