Une définition du Big Data

02/09/2015

Nous entendons beaucoup parler de Big Data, tous les éditeurs et constructeurs ont ajouté ces deux mots dans leurs catalogues mais, aujourd’hui, nous avons le sentiment qu’aucun d’eux n’apporte de solution globale. Essayons donc de trouver ensemble une définition du Big Data.

En commençant à s’informer sur le domaine du Big Data, nous prenons vite conscience qu’il y a trois grands domaines qui émergent :

Les travaux sur les données : la gestion, l’organisation, l’analyse et le stockage des données avec deux nouvelles problématiques qui sont le volume de données et la diversité des structures de données, dites « non structurées », sans oublier la visualisation des données pour les hommes « métiers » des entreprises.

Les données en elles-mêmes : le To (Tera Octet 2⁴⁰) est commun, le Po (Peta Octet 2⁵⁰) apparait et nous commençons à parler d’Eo (Exa octet 2⁶⁰) pour un avenir proche… autant dire que le monde des données ne se rétrécie pas. Plusieurs questions émergent immédiatement de cette problématique des données : comment savoir ce qui existe comme données ? Leurs formats sont-ils exploitables ? Quelle est la véracité des données ? Quelle est la qualité des données ?

La collecte des données : une fois les données identifiées, où sont-elles ? Comment les capter ? Sont-elles en libre accès ?

Big Data ou la Donnée pour apporter de la valeur

De nombreux acteurs, éditeurs et constructeurs proposent leurs solutions pour le domaine des travaux sur les données : Oracle, Datastax (Cassandra), MongoDB… Le monde de l’Open Source est aussi très dynamique notamment le projet Hadoop : son système de fichier mais aussi ses outils de MapReduce (YARN) et de langage de requêtage aux noms barbares (PIG, HIVE). La raison de l’apparition de nouvelles technologies est principalement due à un point très important dans le Big Data : le volume des données.

En effet, le Big Data c’est l’art de raisonner juste avec potentiellement des données fausses. Contrairement aux données dans les systèmes d’informations des entreprises qui sont justes, le Big Data s’appuie sur la théorie des grands nombres des lois des probabilités pour éliminer par statistique les données fausses.

Un exemple, sur Facebook, aucune information n’est contrôlée, parmi ceux qui disent posséder une Ferrari, il y a sûrement des mythomanes mais le grand nombre d’inscrits à Facebook amateurs de la marque au « Cheval Cabré » fait que l’ « insight » ( tendance, indicateur d’intérêt) de la marque Ferrari est correct.

Nous commençons à percevoir que le Big Data va apporter de la valeur par la donnée. Cependant, il y a tellement de données, de types de données et de sources de données que l’enjeu est la corrélation des données entre elles.

L’idée principale est qu’il s’agit de pouvoir répondre à une problématique client en trouvant la réponse dans un ensemble de données qui ne sont pas toutes dans le SI de ce même client mais dans le monde.

Le Data Scientist, ce nouveau métier en un exemple

Après avoir compris la problématique d’un client, le nerf de la guerre est d’arriver à identifier les données et, en les corrélant, permettre de modéliser la solution en fonction des données sélectionnées. C’est là où apparait un nouveau métier : les Data Scientists.

Un exemple : Nous cherchons à cibler par pays quelles publicités de sites touristiques français il faut publier dans des médias locaux.

En soit les photos de vacances publiées sur les réseaux sociaux par des touristes n’ont pas énormément de valeurs. Elles ne sont pas vraiment belles, mal cadrées, etc… Par contre, si nous sommes capables de déterminer la nationalité de l’utilisateur et de sortir les coordonnées GPS associées à la photo, il devient possible de déterminer par nationalité, les lieux qui sont visités et qui ont plu parce qu’ils ont été publiés… c’est une corrélation de données qui permet d’orchestrer la campagne de pub dans chaque pays.

Bien sûr, il ne faut pas oublier la première source de données dont dispose les entreprises… les données de leurs SI ! Les puristes diront qu’il s’agit de projets de Data Mining ou Business Intelligence. Cela n’a pas d’importance, du moment qu’il est extrait de la valeur.

Le Data Scientist apporte :

la connaissance de sources de données. Ces mêmes données qui ne sont généralement pas structurées puisqu’elles sont stockées sans que l’on sache à l’avance ce que l’on va en faire ;

la connaissance des connecteurs pour collecter les données ;

la capacité à mettre en œuvre un moteur pour la corrélation.

Il y a encore beaucoup de chose à dire sur le Big Data. Pour l’informaticien c’est un nouveau défi technologique : nouveau filesystem, nouvelle méthode de tri (algorithme de MapReduce), développement de connecteurs et nouvelle méthode de requêtage (NoSQL) mais avant toutes ces technologies, c’est la sémantique de la donnée qui est prédominante et le positionnement des DSIs. La DSI avec un projet Big Data apporte de la valeur dans les métiers de l’entreprise !

Et vous, comment définiriez-vous le Big Data ?