Les six V du Big Data : exploitez pleinement votre base de données
Les six V du Big Data (Velocity, Volume, Value, Variety, Veracity et Variability) sont les caractéristiques les plus importantes du Big Data. Les connaître permet aux data scientists de tirer davantage de valeur de leurs données.
Au début du 21e siècle, le Big Data n’était désigné que par trois Vs : Volume, vélocité et variété. Au fil du temps, trois autres V - Value (Valeur), Veracity (Véracité) et Variability (Variabilité) - ont été ajoutés pour aider les spécialistes des données à décrire et à communiquer plus efficacement les attributs importants du Big Data.
Qu’est-ce que le Big Data ?
Le Big Data est une combinaison de données non structurées, semi-structurées ou structurées collectées par les organisations. Ces données peuvent être analysées pour en tirer des enseignements et utilisées dans des projets d’apprentissage automatique, de modélisation prédictive et d’autres applications analytiques avancées.
Le Big Data peut être utilisé pour améliorer les opérations, fournir un meilleur service à la clientèle et créer des campagnes de marketing personnalisées. Par exemple, le Big Data peut fournir aux entreprises des informations précieuses sur leurs clients, qui peuvent ensuite être utilisées pour affiner les techniques de marketing afin d’augmenter l’engagement des clients et les taux de conversion.
Et enfin, le Big Data peut être utilisé par des organisations dans les secteurs de la médecine ou de l’énergie, par exemple. Dans le domaine médical, ces données massives peuvent servir à identifier les facteurs de risque des maladies, ou être utilisées par les médecins pour aider à diagnostiquer les maladies chez les patients. Le secteur de l’énergie peut utiliser le Big Data pour surveiller les réseaux électriques, gérer les risques ou analyser les données du marché en temps réel.
Plus vous en savez sur une chose ou une situation, plus vous pouvez faire des prédictions fiables sur ce qui se passera à l’avenir.
Les entreprises qui l’utilisent ont un avantage concurrentiel potentiel sur celles qui ne le font pas, en prenant des décisions commerciales plus rapides et plus éclairées - dans la mesure où les données le permettent.
Volume (volume de données)
Le volume, le premier des six V, fait référence à la quantité de données disponibles. Le volume de données est la base du Big Data, car il s’agit de la taille initiale et de la quantité de données collectées. Le volume est une caractéristique qui concerne principalement la relation entre la taille et la capacité de traitement. Cet aspect évolue rapidement à mesure que la collecte de données continue d’augmenter. Tout comme la capacité informatique de stockage et de traitement.
Si le volume de données est suffisamment important, il peut être considéré comme du Big Data. Cependant, ce qui est considéré comme du Big Data est relatif et change en fonction de la puissance de calcul disponible sur le marché.
Vélocité (vitesse)
Le V suivant est Vélocité. Il s’agit de la vitesse à laquelle les données sont générées et de la vitesse à laquelle elles se déplacent. Il s’agit d’un aspect important pour les entreprises qui ont besoin de flux de données rapides afin que les données soient disponibles au bon moment pour prendre les meilleures décisions commerciales possibles.
Une entreprise qui utilise le Big Data aura un flux important et continu de données générées et envoyées à leur destination. Les données peuvent provenir de sources telles que des machines, des réseaux, des smartphones ou des médias sociaux. Ces données doivent être traitées et analysées rapidement, parfois en temps quasi réel.
Exemple : Dans le domaine des soins de santé, il existe aujourd’hui de nombreux dispositifs médicaux qui surveillent les patients et collectent des données (Données personnelles nécessitant une protection particulière). Qu’il s’agisse de dispositifs médicaux hospitaliers ou de dispositifs à porter sur soi, les données recueillies doivent être envoyées à destination et analysées rapidement.
Toutefois, dans certains cas, il peut être préférable de disposer d’un ensemble limité de données collectées plutôt que de collecter davantage de données qu’une organisation ne peut pas traiter - car cela entraîne un ralentissement de la vitesse des données.
Variété
V pour … Variété. Il s’agit de la variété des types de données. Une organisation peut obtenir des données à partir de différentes sources de données dont la valeur est variable. Les données peuvent provenir de sources internes et externes à une organisation. Le défi de la variété concerne la standardisation et la distribution de toutes les données collectées.
Les données collectées peuvent être de nature non structurée, semi-structurée ou structurée. Les données non structurées sont des données qui ne sont pas organisées et qui existent dans divers fichiers ou formats. En général, les données non structurées ne conviennent pas à une base de données relationnelle traditionnelle, car elles ne s’intègrent pas aux modèles de données traditionnels. Les données semi-structurées sont des données qui ne sont pas organisées dans un référentiel spécialisé mais auxquelles sont associées des informations, telles que des métadonnées. Elles sont donc plus faciles à traiter que les données non structurées (mais par nécessairement légale à traiter). Les données structurées, quant à elles, sont des données qui ont été organisées dans un référentiel formaté. Cela signifie que les données sont plus facilement adressables pour un traitement et une analyse efficaces des données.
Par exemple : données GPS, fichiers médicaux, fichiers audio et vidéo, photos, mesures d’instruments, graphiques, documents Web, cartes de bonus et comportement de recherche sur Internet. Les données non structurées telles que la voix et les médias sociaux rendent le traitement et la catégorisation des données encore plus compliqués. Comment vous assurer que vous ne prenez que les données qui aident à cibler votre public ?
Véracité
La véracité est le quatrième V du Big Data. Il s’agit de la qualité et de l’exactitude des données. Les données collectées peuvent comporter des éléments manquants, être inexactes ou ne pas fournir d’informations réelles et utiles. La véracité fait globalement référence au niveau de confiance dans les données collectées.
Les données peuvent parfois être confuses et difficiles à utiliser. Si elles sont incomplètes, une grande quantité de données peut entraîner plus de confusion que d’informations. Un exemple tiré du domaine médical : si les données sur les médicaments que prend un patient sont incomplètes, la vie du patient peut être en danger.
La valeur et la véracité contribuent toutes deux à définir la qualité et les informations tirées des données. Dans un sens, c’est un facteur d’hygiène. En démontrant la véracité de vos données, vous montrez que vous avez porté un regard critique sur elles.
Valeur
La valeur, le nerf de la guerre. Elle fait référence à la valeur que le Big Data apporte et est directement liée à ce que les entreprises peuvent faire avec les données qu’elles collectent. Être capable de tirer de la valeur des Big Data est une condition préalable, car la valeur des Big Data augmente considérablement en fonction des informations qui peuvent en être tirées.
Les entreprises peuvent utiliser les mêmes outils Big Data pour collecter et analyser les données, mais la manière dont elles en tirent de la valeur doit leur être propre. Et attention aux fuites des données (surtout médicales).
Par exemple, prenons le cas d’un vendeur de croquettes pour chiens et chats en ligne qui possède une base de clients enrichi des informations sur les animaux qu’ils possèdent (âge, stérilisation, maladie, …). Sur la base des informations spécifiques sur les clients et leurs animaux, cette entreprise décide de créer une nouvelle recette de croquette en rapport avec le groupe cible. L’enrichissement vous permet de faire des prédictions sur le produit dont vos clients auront besoin.
Utilisation des « Personas »
Les personas sont un bon moyen de valoriser vos big data car ils donnent un nom et un visage à différents groupes de clients et constituent un moyen très efficace d’orienter davantage les organisations vers le client. Les personas ont été conçus parce qu’il était nécessaire de profiler les nombreux visiteurs de sites Web, ce qui a permis d’améliorer la convivialité de ces sites.
Variabilité
Le dernier V fait référence à la variabilité. La variabilité signifie que certains ensembles de données sont moins cohérents que les données transactionnelles traditionnelles et peuvent avoir plusieurs significations ou être formatés différemment d’une source de données à l’autre. Ce sont des facteurs qui compliquent le traitement et l’analyse des données.
Dans quelle mesure et à quelle vitesse la structure de vos données change-t-elle ? Et à quelle fréquence la signification ou la forme de vos données change-t-elle ?
Prenons l’exemple de la prestation d’abonnement internet:
- un abonnement internet coûte 20 euros,
- un abonnement téléphonique (ligne fixe) 30 euros,
- et un abonnement téléphonique et internet 30 euros.
L’une des options est illogique. Si vous proposez ces options aux gens, la plupart d’entre eux choisissent un abonnement téléphonique et internet, qui semble plus avantageux. Mais si vous supprimez le choix illogique : un abonnement internet pour 30 euros ou un abonnement téléphonique et internet pour 50 euros, alors beaucoup de personnes choisiront l’abonnement internet.
Ainsi, la composition d’un questionnaire ou, par exemple, de boutons de désabonnement, change la façon dont les choses apparaissent aux gens et donc le résultat. En termes purement techniques, cela signifie que si vous changez les variables, votre modèle changera également.
Trouvez les Vs qui s’appliquent à vous et utilisez les
Il existe plusieurs façons de travailler avec les big data qui vous donnent des informations intéressantes. Si vous avez une base de données, il est dommage de ne rien en faire. Utilisez les V qui s’appliquent à vous, et vous ne pourrez pas vous tromper.
Vous pouvez aussi lire nos bonnes pratiques pour votre stratégie en matière de Big Data.