10 défis en matière de big data et comment les relever
Pour mener à bien une initiative de big data, il faut disposer d’un éventail de compétences et de bonnes pratiques en matière de données. Voici 10 défis liés au big data auxquels les entreprises doivent être prêtes.
Une stratégie de big data bien exécutée peut rationaliser les coûts opérationnels, réduire les délais de commercialisation et permettre la création de nouveaux produits. Mais les entreprises sont confrontées à divers défis en matière de big data lorsqu’il s’agit de faire passer les initiatives des discussions du conseil d’administration à des pratiques efficaces.
Les professionnels de l’informatique et des données doivent mettre en place l’infrastructure physique nécessaire au transfert des données provenant de différentes sources et entre plusieurs applications. Ils doivent également répondre aux exigences de performance, d’évolutivité, d’actualité, de sécurité et de gouvernance des données. En outre, les coûts de mise en œuvre doivent être pris en compte dès le départ, car ils peuvent rapidement devenir incontrôlables.
Le plus important est peut-être que les entreprises doivent d’abord déterminer comment et pourquoi le big data est important pour leur activité.
Dans une perspective plus large, voici 10 défis liés au big data que les entreprises devraient connaître et quelques conseils pour les relever.
1. Gestion de grands volumes de données
Par définition, le big data implique généralement de gros volumes de données hébergés dans des systèmes et des plates-formes disparates. Le premier défi pour les entreprises consiste à consolider les ensembles de données extrêmement volumineux qu’elles extraient des systèmes CRM et ERP et d’autres sources de données dans une architecture big data unifiée et gérable.
Une fois que vous avez une idée des données collectées, il devient plus facile de cibler les informations en faisant de petits ajustements, a-t-il ajouté. Pour ce faire, prévoyez une infrastructure qui permet des changements progressifs. Si vous tentez des changements importants, vous risquez de créer de nouveaux problèmes.
2. Trouver et résoudre les problèmes de qualité des données
Les algorithmes analytiques et les applications d’intelligence artificielle construits sur les big data peuvent générer de mauvais résultats lorsque des problèmes de qualité des données se glissent dans les systèmes de big data. Ces problèmes peuvent devenir plus importants et plus difficiles à vérifier lorsque les équipes de gestion et d’analyse des données tentent d’intégrer des types de données plus nombreux et différents.
Certains problèmes courants de qualité des données dans les systèmes de big data sont les suivants :
- Les données manquantes
- Les données erronées
- Les données redondantes
- Les données incohérentes
- Les données non fiables
- Les données obsolètes
Pour trouver et résoudre les problèmes de qualité des données, les analystes peuvent utiliser une approche en cinq étapes :
- Identifier les données problématiques
-
- Déterminer la cause du problème
-
- Sélectionner la meilleure solution
-
- Appliquer la solution aux données
-
- Vérifier que le problème a été résolu
En suivant ces étapes, les analystes peuvent identifier et résoudre rapidement les problèmes de qualité des données avant qu’ils n’affectent négativement les résultats des algorithmes analytiques et des applications d’intelligence artificielle.
3. Gérer les complexités de l’intégration et de la préparation des données
Les plates-formes de big data résolvent le problème de la collecte et du stockage de grandes quantités de données de différents types, ainsi que celui de la récupération rapide des données nécessaires à l’analyse. Mais le processus de collecte des données peut encore être très difficile.
L’intégrité des stocks de données collectées d’une entreprise dépend de leur mise à jour constante. Pour cela, il faut maintenir l’accès à diverses sources de données et disposer de stratégies d’intégration de big data dédiées.
Certaines entreprises se servent d’un lac de données comme d’un dépôt fourre-tout pour des ensembles de big data collectés auprès de diverses sources, sans réfléchir à la manière dont ces données disparates seront intégrées. Divers domaines d’activité, par exemple, produisent des données importantes pour l’analyse conjointe, mais ces données sont souvent accompagnées de différentes sémantiques sous-jacentes qui doivent être désambigüisées. Attention à une intégration ad hoc pour les projets, qui peut impliquer beaucoup de remaniements. Pour un retour sur investissement optimal des projets big data, il est généralement préférable de développer une approche stratégique de l’intégration des données.
4. Mise à l’échelle des systèmes de big data de manière efficace et rentable
Les entreprises peuvent gaspiller beaucoup d’argent à stocker des données volumineuses si elles n’ont pas de stratégie quant à la façon dont elles veulent les utiliser. Les organisations doivent comprendre que l’analyse des big data commence dès l’étape d’ingestion des données. La gestion des référentiels de données d’entreprise nécessite également des politiques de conservation cohérentes pour éliminer les anciennes informations, d’autant plus que les données antérieures à la pandémie de COVID-19 ne sont souvent plus pertinentes sur le marché actuel.
Ainsi, les équipes de gestion des données doivent planifier les types, les schémas et les utilisations des données avant de déployer des systèmes de big data. Plus facile à dire qu’à faire.
« Souvent, vous partez d’un modèle de données et vous l’étendez, mais vous vous rendez rapidement compte que le modèle ne correspond pas à vos nouveaux points de données et vous avez soudainement une dette technique que vous devez résoudre »
Un lac de données générique doté de la structure de données appropriée peut faciliter la réutilisation des données de manière efficace et rentable.
5. Évaluer et sélectionner les technologies du big data
Les équipes de gestion des données ont le choix entre un large éventail de technologies big data, et les différents outils se chevauchent souvent en termes de capacités.
Lenley Hensarling, directeur de la stratégie de la société Aerospike, spécialisée dans les bases de données NoSQL, recommande aux équipes de commencer par examiner les besoins actuels et futurs en matière de données provenant de sources de streaming et de batch, telles que les mainframes, les applications cloud et les services de données tiers. Par exemple, les plates-formes de streaming d’entreprise à prendre en compte sont Apache Kafka, Apache Pulsar, AWS Kinesis et Google Pub/Sub, qui permettent toutes un déplacement transparent des données entre les systèmes de cloud computing, sur site et hybrides.
Ensuite, les équipes doivent commencer à évaluer les capacités complexes de préparation des données nécessaires pour alimenter l’IA, l’apprentissage automatique et d’autres systèmes d’analyse avancés. Il est également important de prévoir l’endroit où les données pourraient être traitées. Dans les cas où la latence est un problème, les équipes doivent réfléchir à la manière d’exécuter des modèles d’analyse et d’IA sur des serveurs périphériques, et à la manière de faciliter la mise à jour des modèles. Ces capacités doivent être mises en balance avec le coût du déploiement et de la gestion des équipements et des applications exécutés dans les locaux, dans le cloud ou sur la périphérie.
6. Générer des informations sur l’entreprise
Il est tentant pour les équipes responsables des données de se concentrer sur la technologie du big data, plutôt que sur les résultats. Dans de nombreux cas, on accorde beaucoup moins d’attention à ce qu’il faut faire avec les données.
Pour générer des informations commerciales précieuses à partir des applications big data dans les organisations, il faut envisager des scénarios tels que la création de rapports basés sur les indicateurs clés de performance, l’identification de prédictions utiles ou la formulation de différents types de recommandations.
Ces efforts nécessiteront la contribution d’un mélange de professionnels de l’analyse commerciale, de statisticiens et de scientifiques des données spécialisés dans l’apprentissage automatique. Le jumelage de ce groupe avec l’équipe d’ingénierie du big data peut faire la différence en augmentant le retour sur investissement de la mise en place d’un environnement big data.
7. Embaucher et retenir les travailleurs ayant des compétences en matière de big data
« L’un des plus grands défis en matière de développement de logiciels de big data est de trouver et de conserver les travailleurs possédant des compétences dans ce domaine »
Cette tendance particulière du big data n’est pas près de disparaître. Selon un rapport de S&P Global, les architectes du cloud et les scientifiques des données figurent parmi les postes les plus demandés en 2021. Une stratégie pour les pourvoir consiste à s’associer à des sociétés de services de développement de logiciels qui ont déjà constitué des viviers de talents.
Une autre stratégie consiste à travailler avec les RH pour identifier et combler les lacunes des talents existants en matière de big data, a déclaré Pablo Listingart, fondateur et propriétaire de ComIT, une association caritative qui propose des formations informatiques gratuites.
« De nombreuses initiatives de big data échouent en raison d’attentes incorrectes et d’estimations erronées qui sont reportées du début du projet à la fin »
Il est également important d’établir une culture permettant d’attirer et de retenir les bons talents. Mêle si l’on peut facilement résoudre tous les problèmes de données avec quelques scripts SQL et Python (ou autre, le sujet n’est pas là) placés au bon endroit. Avec le temps, on peut aller beaucoup plus loin en embauchant les bonnes personnes et en promouvant une culture d’entreprise sûre qui rend les gens heureux et motivés.
8. Empêcher les coûts de devenir incontrôlables
Un autre défi courant en matière de big data est ce que David Mariani, fondateur et directeur technique de la société d’intégration de données AtScale, appelle « la crise cardiaque de la facture du cloud ». De nombreuses entreprises utilisent des mesures de consommation de données existantes pour estimer les coûts de leur nouvelle infrastructure de big data - mais c’est une erreur.
L’un des problèmes est que les entreprises sous-estiment l’ampleur de la demande en ressources informatiques que crée l’accès élargi à des ensembles de données plus riches. Le cloud, en particulier, permet aux plates-formes de big data d’accéder plus facilement à des données plus riches et plus granulaires, une capacité qui peut faire grimper les coûts car les systèmes de cloud évoluent de manière élastique pour répondre à la demande des utilisateurs.
L’utilisation d’un modèle de tarification à la demande peut également augmenter les coûts. Une bonne pratique consiste à opter pour une tarification fixe des ressources, mais cela ne résout pas complètement le problème. Bien que le compteur s’arrête à un montant fixe, les applications mal écrites peuvent quand même finir par consommer des ressources qui ont un impact sur les autres utilisateurs et charges de travail. Une autre bonne pratique consiste donc à mettre en place des contrôles fins sur les requêtes.
« J’ai vu plusieurs clients où les utilisateurs ont écrit des requêtes de 10 000 $ en raison d’un SQL mal conçu », a déclaré Mariani.
Les équipes de gestion des données doivent soulever la question du coût dès le début de leurs discussions avec les équipes commerciales et d’ingénierie des données concernant les déploiements de big data. Il incombe à l’entreprise de définir ce qu’elle demande ; les développeurs de logiciels doivent être chargés de fournir les données dans un format efficace, et la culture DevOps est chargée de veiller à ce que les bonnes politiques d’archivage et les taux de croissance soient surveillés et gérés.
9. Gouverner les environnements de big data
Les problèmes de gouvernance des données deviennent plus difficiles à résoudre à mesure que les applications de big data se développent sur un plus grand nombre de systèmes. Ce problème est aggravé par le fait que les nouvelles architectures en nuage permettent aux entreprises de capturer et de stocker toutes les données qu’elles collectent sous leur forme non agrégée. Les champs d’informations protégées peuvent se glisser accidentellement dans une variété d’applications.
« Sans une stratégie et des contrôles de gouvernance des données, une grande partie des avantages d’un accès plus large et plus profond aux données peut être perdue »
Une bonne pratique consiste à traiter les données comme un produit, avec des règles de gouvernance intégrées instituées dès le départ. En investissant plus de temps en amont pour identifier et gérer les problèmes de gouvernance des big data il sera plus facile de fournir un accès en libre-service qui ne nécessite pas de surveillance de chaque nouveau cas d’utilisation.
10. S’assurer que le contexte des données et les cas d’utilisation sont compris
Les entreprises ont également tendance à accorder trop d’importance à la technologie sans comprendre le contexte des données et leurs utilisations pour l’entreprise.
« On consacre souvent beaucoup d’efforts à réfléchir aux architectures de stockage des big data, aux cadres de sécurité et à l’ingestion, mais on réfléchit très peu à l’intégration des utilisateurs et aux cas d’utilisation »
Les équipes doivent réfléchir à qui va affiner les données et comment. Les personnes les plus proches des problèmes de l’entreprise doivent collaborer avec celles qui sont les plus proches de la technologie afin de gérer les risques et de garantir un alignement adéquat. Cela implique de réfléchir à la manière de démocratiser l’ingénierie des données. Il est également utile d’élaborer quelques cas d’utilisation simples de bout en bout afin d’obtenir des résultats rapides, de comprendre les limites et d’impliquer les utilisateurs.
Sources
Cet article est une réécriture & une traduction de l’article de « 10 big data challenges and how to address them » écrit par George Lawton.