11 secrets obscurs de la gestion des données
Certains qualifient les données de « nouveau pétrole », tandis que d'autres les qualifient de « nouvel or ». Au-delà de la validité de ces métaphores, il ne fait aucun doute que l'organisation et l'analyse des données sont essentielles pour toute entreprise souhaitant concrétiser la promesse d'une prise de décision fondée sur les données. À cette fin, une solide expertise en données est essentielle. stratégie de gestion des données est essentiel. Cela comprend gouvernance des données, opérations de données, entrepôt de données, ingénierie des données, analyse de données, science des données, etc. La gestion des données, bien menée, peut offrir un avantage concurrentiel aux entreprises de tous les secteurs. Dans cet article, nous vous présenterons 11 sombres secrets de la gestion des données.

Les sombres secrets de la gestion des données
Les sombres secrets de la gestion des données – 1. Les données non structurées sont difficiles à analyser
80%-90% des données des entreprises sont des données non structurées. À mesure que la transformation numérique progresse, leur volume augmente rapidement. Ces données sont dispersées au sein de l'entreprise sous forme de documents, d'images, d'audio et de vidéo, etc. En raison des spécificités des services, des applications, des architectures et des environnements multicloud, elles forment des îlots de données non structurées, difficiles à partager et à exploiter, et qui détournent la valeur du contenu, ce qui entrave sérieusement le processus de transformation numérique de l'entreprise.
Les sombres secrets de la gestion des données – 2. Même les données structurées sont souvent non structurées
Les scientifiques et administrateurs de bases de données compétents guident les bases de données en spécifiant le type et la structure de chaque champ. Parfois, pour plus de structure, ils limitent la valeur d'un champ donné à un entier compris dans une plage spécifique ou à un choix prédéfini. Malgré cela, les personnes qui remplissent des formulaires de stockage de bases de données trouveront des moyens d'augmenter la difficulté.
Lorsqu'ils estiment qu'une question ne s'applique pas, ils l'indiquent parfois par un champ vide ; d'autres fois, ils le signalent par la saisie d'un tiret ou du « na » initial. Un bon développeur peut repérer certains de ces problèmes grâce à la validation. scientifiques des données On peut également réduire cette incertitude en nettoyant. Mais il est exaspérant de constater que même les tables les plus structurées contiennent des entrées suspectes qui peuvent introduire des inconnues, voire des erreurs, dans l'analyse.
Les sombres secrets de la gestion des données – 3. Les schémas de données sont soit trop stricts, soit trop lâches
Malgré tous les efforts déployés par l'équipe chargée des données pour définir les contraintes de schéma, le schéma final utilisé pour définir les valeurs des différents champs de données est soit trop strict, soit trop souple. Si l'équipe chargée des données ajoutait des contraintes strictes, les utilisateurs se plaindraient que leurs réponses ne figuraient pas dans la liste restreinte de valeurs acceptables. Un schéma de données trop permissif risquerait d'ajouter des valeurs étranges et peu cohérentes.
Les sombres secrets de la gestion des données – 4. Les lois sur les données sont très strictes
Les lois sur la confidentialité et la protection des données sont strictes et ne cesseront de se renforcer. Avec plus d'une douzaine de réglementations, telles que le RGPD, HIPPA et bien d'autres, la collecte de données peut s'avérer très difficile, et encore plus dangereuse en cas de piratage. Dans de nombreux cas, faire appel à un avocat coûtera bien plus cher que de faire appel à un programmeur ou à un data scientist. Ces difficultés expliquent pourquoi certaines entreprises suppriment les données dès leur traitement.
Les sombres secrets de la gestion des données – 5. Le coût du nettoyage des données est énorme
Le nettoyage des données consiste à corriger et à supprimer les données inexactes d'une base de données ou d'une table. En termes généraux, le nettoyage des données consiste à identifier et à remplacer les données et enregistrements incomplets, inexacts, non pertinents ou problématiques.
De nombreux data scientists admettent que leur travail consiste principalement à collecter des données, à les présenter de manière cohérente et à gérer d'innombrables failles ou erreurs. Ceux qui disposent des données affirment toujours : « Tout est au format CSV (Comma Separated Values, un format de fichier courant et relativement simple) prêt à l'emploi. » Mais ils ne mentionnent pas les champs vides ni les descriptions d'erreurs. Nettoyer les données pour les projets de data science peut prendre jusqu'à dix fois plus de temps que lancer des routines en R ou Python pour réaliser des analyses statistiques.
Les sombres secrets de la gestion des données – 6. Les utilisateurs sont de plus en plus méfiants à l’égard de vos pratiques en matière de données
Les utilisateurs finaux et les clients se méfient de plus en plus des pratiques de gestion des données des entreprises. Les algorithmes d'IA et leur utilisation n'ont fait qu'exacerber les craintes et susciter un profond malaise chez de plus en plus de personnes, notamment à l'idée même de collecter leurs données. Ces inquiétudes alimentent le processus réglementaire et plongent souvent les entreprises dans des situations de crise de communication. De plus, des individus perturbent délibérément la collecte de données en utilisant de fausses valeurs ou des réponses erronées. Parfois, la moitié du travail consiste à gérer des partenaires et des clients malveillants.
Les sombres secrets de la gestion des données – 7. L'intégration de données externes peut être payante, mais elle peut aussi être désastreuse.
C'est une chose pour les entreprises de posséder les données qu'elles collectent, mais c'en est une autre de vouloir intégrer leurs propres informations locales aux données de tiers et à la multitude d'informations personnalisées disponibles sur Internet. Certains outils promettent ouvertement de collecter des données sur chaque client afin de créer un profil personnalisé à chaque achat. En effet, ils utilisent les mêmes termes que les agences d'espionnage qui traquent les terroristes pour surveiller vos achats dans les fast-foods et votre score de crédit. Pas étonnant que les gens soient inquiets et paniqués !
Les sombres secrets de la gestion des données – 8. Les régulateurs répriment l'utilisation des données
Personne ne sait quand une analyse de données avisée dépassera les bornes, mais lorsque ce sera le cas, les régulateurs interviendront. Dans un cas récent au Canada, une enquête gouvernementale a révélé que certaines boutiques de beignets suivaient les clients qui faisaient également leurs achats chez des concurrents.
Selon un communiqué de presse récemment publié, « L'enquête a révélé que le contrat de Tim Hortons avec un fournisseur de services de localisation tiers aux États-Unis contenait des termes si vagues et permissifs qu'ils autorisaient l'entreprise à vendre des données de localisation « anonymisées » à ses propres fins. » Pour quoi ? Vendre plus de beignets ? Quoi qu'il en soit, il s'avère que les autorités de réglementation accordent une attention croissante à tout ce qui touche aux renseignements personnels.
Les sombres secrets de la gestion des données – 9. Votre forfait de données n'en vaut peut-être pas la peine
On imagine qu'un algorithme performant peut tout rendre plus efficace et rentable. Un tel algorithme est parfois réalisable, mais son coût peut être trop élevé. Par exemple, les consommateurs (et même les entreprises) remettent de plus en plus en question l'intérêt d'un marketing ciblé issu de systèmes de gestion de données bien conçus. Certains soulignent que nous voyons souvent des publicités pour des articles que nous avons achetés, car les outils de suivi publicitaire n'ont pas compris que nous n'en avions plus besoin.
Le même sort s'abat souvent sur d'autres projets. Parfois, une analyse rigoureuse des données permet d'identifier les usines les moins performantes, mais cela n'a aucune importance puisque l'entreprise a signé un bail de 30 ans pour le bâtiment. Les entreprises doivent se préparer à l'éventualité que tous les génies de la science des données produisent une réponse inacceptable.
Les sombres secrets de la gestion des données – 10. En fin de compte, les décisions relatives aux données ne sont souvent que des jugements subjectifs
Les chiffres peuvent fournir une précision suffisante, mais c'est souvent la façon dont les humains les interprètent qui compte. Après toutes les analyses de données et les manipulations de l'IA, la plupart des algorithmes doivent déterminer si une valeur est supérieure ou inférieure à un seuil. Parfois, les scientifiques recherchent des valeurs p inférieures à 0,05 ; d'autres fois, la police verbalise des voitures 20 % plus rapides. Ces seuils ne sont généralement que des valeurs arbitraires. Malgré toute la science et les mathématiques applicables aux données, les zones d'ombre dans de nombreux processus « axés sur les données » sont plus nombreuses qu'on ne le pense, et même si les entreprises investissent tout leur potentiel. ressources dans leurs pratiques de gestion des données, les décisions dépendent davantage de l’intuition et du jugement subjectif.
Les sombres secrets de la gestion des données – 11. Les coûts de stockage des données explosent
Les disques durs sont de plus en plus volumineux et le prix du téraoctet baisse, mais les programmeurs collectent des données bien plus vite que les prix ne baissent. Les appareils de l'Internet des objets (IoT) téléchargent constamment des données, et les utilisateurs s'attendent à pouvoir parcourir indéfiniment cette riche collection d'octets. Parallèlement, les responsables de la conformité et les régulateurs continuent d'exiger toujours plus de données en prévision de futurs audits. Ce serait une chose si quelqu'un examinait réellement certaines de ces données, mais le temps est limité dans une journée. Le pourcentage de données réellement consultées diminue de plus en plus. Cependant, le prix des packs d'extension de stockage augmente.
Conclusion
Merci d'avoir lu notre article. Si vous l'avez apprécié, nous en serions ravis. Pour en savoir plus sur la gestion des données, nous vous conseillons de consulter notre site. Gudu SQLFlow pour plus d'informations.
En tant que l'un des meilleurs outils de lignage de données Disponible sur le marché aujourd'hui, Gudu SQLFlow peut non seulement analyser les fichiers de script SQL, mais aussi obtenir lignée de données, et effectuer un affichage visuel, mais aussi permettre aux utilisateurs de fournir lignée de données au format CSV et effectuer un affichage visuel. (Publié par Ryan le 27 août 2022)
Si vous aimez lire ceci, alors n'hésitez pas à explorer nos autres articles ci-dessous :