11 secretos oscuros de la gestión de datos

Algunos llaman a los datos el "nuevo petróleo", mientras que otros los llaman el "nuevo oro". Dejando de lado la validez de estas metáforas, no cabe duda de que organizar y analizar datos es una tarea vital para cualquier empresa que busque cumplir la promesa de una toma de decisiones basada en datos. Para ello, una sólida estrategia de gestión de datos es clave. Esto incluye gobernanza de datos, operaciones de datos, almacenamiento de datos, ingeniería de datos, análisis de datos, ciencia de datos, etc. La gestión de datos, cuando se realiza correctamente, puede proporcionar una ventaja competitiva a las empresas de todos los sectores. En este artículo, presentaremos... 11 secretos oscuros de la gestión de datos.

Los secretos oscuros de la gestión de datos

Los secretos oscuros de la gestión de datos

Secretos oscuros de la gestión de datos: 1. Los datos no estructurados son difíciles de analizar.

Una parte considerable de los datos empresariales son datos no estructurados. A medida que la transformación digital avanza gradualmente, la cantidad de datos no estructurados crece rápidamente. Estos datos se encuentran dispersos dentro de la empresa en forma de documentos, imágenes, audio y video, etc. Debido a las características de los departamentos, las aplicaciones, las arquitecturas, el entorno multicloud, etc., forman islas de datos no estructurados, difíciles de compartir y usar, y que extraen el valor del contenido, lo que dificulta seriamente el proceso de transformación digital empresarial.

Secretos oscuros de la gestión de datos – 2. Incluso los datos estructurados a menudo no están estructurados.

Los buenos científicos y administradores de bases de datos guían las bases de datos especificando el tipo y la estructura de cada campo. A veces, buscando mayor estructura, restringen el valor de un campo dado a un entero dentro de un rango específico o a una opción predefinida. Aun así, quienes completan formularios de almacenamiento de bases de datos encontrarán maneras de aumentar la dificultad.

Cuando creen que una pregunta no aplica, a veces se indica con un campo vacío; otras veces se indica con un guion o la inicial "na". Un buen desarrollador puede detectar algunos de estos problemas mediante la validación. científicos de datos También se puede reducir esta incertidumbre mediante la limpieza. Pero resulta desesperante que incluso las tablas más estructuradas contengan entradas sospechosas que pueden introducir incógnitas o incluso errores en el análisis.

Secretos oscuros de la gestión de datos: 3. Los esquemas de datos son demasiado estrictos o demasiado laxos.

Por mucho que el equipo de datos se esfuerce por articular las restricciones del esquema, el esquema final utilizado para definir los valores en los distintos campos de datos es demasiado estricto o demasiado flexible. Si el equipo de datos añadiera restricciones estrictas, los usuarios se quejarían de que sus respuestas no se encontraban en la lista limitada de valores aceptables. Si el esquema de datos es demasiado permisivo, los usuarios pueden añadir valores inusuales con poca consistencia.

Secretos oscuros de la gestión de datos – 4. Las leyes de datos son muy estrictas

Las leyes sobre privacidad y protección de datos son estrictas y seguirán endureciéndose. Con más de una docena de regulaciones, como el RGPD, la HIPAA y otras, recopilar datos puede ser muy difícil e incluso más peligroso si son pirateados. En muchos casos, contratar a un abogado cuesta mucho más que contratar a un programador o un científico de datos. Estos problemas son la razón por la que algunas empresas eliminan los datos en cuanto los procesan.

Secretos oscuros de la gestión de datos – 5. El coste de la limpieza de datos es enorme

La limpieza de datos es el proceso de corregir y eliminar registros inexactos de una base de datos o tabla de datos. En términos generales, la limpieza de datos incluye la identificación y el reemplazo de datos y registros incompletos, inexactos, irrelevantes o problemáticos.

Muchos científicos de datos admiten que la mayor parte de su trabajo consiste simplemente en recopilar datos, presentarlos de forma consistente y gestionar un sinfín de lagunas o errores. Quienes tienen los datos siempre dicen: «Todo está en CSV (Valores Separados por Comas, un formato de archivo común y relativamente sencillo) listo para usar». Pero no mencionan los campos en blanco ni las descripciones de los errores. Limpiar datos para proyectos de ciencia de datos puede llevar hasta diez veces más tiempo que ejecutar rutinas en R o Python para realizar análisis estadísticos.

Secretos oscuros de la gestión de datos – 6. Los usuarios desconfían cada vez más de sus prácticas con los datos.

Los usuarios finales y los clientes desconfían cada vez más de las prácticas de gestión de datos de las empresas, y los algoritmos de IA y su uso no han hecho más que aumentar los temores y generar una profunda inquietud en las personas ante el mero hecho de recopilar sus datos. Estas preocupaciones impulsan el proceso regulatorio y, a menudo, provocan crisis de relaciones públicas en las empresas. Además, se interfiere deliberadamente en la recopilación de datos con valores falsos o respuestas erróneas. A veces, la mitad del trabajo consiste en lidiar con socios y clientes maliciosos.

Secretos oscuros de la gestión de datos – 7. Integrar datos externos puede ser rentable, pero también puede ser un desastre.

Una cosa es que las empresas sean dueñas de los datos que recopilan, pero otra muy distinta es que quieran integrar su propia información local con datos de terceros y la enorme cantidad de información personalizada que existe en internet. Algunas herramientas prometen abiertamente recopilar datos de cada cliente para crear un perfil personalizado con cada compra. Así es, usan las mismas palabras que las agencias de espionaje que rastrean a terroristas para rastrear tus compras de comida rápida y tu historial crediticio. ¡Con razón la gente está preocupada y en pánico!

Secretos oscuros de la gestión de datos – 8. Los reguladores están tomando medidas enérgicas contra el uso de datos

Nadie sabe cuándo un análisis inteligente de datos cruzará la línea, pero cuando eso suceda, los reguladores intervendrán. En un caso reciente en Canadá, una investigación gubernamental descubrió que algunas tiendas de donas rastreaban a clientes que también compraban en la competencia.

Según un comunicado de prensa publicado recientemente, «La investigación reveló que el contrato de Tim Hortons con un proveedor externo de servicios de localización en Estados Unidos contenía un lenguaje tan vago y permisivo que permitía a la empresa vender datos de localización desidentificados para sus propios fines». ¿Para qué? ¿Para vender más donas? En fin, resulta que los reguladores prestan cada vez más atención a todo lo que involucre información personal.

Secretos oscuros de la gestión de datos – 9. Tu plan de datos podría no valer la pena

Imaginamos que un gran algoritmo puede hacer que todo sea más eficiente y rentable. A veces, un algoritmo así es posible, pero el precio también puede ser demasiado alto. Por ejemplo, los consumidores (e incluso las empresas) cuestionan cada vez más el valor del marketing dirigido a partir de sistemas de gestión de datos bien diseñados. Algunos señalan que a menudo vemos anuncios de productos que hemos comprado porque los rastreadores de anuncios no se han dado cuenta de que ya no los necesitamos.

El mismo destino suele correr otros planes. A veces, un análisis riguroso de datos identifica las fábricas con peor rendimiento, pero eso no importa, ya que la empresa firmó un contrato de arrendamiento de 30 años para el edificio. Las empresas deben prepararse para la posibilidad de que todos los genios de la ciencia de datos produzcan una respuesta inaceptable.

Secretos oscuros de la gestión de datos – 10. Al final, las decisiones sobre datos suelen ser solo juicios subjetivos.

Los números pueden proporcionar suficiente precisión, pero a menudo lo que importa es cómo los interpretan los humanos. Tras todo el análisis de datos y la manipulación de la IA, la mayoría de los algoritmos necesitan decidir si un valor está por encima o por debajo de un umbral. A veces, los científicos buscan valores p inferiores a 0,05; otras veces, la policía multa a los coches que son un 20 % más rápidos. Estos umbrales suelen ser simplemente valores arbitrarios. A pesar de toda la ciencia y las matemáticas que se pueden aplicar a los datos, existen más zonas grises en muchos procesos basados ​​en datos de lo que creemos, y aunque las empresas pueden estar invirtiendo todo su recursos En sus prácticas de gestión de datos, las decisiones dependen más de la intuición y del juicio subjetivo.

Secretos oscuros de la gestión de datos – 11. Los costes de almacenamiento de datos se disparan

Las unidades de disco son cada vez más grandes y los precios por terabyte están bajando, pero los programadores recopilan datos a una velocidad mucho mayor que la de la caída de precios. Los dispositivos del Internet de las Cosas (IoT) cargan datos constantemente, y los usuarios esperan poder navegar por la extensa colección de estos bytes indefinidamente. Al mismo tiempo, los responsables de cumplimiento normativo y los reguladores exigen cada vez más datos para futuras auditorías. Sería una cosa que alguien revisara algunos de estos datos, pero el tiempo disponible es limitado. El porcentaje de datos que se revisan es cada vez menor. Sin embargo, el precio de los paquetes de expansión de almacenamiento ha ido en aumento.

Conclusión

Gracias por leer nuestro artículo. Si le ha gustado, nos alegrará mucho. Si desea obtener más información sobre la gestión de datos, le recomendamos visitar Flujo de SQL de Gudu Para más información.

Como uno de los Las mejores herramientas de linaje de datos Disponible en el mercado hoy en día, Gudu SQLFlow no solo puede analizar archivos de script SQL, obtener linaje de datos, y realizar presentaciones visuales, pero también permitir que los usuarios proporcionen linaje de datos en formato CSV y realizar visualización. (Publicado por Ryan el 27 de agosto de 2022)

Pruebe Gudu SQLFlow Live

Versión en la nube de SQLFlow

Suscríbete al boletín semanal

Deja un comentario