
ESTRUCTURA Y CALIDAD DE DATOS DE LA EMPRESA
Estructura
Puede entenderse como un sistema de conceptos coherentes enlazados, cuyo objetivo es precisar la esencia del objeto de estudio.
En programación, una estructura de datos es una forma de organizar un conjunto de datos elementales (un dato elemental es la mínima información que se tiene en el sistema) con el objetivo de facilitar la manipulación de estos datos como un todo o individualmente.
Estructura de datos y racionalización de la información
Los sistemas de información (SI) para la administración tienen como objetivo principal mostrar una visión general de la situación de la empresa. Consecuentemente, estos muestran la situación de las operaciones regulares de la empresa para que los directivos puedan controlar, organizar, planear y dirigir.
La base de datos como estructura de los datos de una empresa
Una de las principales aportaciones para los sistemas de información es el concepto de la Base de Datos (BD), pues supone una disciplina en la organización y acceso a los datos que posee la empresa, estas BD sirven para:
-
Agrupar los datos relevantes para el SI de la empresa en un único lugar
-
Evita duplicaciones, evitando equivocaciones al no repetirse los datos
-
Estructura los datos de una única forma desde la perspectiva del SI a lo largo del tiempo
-
Proporciona un acceso fácil a los datos
La BD se ha constituido en el centro del SI, cualquier referencia a datos requeridos por SI pasa por ella, bien sea para almacenarlos por primera vez para consultarlos, modificarlos o eliminarlos.
La BD es un núcleo central en una empresa debido a su administración y uso conjunto, acercando los datos de toda la empresa a aquellos que los necesitan sin tener que ir a buscarlos a los distintos departamentos que integran la organización.
Abstracción de la base de datos
Para que el sistema sea útil debe recuperar los datos eficientemente. Esto ha llevado a los diseñadores a usar estructuras de datos complejas para la representación de los datos en la base de datos

Nivel físico o interno
Describe la estructura física de almacenamiento de la base de datos. El esquema interno emplea un modelo físico de los datos y describe todos los detalles para su almacenamiento, así como los caminos de acceso para la base de datos.
Nivel conceptual o lógico
El nivel inmediatamente superior de abstracción describe que datos se almacenan en la base de datos y que relaciones existen entre esos datos. Por lo tanto describe toda la base de datos en términos de un número pequeño de estructuras relativamente simples.
Nivel de vista o externo
Este nivel más elevado de abstracción solo describe una parte de la base de datos o bien la vista que puede tener el usuario.
Modelos de bases datos
Existen varios tipos de modelos de bases de datos cada tipo tiene su propio modelo de datos (los datos de cómo está estructurado), entre ellas están:
Modelo de base de datos plana
En este modelo hay dos dimensiones, conjunto de datos. Por ejemplo hay una columna de información y dentro de esta columna, se supone que cada dato se referirá al otro.
Modelo de base de datos jerárquica
En este modelo los datos y las relaciones entre los datos se presentan por medio de una serie de tablas, cada una de las cuales tiene varias columnas con nombres únicos y una columna de una tabla representa una relación entre un conjunto de valores.

Modelo de red
Este tipo de organización se la conoce como CODASYL (Conference On Data System Lenguajes), está representado por medio de un conjunto de registros y las relaciones entre los datos se representan por medio de ligas, que pueden considerarse como apuntadores. Los registros de la base de datos se organizan en forma de conjuntos de gráficas arbitrarias
Modelo relacional
En este modelo los datos y las relaciones entre los datos se presentan por medio de una serie de tablas, cada una de las cuales tiene varias columnas con nombres únicos y una columna de una tabla representa una relación entre un conjunto de valores.

Gestor de bases de datos
Un gestor de base de datos es un módulo de programa que proporciona el interfaz entre los datos de bajo nivel almacenados en la BDD y los programas de aplicación y consultas hechos al sistema. El GBDD es responsable de las siguientes tareas.
Interacción con el gestor de archivos: el GBDD traduce las distintas sentencias DML a comandos del sistema de archivos de bajo nivel. Así, el GBDD es el responsable del verdadero almacenamiento, recuperación y actualización de los datos en la BDD.
Implantación de la Integridad: los valores de los datos que se almacenan en la BDD deben satisfacer ciertos tipos de restricciones de consistencia.
Implantación de la seguridad: no todos los usuarios de la BDD necesitan tener acceso a todo su contenido, el GBDD debe hacer cumplir estos requisitos de seguridad.
Copia de seguridad y recuperación: Podría existir fallas externas al sistema que provocarían pérdida de la información por ejemplo daño físico del disco, problemas de suministro de energía y errores de software. Es responsabilidad del GBDD detectar tales fallos y restaurar la información de la BDD al estado que tenía antes de ocurrir el fallo.
Lenguaje de base de datos
Los sistemas de bases de datos proporcionan un lenguaje de definición de datos para especificar el esquema de la base de datos y un lenguaje de manipulación de datos para expresar las consultas y modificaciones.
Lenguaje de manipulación de datos
Mediante esta función los usuarios de la base de datos pueden buscar, añadir, borra, o modificar los datos de la base.
Lenguaje de definición de datos
Esta función debe permitir especificar los datos que integran la base de datos, su estructura y las relaciones entre ellos. Además establecer las reglas de integridad, controles de acceso y vista externa de los usuarios
Lenguaje de control de datos
Mediante esta función los administradores poseen mecanismos para proteger las visiones de los datos permitidas a cada usuario además de proporcionar elementos de creación y modificación de esos usuarios.
Administradores de la base de datos
La administración de estos recursos es responsabilidad del administrador base de datos (DBA). El DBA se encarga de autorizar el acceso a la base de datos de coordinar y vigilar su empleo, y de adquirir los recursos necesarios de software y hardware.
Diseñadores de la base de datos
Se encargan de identificar los datos que se almacenan en la base datos y elegir las estructuras apropiadas para representar y almacenar dichos datos esta actividad se realiza antes de implementar la base de datos.
Usuarios finales
Son las personas que tendrán acceso a la base de datos para consultarla, actualizarla y generar informes, la base de datos es creada para que estos la usen.
Gestores de base de datos
Características de bases de datos libres:
-
Pueda ser usado sin restricciones de ningún tipo
-
Pueda ser estudiado (debe permitir el acceso a su código o fuente)
-
Puede ser redistribuido
-
Puede ser modificado y es permitido con las modificaciones
Gestores de base de datos libres
Firebird
BDB
PostgreSQL
MySQL
Gestores de bases de datos propietarios
DBase
FileMaker
Fox pro
MAGIC
Paradox
Sybase ASE
Sybase ASA
Window Base
Microsoft SQL Server
Access
Oracle
Diccionario de datos
El primer paso en el diseño de una base de datos es recolectar información acerca de la empresa, que es, acerca de su uso, relaciones y significado de datos. Como el diseño de procesos es progresivo, es necesario depositar información acerca de la opinión lógica, interna y externa del modelo en la localización central. Una herramienta que facilita el control y manejo de la información acerca de datos en el diseño, implementación, operación y expansión de fases de una base de datos es llamado diccionario de datos.
LA IMPORTANCIA DE VALIDAR LA CALIDAD DE LOS DATOS EN LAS EMPRESAS
La calidad de los datos es un asunto para situar en el mismo nivel que cualquier otro servicio crítico de la empresa. Un estudio español revela que el 74% de las organizaciones tiene problemas de calidad de datos y manifiesta la necesidad de disponer de información más fiable para tomar decisiones.
Los datos y la información en general son un factor clave en la estrategia de las empresas con un enfoque comercial y de marketing orientado al cliente, y un primer eslabón en procesos de integración de aplicaciones e implantación de sistemas de gestión de información
Calidad de datos
Calidad de datos generalizada a todos los usuarios, proyectos y aplicaciones para que la empresa pueda confiar en todos sus datos para todas sus necesidades y en todo momento. Gracias a la calidad de datos generalizada, los datos empresariales se vuelven fiables y garantizan el éxito en iniciativas estratégicas clave
Una Base de Datos con Calidad, permite por ejemplo conseguir los objetivos de inteligencia comercial, contribuye a mejorar la imagen de la empresa, favorece el ahorro de costes, contribuye a evitar fraude, aumenta la eficacia de las acciones de marketing directo y ayuda a fidelizar y captar clientes.
Sin embargo, la calidad de datos generalmente se refiere al mejoramiento de la calidad de los datos de personas físicas y jurídicas, pues son éstos probablemente los datos que más tienden a degradarse y cuya falta de calidad más impacta en la productividad de las organizaciones.
Los principales beneficios de la calidad de datos son:
Ahorrar costes directos: evitando tener información duplicada y por lo tanto evitar el envío replicado de cartas a un mismo cliente.
Potenciar las acciones de marketing y la gestión: la normalización de archivos mejora el análisis de datos y permite segmentaciones precisas para que sus acciones de marketing y su gestión ganen en precisión y eficacia.
Optimizar la captación y la fidelización de clientes: con los datos correctos, se mejoran los ratios de respuestas y el cliente se siente plenamente identificado con la empresa.
Mejorar la imagen corporativa: el cliente sólo recibe el envío que le corresponde, una sola vez y con sus datos correctos.
Mejorar el servicio: identificación más rápidamente del cliente que llama a un Call Center, reduciendo los tiempos de espera y, dejando tiempo al operador para centrarse en el mensaje de negocio.
Dentro de las actividades de gestión de los datos que realiza una organización resultan cada vez más críticos los procesos que supervisan y garantizan la calidad de los datos. Hay situaciones oportunos que obligan a una inversión fuerte en procesos de calidad de datos como puede ser la fusión o compra de empresas, de igual forma hay procesos de la empresa para los que son clave la fiabilidad de los datos.
Realizaremos un repaso de las principales fases y actividades que conforman los procesos del análisis, mejora y control de datos.
Análisis y perfilado de los datos
En esta fase se realiza un análisis de las diferentes fuentes de datos origen data warehouse (almacén de datos) y data mart.
El objetivo del análisis es conocer la estructura, contenido, fiabilidad y relaciones entre los datos. Esto conlleva analizar:
-
Contenido de los datos: tipo de información que contiene cada fuente y campo. Identificar que información es realmente importante para el análisis.
-
Aprobaciones técnicas: integridad, duplicaciones, valores obligatorios, nulos etc.
-
Estadística predictiva: en base a las estadísticas realizadas obtener el valor más probable más frecuente construir tablas de frecuencia en base a las existentes.
-
Estudiar la programación de los campos (ejemplo código cliente o producto, diferencias en sistemas de marketing y en sistemas de facturación) y reglas de relación (tablas de normalización) entre ellas.
-
Identificar campos comunes y ajustados que deben seguir un patrón establecido para tratamiento y normalización estándar. Ejemplo: nacionalidad, nombres, direcciones postales, teléfono, e-mail, código divisa, código cuenta corriente, código de identidad financiera etc.
-
Definir las acciones a tomar en los errores detectados. Ejemplo: si debemos establecer código de valor indeterminado para los nulos, que hacer en los errores de integridad referencial, etc.
Normalización mejora y enriquecimiento de los datos
Una primera técnica en la normalización de datos sería reconocer entidades de texto con cadenas de texto diferentes, pero que representas la misma entidad de datos en una normalización de direcciones deberíamos conseguir:
-
Marcar registros duplicados mediante la comparación de los campos identificados.
-
Diferentes juegos de representaciones.
-
Añadir otros campos como el código postal.
-
Detectar y corregir cambios de nombre en direcciones.
-
Asignar, finalmente un indicador de fiabilidad.
-
Objetivo de la normalización
-
Eliminar caracteres no deseados
-
Añadir genero en función del nombre de pila
-
Corregir errores de grabación, errores tipográficos, errores ortográficos
-
Asignar un indicador de fiabilidad
En estos casos particulares de nombre y direcciones postales hay que tener en cuenta que normalizar nombres y direcciones es imprescindible para realizar de forma eficaz campañas de marketing, facilita la segmentación por sexo de estas campañas igualmente la LOPD exige que los datos de carácter personal sean exactos.
Motorización y calidad de datos en tiempo real
Hay que definir métricas en base a las reglas de calidad de datos construidas. Se establecerán indicadores de calidad de datos, objetivos en la calidad de los mismos y se definirán scorecards de calidad de datos que permitan realizar un seguimiento continuo estableciendo alertas que nos informen sobre posibles entidades o sistemas con baja calidad de datos. Estos indicadores deben basarse en los objetivos que persiguen los procesos de calidad de datos:
-
Precisión
-
Integridad
-
Consistencia
-
Completitud
-
Validez
-
Accesibilidad
-
Herramientas de calidad de datos
Se trata de un mercado actualmente en expansión, muchas empresas realizan algunos de los procesos de calidad de dato en base a procedimientos de base de datos o programas SQL a medida o bien utilizando las prestaciones de calidad de datos incluidas en las herramientas ETL. Se estima que solo un tercio de las empresas cuentan con herramientas específicas de calidad de datos.

