Catálogo de Datos: La Fuente Única de Verdad para los Datos

"Where is the data?""¿Dónde están los datos?" En la mayoría de las organizaciones, esta simple pregunta es el inicio de una investigación forense que consume mucho tiempo, a través de tablas no documentadas, historiales de Slack y paneles de inteligencia empresarial contradictorios. El resultado es esfuerzo duplicado, métricas inconsistentes y falta de confianza en los datos.

Arkham's Data Catalog is engineered to be the definitive source of truth for all data assets in your organization. It's not a passive registry; it's an active, central component of your data strategy. By automatically ingesting metadata and organizing assets into clear Staging, Production, and ML Model tiers, our Catalog provides a reliable, searchable, and governed path for builders to find and use the right data for the job.

Our Data Catalog, Arkham's single source of truth, providing rich metadata, lineage, and AI-powered suggestions from TARS to accelerate data discovery.

Cómo Funciona: Las Tres Capas de Datos

Nuestro Catálogo de Datos está diseñado alrededor de un sistema de tres capas para garantizar la calidad de los datos y proporcionar un ciclo de vida claro para tus activos de datos. Esta estructura es gestionada automáticamente por nuestra plataforma mientras usas las herramientas principales para desarrolladores.

Staging Tier: Esta capa contiene datos en bruto, no validados, ingeridos directamente desde tus sistemas fuente mediante Conectores. Los datasets de preparación ofrecen una instantánea inmediata y consultable de tus fuentes y sirven como entrada directa para tus pipelines de transformación.Connectors. Staging datasets provide an immediate, queryable snapshot of your sources and serve as the direct input for your transformation pipelines.
Production Tier: Esta capa contiene los datasets limpios, validados y transformados que son el resultado del Pipeline Builder. Estos son tus activos de datos de alta calidad y confianza, listos para su consumo.Pipelines. These are your high-quality, trusted data assets, ready for consumption.
ML Models Tier: Esta capa contiene los resultados directos de tus modelos de aprendizaje automático desde el ML Hub. Los datasets aquí incluyen resultados de inferencia, datos de entrenamiento/prueba y métricas de desempeño del modelo, proporcionando un registro completo y auditable de la actividad de tu modelo.ML Hub. Datasets here include inference results, training/testing data, and model performance metrics, providing a complete, auditable record of your model's activity.

🤖 AI-Assisted Discovery with TARS

Our Data Catalog is where TARS's deep understanding of your data landscape shines. It acts as an intelligent discovery tool, saving you hours of manual exploration. You can ask complex questions in natural language:

"Show me the lineage for the @production_orders dataset. What pipelines create it and what workbooks consume it?"

TARS can also help you explore schemas, profile columns, and even generate sample queries, making data discovery faster and more intuitive.

Principales Beneficios Técnicos

Clear Data Lifecycle: El sistema de tres capas proporciona un camino claro y prescriptivo para todo el desarrollo de datos, desde la ingesta en bruto hasta los insights impulsados por ML.
Automated Data Discovery: El catálogo registra automáticamente datasets de todas las fuentes—Conectores, Pipeline Builder y ML Hub—asegurando que siempre sea un reflejo actualizado de tu Lakehouse.Connectors, Pipelines, and our ML Hub—ensuring it is always an up-to-date reflection of your Lakehouse.
Data Lineage and Provenance: Proporciona un grafo completo de trazabilidad para cada activo de datos, permitiéndote rastrear los datos desde su fuente hasta su consumo. Esto es crítico para análisis de impacto, análisis de causa raíz y cumplimiento normativo.
Fine-Grained Access Control: Protege tus datos con herramientas robustas de gobernanza. Puedes aplicar Listas de Control de Acceso (ACLs) directamente a los datasets, asegurando que usuarios y roles solo tengan permiso para ver y consultar los datos que están autorizados a acceder.
Integration with Arkham's Ecosystem: El Catálogo de Datos es el núcleo central que conecta todos los demás componentes, desde Conectores hasta Playground, permitiendo una experiencia fluida para los creadores.Data Catalog is the central hub connecting all other components, from Connectors to our Playground, enabling a seamless builder experience.

Visión General de la Plataforma de Datos: Entiende cómo el Catálogo de Datos actúa como el núcleo central en el flujo de trabajo de datos.
Conectores: La fuente de todos los datasets en la capa de Preparación.
Pipelines:: Consume datos de la capa de Preparación y publica datasets confiables en la capa de Producción.
Playground:: La herramienta principal para explorar, consultar y validar datasets en el Catálogo.
TARS:: Tu copiloto de IA para el descubrimiento inteligente de datos, exploración de esquemas y rastreo de trazabilidad.

Catálogo de Datos: La Fuente Única de Verdad para los Datos

Cómo Funciona: Las Tres Capas de Datos

Principales Beneficios Técnicos

Capacidades Relacionadas