TIO AUTOPLAT · 数据底座 L2

DataHub数据中台

不是传统意义上的数据仓库,而是围绕 AI、支撑 AI 的可信数据底座。让数据从「存得住」进化为「用得好」,最终实现「AI 来干活」。

47+
核心功能项
6
能力域
20+
数据源类型
批流一体
处理架构
PRODUCT OVERVIEW

数据资产沿途散乱,治理与 AI 应用两张皮

多数企业的数据现状是:各系统数据孤岛层叠、指标口径不一、质量问题难以溯源、数据资产无法直接为 AI 模型提供训练弹药。DataHub 将湖仓一体存储、可视化数据加工、标准化治理、训练数据集管理与数据服务化整合为一个闭环平台,让数据从接入到服务发布全程可控,并原生支撑 AI 应用。

数据孤岛问题——多源异构批流一体接入,湖仓一体存储,数据资产统一目录管理
指标口径不一——主数据与指标中心内建,标准贯穿数据全链路,消除口径分歧
AI 数据准备陷阱——训练数据集流程内建,知识库直通,数据治理结果直接进入 AIHub
47+
核心功能项
六大能力域
全链路覆盖
批流一体
多时效适配
AI 就绪
训练数据直通

六大能力域

覆盖数据从接入、存储、加工、治理到服务化与 AI 一体化的完整链路,47+ 核心功能项

01平台与湖仓
应用级数据中台运营总览(表规模、湖仓健康、采集态势)
子能力 Profile 配置与依赖闭包校验
多引擎湖仓底座(StarRocks / MySQL / ClickHouse / DuckDB)
Iceberg 快照、时间旅行、回滚与表级维护
冷热归档策略与生命周期时间线
02数据接入
JDBC 数据源管理与可视化库表探查
批式 FULL/INCREMENTAL 同步与 CDC(Debezium)
Kafka/RabbitMQ 流式微批入湖
API/FTP/SFTP/S3/HTTP Push 扩展采集器
CSV/Excel/JSON/Parquet 及多模态文件入湖
03数据加工与编排
X6 DAG 流水线可视化设计与 CRON 调度
13 类 DAG 节点(SOURCE/SINK/SQL_TRANSFORM/FILTER/AGGREGATE 等)
单节点 Schema 推导、采样预览与试跑
Flink 集群/作业/CDC 任务管理(扩展交付)
流式部署、事件路由与媒体网关
04数据治理
技术元数据登记、湖表同步与 Schema 历史画像
表级/列级血缘图谱、路径与影响分析
数据标准、码表字典、逻辑/物理建模与物化
指标中心与标准合规扫描、违规修复建议
敏感分级、动态脱敏与访问审计
主数据实体合并去重、时点回滚与对外分发
05指标语义与开放服务
开放清单与数据服务(只读 SQL)配置
按已发布资源生成动态 OpenAPI
Webhook 订阅推送与失败重试
SQL 导出 CSV/XLSX(脱敏)与下载审计
Access Hub 跨应用数据共享场景
06AI 一体化
KB 同步(表/主数据→应用知识库,可配脱敏与字段白名单)
知识化作业、知识策略与切片入 RAG
训练数据集出口(衔接 AIBase)
MCP 工具(目录摘要、元数据样本、流水线运行状态)
RAG/召回链路调试(管理端验证检索效果)

全链路数据治理流程

从多源接入到 AI 消费,每一个环节都在治理体系的管控之下

DataHub 全链路数据治理流程图

AI 辅助能力

聚焦于降低治理门槛和提升运维效率,与 AIBase 的辅助训练形成互补

智能建模与数据探测

根据业务描述自动推荐逻辑模型与指标草案,建议质量规则并解读失败根因,让业务人员也能参与建模与质量治理。

知识化助手

按文档类型自动推荐切片与 Embedding 策略,召回失败时归因分析,加速知识上线。

运维助手

解读采集与流水线运行日志,给出处置建议,缩短故障恢复时间。

Skill 发现

自动识别可封装为标准化 Skill 的数据服务,推动数据能力资产化。

平台能力保障

端到端闭环

从多源接入、湖仓存储、可视加工、标准治理到服务发布与知识化,在同一产品内一气呵成。

批流一体

支持批量采集、CDC 近实时、Flink 流处理、视频流接入,适配全场景数据时效要求。

治理内建

标准、质量、安全、主数据贯穿数据全链路,而非事后补丁。

AI 就绪

原生训练数据集治理、知识化与召回调试,直接为模型训练与智能应用提供标准化数据弹药。

开放生态

数据服务 API、订阅推送、事件路由与开放密钥,使 DataHub 的数据能力可被外部系统与 Skill 生态安全消费。

USE CASES

落地场景

数据治理与 AI 赋能的典型企业层应用

数据治理场景

集团级数据治理

多业务单元数据汇聚入湖,统一指标口径与主数据标准,质量规则自动扫描与一键修复,数据资产目录全局可见。

数据开放场景

AI 训练数据准备

模型训练数据集流程内建,支持跨应用数据选择、预览、审计与一键开训。DataHub 管数据,AIBase 管模型,边界分明。

构建可持续演进的数据资产体系

与 AIHub 原生耦合,DataHub 治理结果直接进入知识库,数据与智能体不再是两套体系