公开资料整理 · 大数据 / AI · 实战技术博客

大数据开发技术博客:Spark、Flink、湖仓、RAG 和数据治理资料整理

文章已扩成长文版,按公开技术资料和真实工程经验重新组织。不同主题有不同内容重点:Spark 讲执行计划、AQE 和 Spark UI;Flink 讲 Checkpoint、RocksDB 和反压;湖仓讲 CDC、Iceberg、DDL 和小文件;AI 讲 RAG、向量库、权限和评测;治理讲元数据、血缘、质量规则和指标口径。

Spark SQL explainFlink CheckpointKafka Topic实时数仓Flink CDC企业 RAG数据治理
精选文章先看排障类
最新实战文章长文整理,补充原理和配置
推荐专题更接近 CSDN 排查笔记
Spark SQL 慢 SQL 排查实战:从 explain 到 Stage 指标一步步定位

这篇按 CSDN 实战排查风格重写:先描述慢 SQL 现象,再看 explain formatted、扫描量、Join 策略、Shuffle、倾斜和参数,最后给出可落地的优化清单。

Flink Checkpoint 变慢和反压排查:看这几个指标就够了

按实际排障手册写法整理 Flink Checkpoint 慢、反压、状态膨胀、外部 Sink 抖动的定位路径。

Flink CDC + Iceberg 实时入湖:MySQL Binlog 到湖仓表完整链路

参考 CSDN 实时入湖类文章结构,整理 CDC 采集、Flink 清洗、Iceberg 写入、Doris/Trino 查询和运维注意点。

实时数仓架构实战:Kafka → Flink → 湖仓 → Doris/ClickHouse

按照实时数仓 CSDN 常见写法,给出分层、链路、Topic 设计、宽表构建、OLAP 服务和故障恢复方案。

企业级 RAG 知识库实战:文档解析、向量库、权限和评测怎么做

不写空泛趋势,按企业知识库落地写:文档接入、切块、Embedding、向量库、混合检索、权限过滤、评测和线上排障。

向量数据库选型实战:Milvus、ES、pgvector 到底看哪些指标

按 CSDN 选型文章风格,从数据量、过滤条件、更新频率、混合检索、运维成本和 RAG 效果讲向量库选择。

数据治理落地实战:元数据、血缘、质量规则和指标口径怎么串起来

按 CSDN 数据治理系列写法,给出企业数据治理从资产盘点到质量规则、血缘影响面和指标口径管理的落地路径。

Hive 小文件治理实战:为什么任务越来越慢,怎么合并最稳

从 NameNode 压力、MapTask 数量、分区写入、动态分区和合并参数讲 Hive 小文件治理。