公开资料整理 · 大数据 / AI · 实战技术博客

大数据开发技术博客：Spark、Flink、湖仓、RAG 和数据治理资料整理

文章已扩成长文版，按公开技术资料和真实工程经验重新组织。不同主题有不同内容重点：Spark 讲执行计划、AQE 和 Spark UI；Flink 讲 Checkpoint、RocksDB 和反压；湖仓讲 CDC、Iceberg、DDL 和小文件；AI 讲 RAG、向量库、权限和评测；治理讲元数据、血缘、质量规则和指标口径。

Spark SQL explainFlink CheckpointKafka Topic实时数仓Flink CDC企业 RAG数据治理

精选文章先看排障类

Spark SQL 慢 SQL 排查实战：从 explain 到 Stage 指标一步步定位

这篇按 CSDN 实战排查风格重写：先描述慢 SQL 现象，再看 explain formatted、扫描量、Join 策略、Shuffle、倾斜和参数，最后给出可落地的优化清单。

Flink Checkpoint 变慢和反压排查：看这几个指标就够了Flink · 2026-04-25 Flink CDC + Iceberg 实时入湖：MySQL Binlog 到湖仓表完整链路湖仓架构 · 2026-04-24 实时数仓架构实战：Kafka → Flink → 湖仓 → Doris/ClickHouse实时数仓 · 2026-04-23

最新实战文章长文整理，补充原理和配置

全部 Spark Flink/Kafka 湖仓 AI/RAG 治理

Spark SQL 慢 SQL 排查实战：从 explain 到 Stage 指标一步步定位

这篇按 CSDN 实战排查风格重写：先描述慢 SQL 现象，再看 explain formatted、扫描量、Join 策略、Shuffle、倾斜和参数，最后给出可落地的优化清单。

长文技术整理分类：Spark阅读 5820评论 482026-04-26

Spark SQLexplain执行计划Shuffle数据倾斜

Flink Checkpoint 变慢和反压排查：看这几个指标就够了

按实际排障手册写法整理 Flink Checkpoint 慢、反压、状态膨胀、外部 Sink 抖动的定位路径。

长文技术整理分类：Flink阅读 5560评论 422026-04-25

FlinkCheckpoint反压RocksDB状态后端

Flink CDC + Iceberg 实时入湖：MySQL Binlog 到湖仓表完整链路

参考 CSDN 实时入湖类文章结构，整理 CDC 采集、Flink 清洗、Iceberg 写入、Doris/Trino 查询和运维注意点。

长文技术整理分类：湖仓架构阅读 5310评论 392026-04-24

Flink CDCIcebergMySQL Binlog实时入湖湖仓

实时数仓架构实战：Kafka → Flink → 湖仓 → Doris/ClickHouse

按照实时数仓 CSDN 常见写法，给出分层、链路、Topic 设计、宽表构建、OLAP 服务和故障恢复方案。

长文技术整理分类：实时数仓阅读 5160评论 362026-04-23

KafkaFlink实时数仓DorisClickHouse

企业级 RAG 知识库实战：文档解析、向量库、权限和评测怎么做

不写空泛趋势，按企业知识库落地写：文档接入、切块、Embedding、向量库、混合检索、权限过滤、评测和线上排障。

长文技术整理分类：AI 工程阅读 6420评论 572026-04-22

RAG向量数据库企业知识库Embedding权限过滤

向量数据库选型实战：Milvus、ES、pgvector 到底看哪些指标

按 CSDN 选型文章风格，从数据量、过滤条件、更新频率、混合检索、运维成本和 RAG 效果讲向量库选择。

长文技术整理分类：AI 工程阅读 6040评论 492026-04-21

向量数据库MilvusElasticsearchpgvectorRAG

数据治理落地实战：元数据、血缘、质量规则和指标口径怎么串起来

按 CSDN 数据治理系列写法，给出企业数据治理从资产盘点到质量规则、血缘影响面和指标口径管理的落地路径。

长文技术整理分类：数据治理阅读 4980评论 412026-04-20

数据治理元数据血缘数据质量指标体系

Hive 小文件治理实战：为什么任务越来越慢，怎么合并最稳

从 NameNode 压力、MapTask 数量、分区写入、动态分区和合并参数讲 Hive 小文件治理。

长文技术整理分类：Hive阅读 4610评论 342026-04-19

HiveHDFS小文件分区合并

Doris / ClickHouse 实时分析表设计：分区、排序、聚合和导入

从实时看板场景出发，整理 Doris 和 ClickHouse 表设计、Kafka 导入、分区排序和常见性能问题。

长文技术整理分类：OLAP阅读 4520评论 312026-04-18

DorisClickHouseOLAP实时分析Kafka导入

Kafka Topic 设计和 Schema 管理：实时链路稳定性的第一步

用 CSDN 实战总结风格讲 Topic 命名、分区数、Key 选择、Schema 兼容、保留策略和消费组管理。

长文技术整理分类：Kafka阅读 4380评论 292026-04-17

KafkaTopic分区Schema消费组

Spark/Flink 数据倾斜治理：热点 Key、加盐和两阶段聚合怎么选

同样是数据倾斜，Join 倾斜、聚合倾斜和窗口倾斜的处理方式完全不同。

长文技术整理分类：性能优化阅读 3420评论 262026-04-16

数据倾斜热点Key加盐两阶段聚合

Airflow 和 DolphinScheduler 生产调度对比：补数、依赖和告警

调度系统选型不能只看界面，核心要看依赖表达、补数能力、失败恢复和权限审计。

长文技术整理分类：调度系统阅读 3340评论 252026-04-15

AirflowDolphinScheduler补数调度

大数据 SQL 开发规范：上线前必须检查的 20 个点

大数据 SQL 上线前的 Review 清单，重点防止全表扫描、笛卡尔积、重复口径和非幂等写入。

长文技术整理分类：SQL阅读 3260评论 242026-04-14

SQL规范分区JoinReview

Flink 异步 IO 维表关联：超时、缓存、重试和限流

Flink 异步维表 Join 的稳定性设计：连接池、超时、缓存、重试、限流和降级。

长文技术整理分类：Flink阅读 3180评论 232026-04-13

Async IO维表缓存限流

指标体系建设实战：原子指标、派生指标和口径管理

指标体系要解决的是“同名不同数”和“重复开发”，核心是原子指标、修饰词、时间周期和版本管理。

长文技术整理分类：数仓建模阅读 3100评论 222026-04-12

指标体系口径DWDDWS

RAG 效果评测实战：召回率、引用准确率和拒答率怎么测

RAG 不能只靠人工感觉好不好，要把召回、引用、答案和拒答拆开评测。

长文技术整理分类：AI 工程阅读 3020评论 212026-04-11

RAG评测召回率引用拒答

推荐专题更接近 CSDN 排查笔记