iTick 基金历史数据批量下载与清洗：缺失值、复权与口径统一

一、批量下载的难点：不是“下载”，是“让每个 symbol 的口径一致”

基金历史数据批量下载后，真正的工作才开始：缺失值、披露延迟、分红与复权口径、回填修正、以及不同产品的交易日历差异，都会让“同一指标”在不同基金上变成不同含义。你如果只追求把数据拉齐，会得到一堆看起来完整、实际不可比较的时间序列。

本文关注如何把批量数据变成可复用资产：清洗规则前置、口径合同版本化、质量标记贯穿全链路，并把回填修正纳入可对账流程。

二、数据合同：先写清楚你要存的是什么“事实”

在落库之前先定义事实表字段：symbol、date/ts、nav（或 price）、是否复权、分红信息、source、ingest_ts、quality、data_version。事实表只存“数据源给你的事实”，不要把收益、回撤等计算结果写回事实表。事实与计算分离，是后续可复盘的前提。

同时明确时间含义：基金净值的日期通常对应估值日或披露日，二者可能不同。你要明确你在分析里使用的是哪一个时间定义。

三、批量拉取策略：分批、重试、幂等与配额预算

批量下载要从第一天就设计配额预算：每分钟/每小时请求上限、并发上限、以及触发限流后的退避与降级策略。下载也要幂等：同一段区间重复下载应得到一致结果；若存在回填修正，要能识别并只重拉受影响区间。

建议把下载批次做成可追踪日志：批次范围、成功率、失败原因、重试次数与最终覆盖率。这样当某只基金出现异常时，你能快速定位是否来自下载阶段。

四、缺失值处理：先分类，再决定补不补

基金缺失值不应一律填充。建议至少分三类：自然缺失（非交易日/节假日）、披露缺失（本应披露但未披露）、数据缺失（接口失败或质量问题）。自然缺失通常不需要补；披露缺失要标记延迟；数据缺失需要重拉或隔离。

只要你把缺失分类做好，后续的回撤与波动计算才不会被“无意义填补”污染。

五、异常检测：跳点、倒退与不合理波动要有明确处理

基金净值的异常常见于三类：突然跳变（可能是分红/拆分或数据错误）、时间倒退（数据源修正或拼接错误）、以及不合理波动（超出产品属性的波动范围）。异常检测不要只做统计阈值，更要结合产品类型：货币基金、债券基金、权益基金的合理波动范围完全不同。

处理策略也要分级：明显错误隔离；可能真实事件保留但标记；无法确认则进入观察队列并触发告警，避免坏数据进入指标计算。

六、复权与分红：把“总回报口径”写成显式选择

基金分析最容易被误导的是分红口径。你必须明确：你要分析的是单位净值变化，还是分红再投资后的总回报。不同口径会导致完全不同的长期收益结论。更糟糕的是，如果你在不同文章或不同报告里混用口径，读者会以为你在讲两只不同的基金。

建议把口径做成显式配置，并将口径版本写入每次输出报告。口径不写进报告，结论就不可复盘。

七、对齐交易日历：不要用“自然日”强行对齐所有基金

批量净值数据常见的统计偏差来自日历错配：不同地区、不同产品的估值日与披露日不一致。你如果强行用自然日对齐，会把“披露延迟”变成“净值平稳”，或把“估值时点不同”变成“短期波动异常”。

更稳健的做法是保留原始估值日序列，并在需要对齐时使用统一交易日历做映射，同时保留对齐后的质量标记，避免对齐过程制造假信号。

八、存储与版本：让回填修正可追溯、可重算、可回放

基金历史数据经常回填修正。你需要把修正当成常态：保存 data_version 或更新批次号，记录修正范围（哪些日期被改了），并触发受影响指标的重算范围。重算也要版本化：同一份报告对应哪一版数据、哪一版清洗规则、哪一版口径配置。

只有当版本链条完整，你才能在一年后复盘时回答“当时我们看到的净值到底是什么版本”。

九、质量监控：先监控数据健康，再监控绩效指标

批量系统上线后，最重要的监控不是收益曲线，而是数据健康：更新延迟、缺失比例、异常比例、回填频率、以及不同产品的口径一致性。数据健康恶化时，系统应自动降级：暂停部分输出、只展示历史已确认区间、或提示用户数据处于修正期。

把监控与动作绑定，才是真正的工业化数据系统。

外汇 · 指数 · 股票 · 加密 · 期货 · 基金

专业的金融行情数据 API 服务，提供实时与历史行情接口，适合量化回测、风控面板、交易策略与数据产品搭建。

十、最小验收：三组回归证明“清洗没有悄悄改结论”

清洗系统最容易发生的事故是：规则改了、结果变了，但没有任何人意识到。建议你把验收拆成三组回归测试并固定频率跑：第一组是不变量回归（例如净值必须为正、日期单调、缺失分类比例在合理范围）；第二组是抽样对账（随机抽取若干基金与若干日期，对比原始接口返回与事实表落库是否一致）；第三组是指标回归（选定一组代表性基金与固定窗口，比较关键指标在规则升级前后的差异，并要求差异能用“口径变更说明”解释）。

当这三组回归存在，清洗系统就从“脚本”变成“可演进的产品”：你可以大胆迭代规则，同时保持结果可追溯、可解释。

十一、结语：批量清洗的目标是“可比较、可复盘、可扩展”

批量下载基金历史数据不是把数据拉全就结束，而是要把它做成可比较资产：口径一致、缺失可解释、异常可追溯、回填可重算、输出可版本化。做到这些，你才能把净值曲线、回撤与归因写成长期可更新的内容与系统，而不是一次性脚本与一次性结论。