4  数据清洗与整合

4.1 清洗步骤

  1. 缺失值检测与必要填补
  2. 日期与代码字段标准化
  3. 重复记录去除
  4. 离群收益率标注
  5. 宽表与长表互转
  6. 多表按键合并并核对行数变化

4.2 存储策略

  • 基础格式: CSV
  • 进阶格式: Parquet

在本项目规模下,Parquet 在列式读取和类型稳定性方面更适合后续扩展。