# 2026-06-15 T0.5 历史数据与模型重建说明 ## 结论 这次已经把可复现的历史数据接进模型,但不能把它称为“全部历史 T0.5 孖展倍数”。 - 真实 `T0_5_market_heat`:目前只有华盛/捷利页面的实时快照,已归档 5 条当前申购标的。 - 历史结构化数据:`ipohk` 可提供 807 条历史上市数据,其中包括最终超购倍数、一手中签率、暗盘涨幅和首日涨幅。 - 关键限制:`ipohk` 的“超购倍数”是最终或接近最终结果,不是申购过程中的 T0.5 孖展快照,不能倒灌进 T0.5。 所以,本次模型重建采用两层处理: 1. `t0_5_*` 字段:真实申购期间孖展热度,只来自可归档快照。 2. `external_*` 字段:历史最终热度与结果参照,只用于覆盖检查和后验校准。 ## 本次新增数据 | 数据集 | 行数 | 用途 | 阶段安全性 | | --- | ---: | --- | --- | | `ipo_market_heat` | 5 | 当前申购标的 T0.5 孖展热度 | 可用于 T0.5,但历史样本不足 | | `external_ipo_history` | 807 | 历史最终超购、中签率、暗盘、首日表现 | 后验参照,不可用于 T0/T0.5 决策 | | `analysis_model_v0_dataset.csv` | 297 | 主模型训练/分析数据集 | 已加入 T0.5 与 external 字段 | ## 重建后模型覆盖 - 主模型 IPO 行数:297 - D1 标签:273 - 真实 T0.5 孖展快照:5 - 真实 T0.5 且有 D1 标签:0 - 匹配到 `ipohk` 历史记录:102 - 匹配到 `ipohk` 最终超购倍数:95 - `ipohk` 最终超购倍数且有 D1 标签:85 ## 如何读模型结果 真实 T0.5 目前还不能做统计回测,因为 5 条都是当前未上市标的,没有 D1 结果。 `ipohk` 历史最终超购倍数可以用来验证一个方向:高最终热度是否对应更好的 D1 胜率。但它不能回答“当时申购中途看到的孖展倍数是否有效”,因为它不是当时的冻结快照。 ## 已更新文件 - 原始历史数据:`data/raw/external_history/ipohk_listed_20260615T191000Z.json` - 结构化历史数据:`data/snapshots/external_ipo_history.csv` - 主模型数据集:`data/snapshots/analysis_model_v0_dataset.csv` - 模型报告:`reports/2026-06-15_analysis_model_v0.md` - 历史归档脚本:`scripts/archive_ipohk_history.py` ## 下一步 真正让 T0.5 进入可回测模型,需要从今天开始持续采样申购期快照。 建议采样节奏: - T0.5 early:申购首日收盘附近。 - T0.5 mid:申购中段。 - T0.5 final:截止前半天或截止前一晚。 未来每只 IPO 至少保留一到三个冻结快照,等 T1/T2/D1 出来后再做 `heat_miss`、`structure_miss` 和 `market_window_miss` 复盘。