943eab27cb
Request: - Add historical data around T0.5 margin heat and rebuild the model. Changes: - Add external_ipo_history to store third-party historical IPO records separately from true T0.5 market-heat snapshots. - Add scripts/archive_ipohk_history.py to archive ipohk structured listed IPO history. - Archive 807 ipohk rows, including final oversubscription, one-lot win rate, grey-market return, and first-day return where available. - Extend the v0 analysis dataset with true T0.5 market-heat columns and separate external final-heat columns. - Rebuild reports/2026-06-15_analysis_model_v0.md with T0.5 coverage and external final-heat calibration. - Add a Chinese report explaining why historical final oversubscription cannot be treated as T0.5 margin snapshots. - Update analyst and archivist skills to keep T0.5 and external final history separate. Verification: - .venv/bin/python -m py_compile scripts/build_analysis_dataset.py scripts/archive_ipohk_history.py scripts/archive_t0_5_market_heat.py - .venv/bin/python scripts/build_analysis_dataset.py --as-of 2026-06-15T19:20:00Z - Python sqlite3 PRAGMA integrity_check returned ok and foreign_key_check returned zero rows. - Confirmed 807 external_ipo_history rows, 792 rows with external final oversubscription, 5 true T0.5 market-heat rows, and 297 analysis dataset rows. - git diff --cached --check Next useful context: - True T0.5 historical backtesting still requires ongoing frozen margin-heat snapshots during each IPO subscription window.
2.6 KiB
2.6 KiB
2026-06-15 T0.5 历史数据与模型重建说明
结论
这次已经把可复现的历史数据接进模型,但不能把它称为“全部历史 T0.5 孖展倍数”。
- 真实
T0_5_market_heat:目前只有华盛/捷利页面的实时快照,已归档 5 条当前申购标的。 - 历史结构化数据:
ipohk可提供 807 条历史上市数据,其中包括最终超购倍数、一手中签率、暗盘涨幅和首日涨幅。 - 关键限制:
ipohk的“超购倍数”是最终或接近最终结果,不是申购过程中的 T0.5 孖展快照,不能倒灌进 T0.5。
所以,本次模型重建采用两层处理:
t0_5_*字段:真实申购期间孖展热度,只来自可归档快照。external_*字段:历史最终热度与结果参照,只用于覆盖检查和后验校准。
本次新增数据
| 数据集 | 行数 | 用途 | 阶段安全性 |
|---|---|---|---|
ipo_market_heat |
5 | 当前申购标的 T0.5 孖展热度 | 可用于 T0.5,但历史样本不足 |
external_ipo_history |
807 | 历史最终超购、中签率、暗盘、首日表现 | 后验参照,不可用于 T0/T0.5 决策 |
analysis_model_v0_dataset.csv |
297 | 主模型训练/分析数据集 | 已加入 T0.5 与 external 字段 |
重建后模型覆盖
- 主模型 IPO 行数:297
- D1 标签:273
- 真实 T0.5 孖展快照:5
- 真实 T0.5 且有 D1 标签:0
- 匹配到
ipohk历史记录:102 - 匹配到
ipohk最终超购倍数:95 ipohk最终超购倍数且有 D1 标签:85
如何读模型结果
真实 T0.5 目前还不能做统计回测,因为 5 条都是当前未上市标的,没有 D1 结果。
ipohk 历史最终超购倍数可以用来验证一个方向:高最终热度是否对应更好的 D1 胜率。但它不能回答“当时申购中途看到的孖展倍数是否有效”,因为它不是当时的冻结快照。
已更新文件
- 原始历史数据:
data/raw/external_history/ipohk_listed_20260615T191000Z.json - 结构化历史数据:
data/snapshots/external_ipo_history.csv - 主模型数据集:
data/snapshots/analysis_model_v0_dataset.csv - 模型报告:
reports/2026-06-15_analysis_model_v0.md - 历史归档脚本:
scripts/archive_ipohk_history.py
下一步
真正让 T0.5 进入可回测模型,需要从今天开始持续采样申购期快照。
建议采样节奏:
- T0.5 early:申购首日收盘附近。
- T0.5 mid:申购中段。
- T0.5 final:截止前半天或截止前一晚。
未来每只 IPO 至少保留一到三个冻结快照,等 T1/T2/D1 出来后再做 heat_miss、structure_miss 和 market_window_miss 复盘。