Files
hk-ipo/reports/2026-06-15_t0_5_historical_model_rebuild.md
T
geometrybase 943eab27cb Add external IPO history to heat model
Request:
- Add historical data around T0.5 margin heat and rebuild the model.

Changes:
- Add external_ipo_history to store third-party historical IPO records separately from true T0.5 market-heat snapshots.
- Add scripts/archive_ipohk_history.py to archive ipohk structured listed IPO history.
- Archive 807 ipohk rows, including final oversubscription, one-lot win rate, grey-market return, and first-day return where available.
- Extend the v0 analysis dataset with true T0.5 market-heat columns and separate external final-heat columns.
- Rebuild reports/2026-06-15_analysis_model_v0.md with T0.5 coverage and external final-heat calibration.
- Add a Chinese report explaining why historical final oversubscription cannot be treated as T0.5 margin snapshots.
- Update analyst and archivist skills to keep T0.5 and external final history separate.

Verification:
- .venv/bin/python -m py_compile scripts/build_analysis_dataset.py scripts/archive_ipohk_history.py scripts/archive_t0_5_market_heat.py
- .venv/bin/python scripts/build_analysis_dataset.py --as-of 2026-06-15T19:20:00Z
- Python sqlite3 PRAGMA integrity_check returned ok and foreign_key_check returned zero rows.
- Confirmed 807 external_ipo_history rows, 792 rows with external final oversubscription, 5 true T0.5 market-heat rows, and 297 analysis dataset rows.
- git diff --cached --check

Next useful context:
- True T0.5 historical backtesting still requires ongoing frozen margin-heat snapshots during each IPO subscription window.
2026-06-15 16:06:56 +00:00

2.6 KiB

2026-06-15 T0.5 历史数据与模型重建说明

结论

这次已经把可复现的历史数据接进模型,但不能把它称为“全部历史 T0.5 孖展倍数”。

  • 真实 T0_5_market_heat:目前只有华盛/捷利页面的实时快照,已归档 5 条当前申购标的。
  • 历史结构化数据:ipohk 可提供 807 条历史上市数据,其中包括最终超购倍数、一手中签率、暗盘涨幅和首日涨幅。
  • 关键限制:ipohk 的“超购倍数”是最终或接近最终结果,不是申购过程中的 T0.5 孖展快照,不能倒灌进 T0.5。

所以,本次模型重建采用两层处理:

  1. t0_5_* 字段:真实申购期间孖展热度,只来自可归档快照。
  2. external_* 字段:历史最终热度与结果参照,只用于覆盖检查和后验校准。

本次新增数据

数据集 行数 用途 阶段安全性
ipo_market_heat 5 当前申购标的 T0.5 孖展热度 可用于 T0.5,但历史样本不足
external_ipo_history 807 历史最终超购、中签率、暗盘、首日表现 后验参照,不可用于 T0/T0.5 决策
analysis_model_v0_dataset.csv 297 主模型训练/分析数据集 已加入 T0.5 与 external 字段

重建后模型覆盖

  • 主模型 IPO 行数:297
  • D1 标签:273
  • 真实 T0.5 孖展快照:5
  • 真实 T0.5 且有 D1 标签:0
  • 匹配到 ipohk 历史记录:102
  • 匹配到 ipohk 最终超购倍数:95
  • ipohk 最终超购倍数且有 D1 标签:85

如何读模型结果

真实 T0.5 目前还不能做统计回测,因为 5 条都是当前未上市标的,没有 D1 结果。

ipohk 历史最终超购倍数可以用来验证一个方向:高最终热度是否对应更好的 D1 胜率。但它不能回答“当时申购中途看到的孖展倍数是否有效”,因为它不是当时的冻结快照。

已更新文件

  • 原始历史数据:data/raw/external_history/ipohk_listed_20260615T191000Z.json
  • 结构化历史数据:data/snapshots/external_ipo_history.csv
  • 主模型数据集:data/snapshots/analysis_model_v0_dataset.csv
  • 模型报告:reports/2026-06-15_analysis_model_v0.md
  • 历史归档脚本:scripts/archive_ipohk_history.py

下一步

真正让 T0.5 进入可回测模型,需要从今天开始持续采样申购期快照。

建议采样节奏:

  • T0.5 early:申购首日收盘附近。
  • T0.5 mid:申购中段。
  • T0.5 final:截止前半天或截止前一晚。

未来每只 IPO 至少保留一到三个冻结快照,等 T1/T2/D1 出来后再做 heat_missstructure_missmarket_window_miss 复盘。