Commit bdc04f72 bdc04f720ff1250976ade4d9d8fcde28b87fefa5 by cnb.bofCdSsphPA

Preserve fresh benchmark evidence before the evaluation finishes

Constraint: The running cap48 seed=999 benchmark has not emitted its final report yet, so only in-flight evidence can be recorded safely
Rejected: Claim a new three-seed conclusion now | The aggregate would be speculative without report.json and eval outputs
Confidence: high
Scope-risk: narrow
Directive: When a long benchmark is still active, checkpoint stage evidence explicitly and wait for report.json before changing strategy guidance
Tested: Verified process tree shows hybrid moved from build-index to evaluate.py; verified reference_progress.json reports 48 refs, 491 windows, 192-d embeddings, and complete status; verified report.json is still absent
Not-tested: Final hybrid eval metrics, subsequent high_energy run, and final three-seed aggregate
1 parent 0d40b05c
1 ## 2026-06-02 运行中 benchmark 新证据 checkpoint
2
3 完成项:
4 - 追加记录 `cap48 top2 seed=999` 的新鲜运行证据。
5 - 已确认流程并未卡死在 `hybrid build-index`,而是继续推进到 `evaluate.py`
6 - 已记录 reference index 完成指标:`48 refs / 491 windows / 192-d embedding`
7
8 验证证据:
9 - `reference_progress.json` 显示:
10 - `status=complete`
11 - `refs_done=48`
12 - `windows_done=491`
13 - `embedding_shape=[491, 192]`
14 - `elapsed_sec=80.26`
15 - 进程树显示:
16 - `evaluate.py ... --seed 999 --max-queries 24` 正在运行
17
18 说明:
19 - 截至本 checkpoint,`/tmp/ab_smoke_seg_cap48_top2_seed999/report.json` 仍未生成。
20 - 因此本次仍不更新 3-seed aggregate 结论。
21
1 ## 2026-06-02 交付检查点:handoff / changelist / agent memory 22 ## 2026-06-02 交付检查点:handoff / changelist / agent memory
2 23
3 完成项: 24 完成项:
......
...@@ -54,3 +54,9 @@ cd /workspace/acr-engine ...@@ -54,3 +54,9 @@ cd /workspace/acr-engine
54 3. 回写 workflow / handoff / changelog。 54 3. 回写 workflow / handoff / changelog。
55 4. 提交推送。 55 4. 提交推送。
56 5. 再开启 cap64 或 bucket benchmark。 56 5. 再开启 cap64 或 bucket benchmark。
57
58 ## 本次追加证据
59
60 - 已确认 `cap48 top2 seed=999` 未卡在 build-index。
61 - `hybrid` 已完成 reference index,随后进入 `evaluate.py`
62 - 本次提交用于沉淀这份 fresh verification evidence,方便下个 session 不必重复排查。
......
...@@ -20,6 +20,11 @@ ...@@ -20,6 +20,11 @@
20 20
21 ### 卡点 1:seed=999 benchmark 未完成 21 ### 卡点 1:seed=999 benchmark 未完成
22 22
23 当前最新状态:
24 - `hybrid` reference index 已完成
25 - 当前正在执行 `evaluate.py`
26 -`report.json` 仍未落盘
27
23 待检查: 28 待检查:
24 - `/tmp/ab_smoke_seg_cap48_top2_seed999/report.json` 29 - `/tmp/ab_smoke_seg_cap48_top2_seed999/report.json`
25 - `/tmp/ab_smoke_seg_cap48_top2_seed999/hybrid/fma_reports_smoke/eval.json` 30 - `/tmp/ab_smoke_seg_cap48_top2_seed999/hybrid/fma_reports_smoke/eval.json`
......
...@@ -216,9 +216,25 @@ ...@@ -216,9 +216,25 @@
216 - 新 session 已可依据本文件和 `AGENT.md` 继续推进。 216 - 新 session 已可依据本文件和 `AGENT.md` 继续推进。
217 217
218 ### 当前卡点 218 ### 当前卡点
219 - `cap48 top2 seed=999` 仍在运行或待收尾,尚未写回最终 3-seed aggregate 结论。 219 - `cap48 top2 seed=999` 仍在运行,当前已确认从 `hybrid build-index` 进入 `evaluate.py`,但尚未写回最终 `report.json` 3-seed aggregate 结论。
220 - 工作区存在大量数据与模型产物,当前只建议精确提交文档文件。 220 - 工作区存在大量数据与模型产物,当前只建议精确提交文档文件。
221 221
222 ### 最新验证证据(2026-06-02 18:21 UTC 左右)
223 - `hybrid` 的 reference index 已完成:
224 - `refs_done=48 / refs_total=48`
225 - `windows_done=491`
226 - `embedding_shape=[491, 192]`
227 - `elapsed_sec=80.26`
228 - 对应文件已写出:
229 - `/tmp/ab_smoke_seg_cap48_top2_seed999/hybrid/fma_index_smoke/reference_embs.npy`
230 - `/tmp/ab_smoke_seg_cap48_top2_seed999/hybrid/fma_index_smoke/reference_ids.npy`
231 - `/tmp/ab_smoke_seg_cap48_top2_seed999/hybrid/fma_index_smoke/reference_progress.json`
232 - 进程树已确认进入:
233 - `evaluate.py --data /tmp/ab_smoke_seg_cap48_top2_seed999/hybrid/fma/manifests ... --output-json /tmp/ab_smoke_seg_cap48_top2_seed999/hybrid/fma_reports_smoke/eval.json --seed 999 --max-queries 24`
234 - 截至本 checkpoint:
235 - 总报告 `/tmp/ab_smoke_seg_cap48_top2_seed999/report.json` 仍未生成
236 - `high_energy` 阶段尚未开始产出可见评测结果
237
222 ### 最优先待办 238 ### 最优先待办
223 1. 检查 `/tmp/ab_smoke_seg_cap48_top2_seed999/report.json` 是否生成。 239 1. 检查 `/tmp/ab_smoke_seg_cap48_top2_seed999/report.json` 是否生成。
224 2. 如已生成,计算 `default + 123 + 999` 三个 seed 的 aggregate。 240 2. 如已生成,计算 `default + 123 + 999` 三个 seed 的 aggregate。
......