Commit 3f9f1ac1 3f9f1ac1e0a7bb75074e3d40671c44f62c09bd68 by cnb.bofCdSsphPA

Record ongoing build-index state for real FMA smoke

Update the handoff package with the next downstream checkpoint so a restarted session knows training is done, build-index is active, and evaluate has not started yet.

Constraint: Final evaluation evidence is still unavailable because build-index has not completed
Rejected: Wait silently for evaluate to start | would lose a useful downstream checkpoint for restart continuity
Confidence: high
Scope-risk: narrow
Directive: Next capture either the first index artifact file or the transition into evaluate
Tested: process scan showing build-index and no evaluate; presence of /tmp/fma_real_smoke_stopcheck/fma_index_smoke directory; validate-splits on /tmp/fma_real_smoke_stopcheck/fma/manifests
Not-tested: Completed build-index output, evaluate, final metrics/report generation
1 parent 74374625
1 ## 2026-06-02 真实 FMA smoke build-index 持续阶段 checkpoint
2
3 完成项:
4 - 再次检查真实 FMA smoke 下游阶段,确认流程仍停留在 `build-index`
5 - 更新 `docs/session-handoff.md``docs/changelist-2026-06-02.md`,记录索引目录已创建但尚未出现索引产物文件。
6
7 验证结果:
8 - 当前存在 `run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests --model /tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt ...`
9 - 当前未观测到 `evaluate.py` 进程
10 - `/tmp/fma_real_smoke_stopcheck/fma_index_smoke/` 目录已创建
11 - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true`
12
13 结论:
14 - 真实 FMA 全量 smoke 已稳定进入建索引阶段,但还没有切换到评测阶段。
15 - 下一关键证据是索引产物出现或 `evaluate.py` 启动。
16
1 ## 2026-06-02 真实 FMA smoke 跨过训练结束并进入 build-index checkpoint 17 ## 2026-06-02 真实 FMA smoke 跨过训练结束并进入 build-index checkpoint
2 18
3 完成项: 19 完成项:
......
...@@ -232,3 +232,11 @@ cd /workspace/acr-engine ...@@ -232,3 +232,11 @@ cd /workspace/acr-engine
232 - 已确认首个模型文件落盘:`best_model.pt` 232 - 已确认首个模型文件落盘:`best_model.pt`
233 - 已确认流程切换到:`run_demo.py build-index ...` 233 - 已确认流程切换到:`run_demo.py build-index ...`
234 - 这意味着当前最大不确定性已从“训练是否卡死”切换为“索引何时完成并进入 evaluate”。 234 - 这意味着当前最大不确定性已从“训练是否卡死”切换为“索引何时完成并进入 evaluate”。
235
236
237 ## 12:37 UTC build-index 持续阶段补充
238
239 - 已确认当前主下游进程仍是 `run_demo.py build-index ...`
240 - 已确认索引目录 `/tmp/fma_real_smoke_stopcheck/fma_index_smoke/` 已创建。
241 - 截至该时点,尚未看到新的索引产物文件,也未切换到 `evaluate.py`
242 - manifest 复核继续通过,统计保持不变。
......
...@@ -37,6 +37,7 @@ ...@@ -37,6 +37,7 @@
37 - `best_model.pt` 已成功落盘。 37 - `best_model.pt` 已成功落盘。
38 - 当前主流程已进入 `build-index`,说明这轮真实 smoke 不再只是“长时间 CPU 训练进行中”,而是已经进入下游索引阶段。 38 - 当前主流程已进入 `build-index`,说明这轮真实 smoke 不再只是“长时间 CPU 训练进行中”,而是已经进入下游索引阶段。
39 - 下一关键证据变为:索引完成后是否切入 `evaluate`,以及最终 metrics/report 是否生成。 39 - 下一关键证据变为:索引完成后是否切入 `evaluate`,以及最终 metrics/report 是否生成。
40 - 截至 2026-06-02 12:37 UTC,主流程仍停留在 `build-index`;索引目录已创建,但尚未观测到索引产物文件或 `evaluate.py` 进程。
40 41
41 ## 当前卡点 42 ## 当前卡点
42 43
......
...@@ -341,6 +341,27 @@ ...@@ -341,6 +341,27 @@
341 - 之前“模型目录为空是正常现象”的阶段已经结束。 341 - 之前“模型目录为空是正常现象”的阶段已经结束。
342 - 现在的下一关键观察点已经从“等待首个模型文件”切换为“等待 `build-index` 完成并进入 `evaluate`”。 342 - 现在的下一关键观察点已经从“等待首个模型文件”切换为“等待 `build-index` 完成并进入 `evaluate`”。
343 343
344 ### build-index 持续阶段证据(2026-06-02 12:37 UTC)
345
346 - 训练结束后的下游流程仍在 `build-index`
347 - `PID=424691``run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests --model /tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt --output /tmp/fma_real_smoke_stopcheck/fma_index_smoke --device cpu --resume --checkpoint-every-refs 100`
348 - `smoke-local` 主进程仍在:
349 - `PID=311494``external_adapters.py smoke-local fma ...`
350 - 当前尚未观测到 `evaluate.py` 进程。
351 - 索引输出目录已经创建:
352 - `/tmp/fma_real_smoke_stopcheck/fma_index_smoke/`
353 - 但截至 12:37 UTC,索引目录下仍未看到新的索引产物文件。
354 - manifest 再次复核仍通过:
355 - `ok=true`
356 - `catalog_references=8000`
357 - `train_queries=6401`
358 - `test_queries=1593`
359 - `val_queries=0`
360
361 这说明:
362 - 当前 smoke 已稳定处于“训练完成 -> 建索引进行中”的阶段。
363 - 下一关键观察点仍是“索引文件出现”或“切换到 `evaluate.py`”。
364
344 ### 重启后第一优先级动作 365 ### 重启后第一优先级动作
345 366
346 1. 先检查真实 FMA smoke 是否完成: 367 1. 先检查真实 FMA smoke 是否完成:
......