Record ongoing build-index state for real FMA smoke
Update the handoff package with the next downstream checkpoint so a restarted session knows training is done, build-index is active, and evaluate has not started yet. Constraint: Final evaluation evidence is still unavailable because build-index has not completed Rejected: Wait silently for evaluate to start | would lose a useful downstream checkpoint for restart continuity Confidence: high Scope-risk: narrow Directive: Next capture either the first index artifact file or the transition into evaluate Tested: process scan showing build-index and no evaluate; presence of /tmp/fma_real_smoke_stopcheck/fma_index_smoke directory; validate-splits on /tmp/fma_real_smoke_stopcheck/fma/manifests Not-tested: Completed build-index output, evaluate, final metrics/report generation
Showing
4 changed files
with
46 additions
and
0 deletions
| 1 | ## 2026-06-02 真实 FMA smoke build-index 持续阶段 checkpoint | ||
| 2 | |||
| 3 | 完成项: | ||
| 4 | - 再次检查真实 FMA smoke 下游阶段,确认流程仍停留在 `build-index`。 | ||
| 5 | - 更新 `docs/session-handoff.md` 与 `docs/changelist-2026-06-02.md`,记录索引目录已创建但尚未出现索引产物文件。 | ||
| 6 | |||
| 7 | 验证结果: | ||
| 8 | - 当前存在 `run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests --model /tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt ...` | ||
| 9 | - 当前未观测到 `evaluate.py` 进程 | ||
| 10 | - `/tmp/fma_real_smoke_stopcheck/fma_index_smoke/` 目录已创建 | ||
| 11 | - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true` | ||
| 12 | |||
| 13 | 结论: | ||
| 14 | - 真实 FMA 全量 smoke 已稳定进入建索引阶段,但还没有切换到评测阶段。 | ||
| 15 | - 下一关键证据是索引产物出现或 `evaluate.py` 启动。 | ||
| 16 | |||
| 1 | ## 2026-06-02 真实 FMA smoke 跨过训练结束并进入 build-index checkpoint | 17 | ## 2026-06-02 真实 FMA smoke 跨过训练结束并进入 build-index checkpoint |
| 2 | 18 | ||
| 3 | 完成项: | 19 | 完成项: | ... | ... |
| ... | @@ -232,3 +232,11 @@ cd /workspace/acr-engine | ... | @@ -232,3 +232,11 @@ cd /workspace/acr-engine |
| 232 | - 已确认首个模型文件落盘:`best_model.pt`。 | 232 | - 已确认首个模型文件落盘:`best_model.pt`。 |
| 233 | - 已确认流程切换到:`run_demo.py build-index ...`。 | 233 | - 已确认流程切换到:`run_demo.py build-index ...`。 |
| 234 | - 这意味着当前最大不确定性已从“训练是否卡死”切换为“索引何时完成并进入 evaluate”。 | 234 | - 这意味着当前最大不确定性已从“训练是否卡死”切换为“索引何时完成并进入 evaluate”。 |
| 235 | |||
| 236 | |||
| 237 | ## 12:37 UTC build-index 持续阶段补充 | ||
| 238 | |||
| 239 | - 已确认当前主下游进程仍是 `run_demo.py build-index ...`。 | ||
| 240 | - 已确认索引目录 `/tmp/fma_real_smoke_stopcheck/fma_index_smoke/` 已创建。 | ||
| 241 | - 截至该时点,尚未看到新的索引产物文件,也未切换到 `evaluate.py`。 | ||
| 242 | - manifest 复核继续通过,统计保持不变。 | ... | ... |
| ... | @@ -37,6 +37,7 @@ | ... | @@ -37,6 +37,7 @@ |
| 37 | - `best_model.pt` 已成功落盘。 | 37 | - `best_model.pt` 已成功落盘。 |
| 38 | - 当前主流程已进入 `build-index`,说明这轮真实 smoke 不再只是“长时间 CPU 训练进行中”,而是已经进入下游索引阶段。 | 38 | - 当前主流程已进入 `build-index`,说明这轮真实 smoke 不再只是“长时间 CPU 训练进行中”,而是已经进入下游索引阶段。 |
| 39 | - 下一关键证据变为:索引完成后是否切入 `evaluate`,以及最终 metrics/report 是否生成。 | 39 | - 下一关键证据变为:索引完成后是否切入 `evaluate`,以及最终 metrics/report 是否生成。 |
| 40 | - 截至 2026-06-02 12:37 UTC,主流程仍停留在 `build-index`;索引目录已创建,但尚未观测到索引产物文件或 `evaluate.py` 进程。 | ||
| 40 | 41 | ||
| 41 | ## 当前卡点 | 42 | ## 当前卡点 |
| 42 | 43 | ... | ... |
| ... | @@ -341,6 +341,27 @@ | ... | @@ -341,6 +341,27 @@ |
| 341 | - 之前“模型目录为空是正常现象”的阶段已经结束。 | 341 | - 之前“模型目录为空是正常现象”的阶段已经结束。 |
| 342 | - 现在的下一关键观察点已经从“等待首个模型文件”切换为“等待 `build-index` 完成并进入 `evaluate`”。 | 342 | - 现在的下一关键观察点已经从“等待首个模型文件”切换为“等待 `build-index` 完成并进入 `evaluate`”。 |
| 343 | 343 | ||
| 344 | ### build-index 持续阶段证据(2026-06-02 12:37 UTC) | ||
| 345 | |||
| 346 | - 训练结束后的下游流程仍在 `build-index`: | ||
| 347 | - `PID=424691`:`run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests --model /tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt --output /tmp/fma_real_smoke_stopcheck/fma_index_smoke --device cpu --resume --checkpoint-every-refs 100` | ||
| 348 | - `smoke-local` 主进程仍在: | ||
| 349 | - `PID=311494`:`external_adapters.py smoke-local fma ...` | ||
| 350 | - 当前尚未观测到 `evaluate.py` 进程。 | ||
| 351 | - 索引输出目录已经创建: | ||
| 352 | - `/tmp/fma_real_smoke_stopcheck/fma_index_smoke/` | ||
| 353 | - 但截至 12:37 UTC,索引目录下仍未看到新的索引产物文件。 | ||
| 354 | - manifest 再次复核仍通过: | ||
| 355 | - `ok=true` | ||
| 356 | - `catalog_references=8000` | ||
| 357 | - `train_queries=6401` | ||
| 358 | - `test_queries=1593` | ||
| 359 | - `val_queries=0` | ||
| 360 | |||
| 361 | 这说明: | ||
| 362 | - 当前 smoke 已稳定处于“训练完成 -> 建索引进行中”的阶段。 | ||
| 363 | - 下一关键观察点仍是“索引文件出现”或“切换到 `evaluate.py`”。 | ||
| 364 | |||
| 344 | ### 重启后第一优先级动作 | 365 | ### 重启后第一优先级动作 |
| 345 | 366 | ||
| 346 | 1. 先检查真实 FMA smoke 是否完成: | 367 | 1. 先检查真实 FMA smoke 是否完成: | ... | ... |
-
Please register or sign in to post a comment