Commit 74374625 74374625a61ee3053d21ef63607f247b9b9c5066 by cnb.bofCdSsphPA

Capture real FMA smoke transition into index building

Record the first decisive runtime milestone so restart docs show that the real FMA smoke has finished training, produced a model, and moved into build-index.

Constraint: Final evaluation metrics are not available yet because the smoke is still running downstream of training
Rejected: Keep describing the run as training-only | would now be materially inaccurate
Confidence: high
Scope-risk: narrow
Directive: Next verify the transition from build-index into evaluate and then capture the final report artifacts
Tested: process scan showing build-index; absence of train.py PID 311629; presence of best_model.pt and song_to_idx.json; validate-splits on /tmp/fma_real_smoke_stopcheck/fma/manifests
Not-tested: Completed build-index, evaluate, and final metrics/report generation
1 parent 9ded4a56
1 ## 2026-06-02 真实 FMA smoke 跨过训练结束并进入 build-index checkpoint
2
3 完成项:
4 - 在更长观察窗口后确认真实 FMA smoke 已结束训练阶段。
5 - 更新 `docs/session-handoff.md``docs/changelist-2026-06-02.md`,记录首个模型文件落盘与 `build-index` 转场。
6
7 验证结果:
8 -`train.py` 进程已结束
9 - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt` 已出现
10 - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json` 已出现
11 - 当前存在 `run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests --model /tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt ...`
12 - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true`
13
14 结论:
15 - 真实 FMA 全量 smoke 已成功跨过“长时间 CPU 训练”这一最大不确定阶段。
16 - 当前流程已进入 `build-index`,下一关键证据是索引完成并切换到 `evaluate`
17
1 ## 2026-06-02 真实 FMA smoke fresh evidence 31:47 checkpoint 18 ## 2026-06-02 真实 FMA smoke fresh evidence 31:47 checkpoint
2 19
3 完成项: 20 完成项:
......
...@@ -224,3 +224,11 @@ cd /workspace/acr-engine ...@@ -224,3 +224,11 @@ cd /workspace/acr-engine
224 - 当前 CPU / 内存观测:`%CPU≈615`, `%MEM≈11.0` 224 - 当前 CPU / 内存观测:`%CPU≈615`, `%MEM≈11.0`
225 - 180 秒额外等待后,仍未出现模型文件,也未切换到 `build-index/evaluate` 225 - 180 秒额外等待后,仍未出现模型文件,也未切换到 `build-index/evaluate`
226 - manifest 复核继续通过,统计保持不变。 226 - manifest 复核继续通过,统计保持不变。
227
228
229 ## 12:34 UTC 重大阶段切换补充
230
231 - 已确认 `train.py` 阶段结束。
232 - 已确认首个模型文件落盘:`best_model.pt`
233 - 已确认流程切换到:`run_demo.py build-index ...`
234 - 这意味着当前最大不确定性已从“训练是否卡死”切换为“索引何时完成并进入 evaluate”。
......
...@@ -31,19 +31,26 @@ ...@@ -31,19 +31,26 @@
31 - 截至 2026-06-02 12:11 UTC,再次校验仍未进入 `build-index` / `evaluate`,最新 `train.py ELAPSED=14:25` 31 - 截至 2026-06-02 12:11 UTC,再次校验仍未进入 `build-index` / `evaluate`,最新 `train.py ELAPSED=14:25`
32 - 所以这轮交付最重要的不是“最终精度”,而是**把正在跑的真实大规模 smoke 状态、卡点和续跑方式明确记录下来** 32 - 所以这轮交付最重要的不是“最终精度”,而是**把正在跑的真实大规模 smoke 状态、卡点和续跑方式明确记录下来**
33 33
34 ## 当前最关键交付事实(12:34 UTC checkpoint)
35
36 - 真实 FMA 全量 smoke 已经跨过训练结束点。
37 - `best_model.pt` 已成功落盘。
38 - 当前主流程已进入 `build-index`,说明这轮真实 smoke 不再只是“长时间 CPU 训练进行中”,而是已经进入下游索引阶段。
39 - 下一关键证据变为:索引完成后是否切入 `evaluate`,以及最终 metrics/report 是否生成。
40
34 ## 当前卡点 41 ## 当前卡点
35 42
36 ### 卡点 1:真实 FMA 全量 smoke 仍在 CPU 长训练中 43 ### 卡点 1:真实 FMA smoke 已进入 build-index,但还未到最终评测结果
37 44
38 当前最新状态: 45 当前最新状态:
39 - 真实 FMA smoke 已启动并持续运行 46 - `best_model.pt` 已成功落盘
40 - 当前环境无 GPU 47 - `train.py` 已结束
41 - `fma_models_smoke/` 为空不代表失败,而是 epoch-end 保存逻辑所致 48 - 当前正在执行 `run_demo.py build-index ...`
42 49
43 真正待做: 50 真正待做:
44 - 等待 `Epoch 1` 结束并确认首个模型文件 51 - 等待 `build-index` 完成
45 - 继续捕获 `build-index` / `evaluate` 转场证据 52 - 捕获是否切换到 `evaluate`
46 - 完成后立即回写文档、commit、push 53 - 完成后回写最终 report / metrics / artifacts
47 54
48 ### 卡点 2:还没有单一全局默认策略 55 ### 卡点 2:还没有单一全局默认策略
49 56
......
...@@ -321,6 +321,26 @@ ...@@ -321,6 +321,26 @@
321 - 在更长的观察窗口下,训练依然持续前进,而不是假性活动或僵死。 321 - 在更长的观察窗口下,训练依然持续前进,而不是假性活动或僵死。
322 - 到 12:29 UTC 为止,仍没有首个模型文件或下游检索/评测阶段证据。 322 - 到 12:29 UTC 为止,仍没有首个模型文件或下游检索/评测阶段证据。
323 323
324 ### 重大阶段切换证据(2026-06-02 12:34 UTC)
325
326 - 真实 FMA smoke 已跨过最关键的 `Epoch 1` 结束点:
327 -`train.py` 进程 `PID=311629` 已结束
328 - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt` 已出现
329 - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json` 已出现
330 - 当前主流程已从训练切换到建索引阶段:
331 - `PID=424691``run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests --model /tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt --output /tmp/fma_real_smoke_stopcheck/fma_index_smoke --device cpu --resume --checkpoint-every-refs 100`
332 - `external_adapters.py smoke-local ...` 主进程仍在,说明端到端 smoke 还未结束。
333 - manifest 复核仍通过:
334 - `ok=true`
335 - `catalog_references=8000`
336 - `train_queries=6401`
337 - `test_queries=1593`
338 - `val_queries=0`
339
340 这说明:
341 - 之前“模型目录为空是正常现象”的阶段已经结束。
342 - 现在的下一关键观察点已经从“等待首个模型文件”切换为“等待 `build-index` 完成并进入 `evaluate`”。
343
324 ### 重启后第一优先级动作 344 ### 重启后第一优先级动作
325 345
326 1. 先检查真实 FMA smoke 是否完成: 346 1. 先检查真实 FMA smoke 是否完成:
......