Capture real FMA smoke transition into index building
Record the first decisive runtime milestone so restart docs show that the real FMA smoke has finished training, produced a model, and moved into build-index. Constraint: Final evaluation metrics are not available yet because the smoke is still running downstream of training Rejected: Keep describing the run as training-only | would now be materially inaccurate Confidence: high Scope-risk: narrow Directive: Next verify the transition from build-index into evaluate and then capture the final report artifacts Tested: process scan showing build-index; absence of train.py PID 311629; presence of best_model.pt and song_to_idx.json; validate-splits on /tmp/fma_real_smoke_stopcheck/fma/manifests Not-tested: Completed build-index, evaluate, and final metrics/report generation
Showing
4 changed files
with
59 additions
and
7 deletions
| 1 | ## 2026-06-02 真实 FMA smoke 跨过训练结束并进入 build-index checkpoint | ||
| 2 | |||
| 3 | 完成项: | ||
| 4 | - 在更长观察窗口后确认真实 FMA smoke 已结束训练阶段。 | ||
| 5 | - 更新 `docs/session-handoff.md` 与 `docs/changelist-2026-06-02.md`,记录首个模型文件落盘与 `build-index` 转场。 | ||
| 6 | |||
| 7 | 验证结果: | ||
| 8 | - 原 `train.py` 进程已结束 | ||
| 9 | - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt` 已出现 | ||
| 10 | - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json` 已出现 | ||
| 11 | - 当前存在 `run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests --model /tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt ...` | ||
| 12 | - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true` | ||
| 13 | |||
| 14 | 结论: | ||
| 15 | - 真实 FMA 全量 smoke 已成功跨过“长时间 CPU 训练”这一最大不确定阶段。 | ||
| 16 | - 当前流程已进入 `build-index`,下一关键证据是索引完成并切换到 `evaluate`。 | ||
| 17 | |||
| 1 | ## 2026-06-02 真实 FMA smoke fresh evidence 31:47 checkpoint | 18 | ## 2026-06-02 真实 FMA smoke fresh evidence 31:47 checkpoint |
| 2 | 19 | ||
| 3 | 完成项: | 20 | 完成项: | ... | ... |
| ... | @@ -224,3 +224,11 @@ cd /workspace/acr-engine | ... | @@ -224,3 +224,11 @@ cd /workspace/acr-engine |
| 224 | - 当前 CPU / 内存观测:`%CPU≈615`, `%MEM≈11.0`。 | 224 | - 当前 CPU / 内存观测:`%CPU≈615`, `%MEM≈11.0`。 |
| 225 | - 180 秒额外等待后,仍未出现模型文件,也未切换到 `build-index/evaluate`。 | 225 | - 180 秒额外等待后,仍未出现模型文件,也未切换到 `build-index/evaluate`。 |
| 226 | - manifest 复核继续通过,统计保持不变。 | 226 | - manifest 复核继续通过,统计保持不变。 |
| 227 | |||
| 228 | |||
| 229 | ## 12:34 UTC 重大阶段切换补充 | ||
| 230 | |||
| 231 | - 已确认 `train.py` 阶段结束。 | ||
| 232 | - 已确认首个模型文件落盘:`best_model.pt`。 | ||
| 233 | - 已确认流程切换到:`run_demo.py build-index ...`。 | ||
| 234 | - 这意味着当前最大不确定性已从“训练是否卡死”切换为“索引何时完成并进入 evaluate”。 | ... | ... |
| ... | @@ -31,19 +31,26 @@ | ... | @@ -31,19 +31,26 @@ |
| 31 | - 截至 2026-06-02 12:11 UTC,再次校验仍未进入 `build-index` / `evaluate`,最新 `train.py ELAPSED=14:25`。 | 31 | - 截至 2026-06-02 12:11 UTC,再次校验仍未进入 `build-index` / `evaluate`,最新 `train.py ELAPSED=14:25`。 |
| 32 | - 所以这轮交付最重要的不是“最终精度”,而是**把正在跑的真实大规模 smoke 状态、卡点和续跑方式明确记录下来**。 | 32 | - 所以这轮交付最重要的不是“最终精度”,而是**把正在跑的真实大规模 smoke 状态、卡点和续跑方式明确记录下来**。 |
| 33 | 33 | ||
| 34 | ## 当前最关键交付事实(12:34 UTC checkpoint) | ||
| 35 | |||
| 36 | - 真实 FMA 全量 smoke 已经跨过训练结束点。 | ||
| 37 | - `best_model.pt` 已成功落盘。 | ||
| 38 | - 当前主流程已进入 `build-index`,说明这轮真实 smoke 不再只是“长时间 CPU 训练进行中”,而是已经进入下游索引阶段。 | ||
| 39 | - 下一关键证据变为:索引完成后是否切入 `evaluate`,以及最终 metrics/report 是否生成。 | ||
| 40 | |||
| 34 | ## 当前卡点 | 41 | ## 当前卡点 |
| 35 | 42 | ||
| 36 | ### 卡点 1:真实 FMA 全量 smoke 仍在 CPU 长训练中 | 43 | ### 卡点 1:真实 FMA smoke 已进入 build-index,但还未到最终评测结果 |
| 37 | 44 | ||
| 38 | 当前最新状态: | 45 | 当前最新状态: |
| 39 | - 真实 FMA smoke 已启动并持续运行 | 46 | - `best_model.pt` 已成功落盘 |
| 40 | - 当前环境无 GPU | 47 | - `train.py` 已结束 |
| 41 | - `fma_models_smoke/` 为空不代表失败,而是 epoch-end 保存逻辑所致 | 48 | - 当前正在执行 `run_demo.py build-index ...` |
| 42 | 49 | ||
| 43 | 真正待做: | 50 | 真正待做: |
| 44 | - 等待 `Epoch 1` 结束并确认首个模型文件 | 51 | - 等待 `build-index` 完成 |
| 45 | - 继续捕获 `build-index` / `evaluate` 转场证据 | 52 | - 捕获是否切换到 `evaluate` |
| 46 | - 完成后立即回写文档、commit、push | 53 | - 完成后回写最终 report / metrics / artifacts |
| 47 | 54 | ||
| 48 | ### 卡点 2:还没有单一全局默认策略 | 55 | ### 卡点 2:还没有单一全局默认策略 |
| 49 | 56 | ... | ... |
| ... | @@ -321,6 +321,26 @@ | ... | @@ -321,6 +321,26 @@ |
| 321 | - 在更长的观察窗口下,训练依然持续前进,而不是假性活动或僵死。 | 321 | - 在更长的观察窗口下,训练依然持续前进,而不是假性活动或僵死。 |
| 322 | - 到 12:29 UTC 为止,仍没有首个模型文件或下游检索/评测阶段证据。 | 322 | - 到 12:29 UTC 为止,仍没有首个模型文件或下游检索/评测阶段证据。 |
| 323 | 323 | ||
| 324 | ### 重大阶段切换证据(2026-06-02 12:34 UTC) | ||
| 325 | |||
| 326 | - 真实 FMA smoke 已跨过最关键的 `Epoch 1` 结束点: | ||
| 327 | - 原 `train.py` 进程 `PID=311629` 已结束 | ||
| 328 | - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt` 已出现 | ||
| 329 | - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json` 已出现 | ||
| 330 | - 当前主流程已从训练切换到建索引阶段: | ||
| 331 | - `PID=424691`:`run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests --model /tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt --output /tmp/fma_real_smoke_stopcheck/fma_index_smoke --device cpu --resume --checkpoint-every-refs 100` | ||
| 332 | - `external_adapters.py smoke-local ...` 主进程仍在,说明端到端 smoke 还未结束。 | ||
| 333 | - manifest 复核仍通过: | ||
| 334 | - `ok=true` | ||
| 335 | - `catalog_references=8000` | ||
| 336 | - `train_queries=6401` | ||
| 337 | - `test_queries=1593` | ||
| 338 | - `val_queries=0` | ||
| 339 | |||
| 340 | 这说明: | ||
| 341 | - 之前“模型目录为空是正常现象”的阶段已经结束。 | ||
| 342 | - 现在的下一关键观察点已经从“等待首个模型文件”切换为“等待 `build-index` 完成并进入 `evaluate`”。 | ||
| 343 | |||
| 324 | ### 重启后第一优先级动作 | 344 | ### 重启后第一优先级动作 |
| 325 | 345 | ||
| 326 | 1. 先检查真实 FMA smoke 是否完成: | 346 | 1. 先检查真实 FMA smoke 是否完成: | ... | ... |
-
Please register or sign in to post a comment