Commit dc269a8f dc269a8f5b6654ccc967e3e110f26d4b10658bfc by cnb.bofCdSsphPA

Refresh live smoke evidence with newer epoch progress

Advance the handoff timestamp so a restarted session inherits the latest proof that the real FMA smoke is still progressing inside Epoch 1 rather than stalling before model output.

Constraint: Only live process evidence was available because the first epoch still has not finished
Rejected: Skip another checkpoint update | would leave restart docs one verification step behind reality
Confidence: high
Scope-risk: narrow
Directive: Wait for the first saved model file or stage transition before making any accuracy claims
Tested: ps on PID 311629; validate-splits on /tmp/fma_real_smoke_stopcheck/fma/manifests; find on /tmp/fma_real_smoke_stopcheck/fma_models_smoke
Not-tested: End-of-epoch checkpoint creation and downstream evaluate output
1 parent 47390fe9
## 2026-06-02 真实 FMA smoke fresh evidence 15:12 checkpoint
完成项:
- 再次检查真实 FMA smoke 运行态,确认 `train.py` 仍在前进而非悬挂。
- 更新 `docs/session-handoff.md`,补齐 12:12 UTC 的最新时间推进证据。
- 更新 `docs/changelist-2026-06-02.md`,把最新 elapsed 时间推进补入交付记录。
验证结果:
- `ps -p 311629 -o pid,etime,%cpu,%mem,cmd` => `ELAPSED=15:12`
- 仍仅存在 `smoke-local``train.py` 相关进程,未见 `build-index/evaluate` 新进程
- `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true`
- `find /tmp/fma_real_smoke_stopcheck/fma_models_smoke ...` 仍仅返回目录本身
结论:
- 当前真实 FMA smoke 还未结束第 1 个 epoch,但持续推进证据已再次更新。
- 到这一时点,仍没有流程卡死迹象,也还没有最终精度结果。
## 2026-06-02 真实 FMA smoke fresh evidence 再校验 checkpoint
完成项:
......
......@@ -146,3 +146,11 @@ cd /workspace/acr-engine
- 已确认当前仍未切换到 `build-index``evaluate` 进程。
- 已确认模型输出目录仍为空,仅有目录本身。
- 这进一步证明:当前是长时间 CPU 训练,不是进程悬挂。
## 12:12 UTC 再次时间推进补充
- 最新 live 证据已推进到:`train.py ELAPSED=15:12`
- 当前 CPU / 内存观测:`%CPU≈614`, `%MEM≈10.5`
- 仍未出现 `build-index/evaluate` 进程,也未出现首个模型文件。
- 这说明当前只是继续处在真实 FMA 全量 epoch 内训练阶段。
......
......@@ -101,6 +101,28 @@
- 当前状态是 **真实 FMA 全量训练仍在 epoch 内部推进**
- 还没有到 `Epoch 1` 结束,因此仍不能期待 `best_model.pt` 已经落盘。
### 再更新的 fresh evidence(2026-06-02 12:12 UTC)
- 真实 FMA smoke 仍在持续推进:
- `train.py ELAPSED=15:12`
- `%CPU≈614`
- `%MEM≈10.5`
- 当前进程结构仍未变化:
- `PID=311494``external_adapters.py smoke-local fma ...`
- `PID=311629``train.py --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
- 仍未观测到 `build-index` / `evaluate` 相关新进程。
- `fma_models_smoke/` 仍只有目录本身,没有模型文件。
- manifest 再次校验仍然通过:
- `ok=true`
- `catalog_references=8000`
- `train_queries=6401`
- `test_queries=1593`
- `val_queries=0`
这说明:
- 真实 FMA 全量 smoke 依旧在 `Epoch 1` 内部推进。
- 截至 12:12 UTC,仍未出现首个可落盘模型文件或下游阶段切换。
### 重启后第一优先级动作
1. 先检查真实 FMA smoke 是否完成:
......