Commit dc269a8f dc269a8f5b6654ccc967e3e110f26d4b10658bfc by cnb.bofCdSsphPA

Refresh live smoke evidence with newer epoch progress

Advance the handoff timestamp so a restarted session inherits the latest proof that the real FMA smoke is still progressing inside Epoch 1 rather than stalling before model output.

Constraint: Only live process evidence was available because the first epoch still has not finished
Rejected: Skip another checkpoint update | would leave restart docs one verification step behind reality
Confidence: high
Scope-risk: narrow
Directive: Wait for the first saved model file or stage transition before making any accuracy claims
Tested: ps on PID 311629; validate-splits on /tmp/fma_real_smoke_stopcheck/fma/manifests; find on /tmp/fma_real_smoke_stopcheck/fma_models_smoke
Not-tested: End-of-epoch checkpoint creation and downstream evaluate output
1 parent 47390fe9
1 ## 2026-06-02 真实 FMA smoke fresh evidence 15:12 checkpoint
2
3 完成项:
4 - 再次检查真实 FMA smoke 运行态,确认 `train.py` 仍在前进而非悬挂。
5 - 更新 `docs/session-handoff.md`,补齐 12:12 UTC 的最新时间推进证据。
6 - 更新 `docs/changelist-2026-06-02.md`,把最新 elapsed 时间推进补入交付记录。
7
8 验证结果:
9 - `ps -p 311629 -o pid,etime,%cpu,%mem,cmd` => `ELAPSED=15:12`
10 - 仍仅存在 `smoke-local``train.py` 相关进程,未见 `build-index/evaluate` 新进程
11 - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true`
12 - `find /tmp/fma_real_smoke_stopcheck/fma_models_smoke ...` 仍仅返回目录本身
13
14 结论:
15 - 当前真实 FMA smoke 还未结束第 1 个 epoch,但持续推进证据已再次更新。
16 - 到这一时点,仍没有流程卡死迹象,也还没有最终精度结果。
17
1 ## 2026-06-02 真实 FMA smoke fresh evidence 再校验 checkpoint 18 ## 2026-06-02 真实 FMA smoke fresh evidence 再校验 checkpoint
2 19
3 完成项: 20 完成项:
......
...@@ -146,3 +146,11 @@ cd /workspace/acr-engine ...@@ -146,3 +146,11 @@ cd /workspace/acr-engine
146 - 已确认当前仍未切换到 `build-index``evaluate` 进程。 146 - 已确认当前仍未切换到 `build-index``evaluate` 进程。
147 - 已确认模型输出目录仍为空,仅有目录本身。 147 - 已确认模型输出目录仍为空,仅有目录本身。
148 - 这进一步证明:当前是长时间 CPU 训练,不是进程悬挂。 148 - 这进一步证明:当前是长时间 CPU 训练,不是进程悬挂。
149
150
151 ## 12:12 UTC 再次时间推进补充
152
153 - 最新 live 证据已推进到:`train.py ELAPSED=15:12`
154 - 当前 CPU / 内存观测:`%CPU≈614`, `%MEM≈10.5`
155 - 仍未出现 `build-index/evaluate` 进程,也未出现首个模型文件。
156 - 这说明当前只是继续处在真实 FMA 全量 epoch 内训练阶段。
......
...@@ -101,6 +101,28 @@ ...@@ -101,6 +101,28 @@
101 - 当前状态是 **真实 FMA 全量训练仍在 epoch 内部推进** 101 - 当前状态是 **真实 FMA 全量训练仍在 epoch 内部推进**
102 - 还没有到 `Epoch 1` 结束,因此仍不能期待 `best_model.pt` 已经落盘。 102 - 还没有到 `Epoch 1` 结束,因此仍不能期待 `best_model.pt` 已经落盘。
103 103
104 ### 再更新的 fresh evidence(2026-06-02 12:12 UTC)
105
106 - 真实 FMA smoke 仍在持续推进:
107 - `train.py ELAPSED=15:12`
108 - `%CPU≈614`
109 - `%MEM≈10.5`
110 - 当前进程结构仍未变化:
111 - `PID=311494``external_adapters.py smoke-local fma ...`
112 - `PID=311629``train.py --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
113 - 仍未观测到 `build-index` / `evaluate` 相关新进程。
114 - `fma_models_smoke/` 仍只有目录本身,没有模型文件。
115 - manifest 再次校验仍然通过:
116 - `ok=true`
117 - `catalog_references=8000`
118 - `train_queries=6401`
119 - `test_queries=1593`
120 - `val_queries=0`
121
122 这说明:
123 - 真实 FMA 全量 smoke 依旧在 `Epoch 1` 内部推进。
124 - 截至 12:12 UTC,仍未出现首个可落盘模型文件或下游阶段切换。
125
104 ### 重启后第一优先级动作 126 ### 重启后第一优先级动作
105 127
106 1. 先检查真实 FMA smoke 是否完成: 128 1. 先检查真实 FMA smoke 是否完成:
......