Commit 56bfd71a 56bfd71a4a2f6178b061e44805088778e33649a9 by cnb.bofCdSsphPA

Record wider-window FMA smoke progress evidence

Capture a more meaningful follow-up checkpoint after an added wait window so the restart docs show continued forward motion rather than trivial second-to-second sampling.

Constraint: Epoch 1 still has not completed, so verification is limited to runtime evidence and manifest revalidation
Rejected: Skip the wider-window checkpoint | would miss the chance to prove progress across a longer observation gap
Confidence: high
Scope-risk: narrow
Directive: Keep watching for the first saved model file or transition into build-index/evaluate before changing the project status summary
Tested: ps on PID 311629 after 30s wait; validate-splits on /tmp/fma_real_smoke_stopcheck/fma/manifests; find on /tmp/fma_real_smoke_stopcheck/fma_models_smoke
Not-tested: End-of-epoch artifacts, build-index, evaluate, final metrics
1 parent 0513c36a
1 ## 2026-06-02 真实 FMA smoke fresh evidence 24:11 checkpoint
2
3 完成项:
4 - 在额外约 30 秒窗口后再次检查真实 FMA smoke,确认 `train.py` elapsed 已推进到 24:11。
5 - 更新 `docs/session-handoff.md``docs/changelist-2026-06-02.md`,同步更有间隔意义的 live evidence。
6
7 验证结果:
8 - `ps -p 311629 -o pid,etime,%cpu,%mem,cmd` => `ELAPSED=24:11`
9 - 仍未出现 `build-index/evaluate` 相关新进程
10 - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true`
11 - `fma_models_smoke/` 仍仅有目录本身
12
13 结论:
14 - 真实 FMA 全量 smoke 在更长观察窗口下仍持续推进,没有中断迹象。
15 - 到该时点仍未产生首个模型文件或下游阶段切换证据。
16
1 ## 2026-06-02 真实 FMA smoke fresh evidence 22:58 checkpoint 17 ## 2026-06-02 真实 FMA smoke fresh evidence 22:58 checkpoint
2 18
3 完成项: 19 完成项:
......
...@@ -200,3 +200,11 @@ cd /workspace/acr-engine ...@@ -200,3 +200,11 @@ cd /workspace/acr-engine
200 - 当前 CPU / 内存观测:`%CPU≈615`, `%MEM≈10.8` 200 - 当前 CPU / 内存观测:`%CPU≈615`, `%MEM≈10.8`
201 - 仍未出现模型文件,也未切换到 `build-index/evaluate` 201 - 仍未出现模型文件,也未切换到 `build-index/evaluate`
202 - manifest 复核继续通过,统计保持不变。 202 - manifest 复核继续通过,统计保持不变。
203
204
205 ## 12:21 UTC(30 秒窗口)时间推进补充
206
207 - 最新 live 证据已推进到:`train.py ELAPSED=24:11`
208 - 当前 CPU / 内存观测:`%CPU≈615`, `%MEM≈11.3`
209 - 30 秒额外等待后,仍未出现模型文件,也未切换到 `build-index/evaluate`
210 - manifest 复核继续通过,统计保持不变。
......
...@@ -255,6 +255,28 @@ ...@@ -255,6 +255,28 @@
255 - 当前依旧处于第 1 个 epoch 内部的持续训练阶段。 255 - 当前依旧处于第 1 个 epoch 内部的持续训练阶段。
256 - 到 12:20 UTC 为止,仍没有首个模型文件或下游检索/评测阶段证据。 256 - 到 12:20 UTC 为止,仍没有首个模型文件或下游检索/评测阶段证据。
257 257
258 ### 30 秒窗口后的 fresh evidence(2026-06-02 12:21 UTC)
259
260 - 经过额外约 30 秒等待后,真实 FMA smoke 继续推进到:
261 - `train.py ELAPSED=24:11`
262 - `%CPU≈615`
263 - `%MEM≈11.3`
264 - 当前进程结构仍未发生阶段切换:
265 - `PID=311494``external_adapters.py smoke-local fma ...`
266 - `PID=311629``train.py --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
267 - 仍未出现 `build-index` / `evaluate` 相关新进程。
268 - `fma_models_smoke/` 仍只有目录本身,没有模型文件。
269 - manifest 再次复核仍通过:
270 - `ok=true`
271 - `catalog_references=8000`
272 - `train_queries=6401`
273 - `test_queries=1593`
274 - `val_queries=0`
275
276 这说明:
277 - 即使拉开更有意义的时间窗口,当前仍能确认训练在前进,而不是僵死。
278 - 到 12:21 UTC 为止,仍没有首个模型文件或下游检索/评测阶段证据。
279
258 ### 重启后第一优先级动作 280 ### 重启后第一优先级动作
259 281
260 1. 先检查真实 FMA smoke 是否完成: 282 1. 先检查真实 FMA smoke 是否完成:
......