Commit cc9c0690 cc9c06905724a3afd4d0400a474a9dad79ba06b5 by cnb.bofCdSsphPA

Refresh handoff with later real FMA smoke progress

Capture a newer live checkpoint so restart docs continue to prove the real FMA smoke is progressing inside Epoch 1 without yet reaching model save or downstream evaluation stages.

Constraint: Verification remains limited to live runtime state because the first epoch has not completed
Rejected: Stop at the prior 19:12 checkpoint | would leave the handoff behind the latest verified state
Confidence: high
Scope-risk: narrow
Directive: Keep monitoring until the first saved model file or stage transition appears
Tested: ps on PID 311629; validate-splits on /tmp/fma_real_smoke_stopcheck/fma/manifests; find on /tmp/fma_real_smoke_stopcheck/fma_models_smoke
Not-tested: End-of-epoch artifacts, build-index, evaluate, final metrics
1 parent 2a6e8e15
1 ## 2026-06-02 真实 FMA smoke fresh evidence 20:08 checkpoint
2
3 完成项:
4 - 再次检查真实 FMA smoke 运行态,确认 `train.py` elapsed 已推进到 20:08。
5 - 更新 `docs/session-handoff.md``docs/changelist-2026-06-02.md`,同步更晚的 live evidence。
6
7 验证结果:
8 - `ps -p 311629 -o pid,etime,%cpu,%mem,cmd` => `ELAPSED=20:08`
9 - 仍未出现 `build-index/evaluate` 相关新进程
10 - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true`
11 - `fma_models_smoke/` 仍仅有目录本身
12
13 结论:
14 - 真实 FMA 全量 smoke 仍在 epoch 内推进,没有中断迹象。
15 - 到该时点仍未产生首个模型文件或下游阶段切换证据。
16
1 ## 2026-06-02 真实 FMA smoke fresh evidence 19:12 checkpoint 17 ## 2026-06-02 真实 FMA smoke fresh evidence 19:12 checkpoint
2 18
3 完成项: 19 完成项:
......
...@@ -176,3 +176,11 @@ cd /workspace/acr-engine ...@@ -176,3 +176,11 @@ cd /workspace/acr-engine
176 - 当前 CPU / 内存观测:`%CPU≈614`, `%MEM≈10.6` 176 - 当前 CPU / 内存观测:`%CPU≈614`, `%MEM≈10.6`
177 - 仍未出现模型文件,也未切换到 `build-index/evaluate` 177 - 仍未出现模型文件,也未切换到 `build-index/evaluate`
178 - manifest 复核继续通过,统计保持不变。 178 - manifest 复核继续通过,统计保持不变。
179
180
181 ## 12:17 UTC 时间推进补充
182
183 - 最新 live 证据已推进到:`train.py ELAPSED=20:08`
184 - 当前 CPU / 内存观测:`%CPU≈614`, `%MEM≈10.6`
185 - 仍未出现模型文件,也未切换到 `build-index/evaluate`
186 - manifest 复核继续通过,统计保持不变。
......
...@@ -189,6 +189,28 @@ ...@@ -189,6 +189,28 @@
189 - 当前依旧处于第 1 个 epoch 内部的持续训练阶段。 189 - 当前依旧处于第 1 个 epoch 内部的持续训练阶段。
190 - 到 12:16 UTC 为止,仍没有首个模型文件或下游检索/评测阶段证据。 190 - 到 12:16 UTC 为止,仍没有首个模型文件或下游检索/评测阶段证据。
191 191
192 ### 继续延后的 fresh evidence(2026-06-02 12:17 UTC)
193
194 - 真实 FMA smoke 继续推进到:
195 - `train.py ELAPSED=20:08`
196 - `%CPU≈614`
197 - `%MEM≈10.6`
198 - 当前进程结构仍未发生阶段切换:
199 - `PID=311494``external_adapters.py smoke-local fma ...`
200 - `PID=311629``train.py --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
201 - 仍未出现 `build-index` / `evaluate` 相关新进程。
202 - `fma_models_smoke/` 仍只有目录本身,没有模型文件。
203 - manifest 再次复核仍通过:
204 - `ok=true`
205 - `catalog_references=8000`
206 - `train_queries=6401`
207 - `test_queries=1593`
208 - `val_queries=0`
209
210 这说明:
211 - 当前依旧处于第 1 个 epoch 内部的持续训练阶段。
212 - 到 12:17 UTC 为止,仍没有首个模型文件或下游检索/评测阶段证据。
213
192 ### 重启后第一优先级动作 214 ### 重启后第一优先级动作
193 215
194 1. 先检查真实 FMA smoke 是否完成: 216 1. 先检查真实 FMA smoke 是否完成:
......