Refresh live smoke evidence with newer epoch progress
Advance the handoff timestamp so a restarted session inherits the latest proof that the real FMA smoke is still progressing inside Epoch 1 rather than stalling before model output. Constraint: Only live process evidence was available because the first epoch still has not finished Rejected: Skip another checkpoint update | would leave restart docs one verification step behind reality Confidence: high Scope-risk: narrow Directive: Wait for the first saved model file or stage transition before making any accuracy claims Tested: ps on PID 311629; validate-splits on /tmp/fma_real_smoke_stopcheck/fma/manifests; find on /tmp/fma_real_smoke_stopcheck/fma_models_smoke Not-tested: End-of-epoch checkpoint creation and downstream evaluate output
Showing
3 changed files
with
47 additions
and
0 deletions
| 1 | ## 2026-06-02 真实 FMA smoke fresh evidence 15:12 checkpoint | ||
| 2 | |||
| 3 | 完成项: | ||
| 4 | - 再次检查真实 FMA smoke 运行态,确认 `train.py` 仍在前进而非悬挂。 | ||
| 5 | - 更新 `docs/session-handoff.md`,补齐 12:12 UTC 的最新时间推进证据。 | ||
| 6 | - 更新 `docs/changelist-2026-06-02.md`,把最新 elapsed 时间推进补入交付记录。 | ||
| 7 | |||
| 8 | 验证结果: | ||
| 9 | - `ps -p 311629 -o pid,etime,%cpu,%mem,cmd` => `ELAPSED=15:12` | ||
| 10 | - 仍仅存在 `smoke-local` 与 `train.py` 相关进程,未见 `build-index/evaluate` 新进程 | ||
| 11 | - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true` | ||
| 12 | - `find /tmp/fma_real_smoke_stopcheck/fma_models_smoke ...` 仍仅返回目录本身 | ||
| 13 | |||
| 14 | 结论: | ||
| 15 | - 当前真实 FMA smoke 还未结束第 1 个 epoch,但持续推进证据已再次更新。 | ||
| 16 | - 到这一时点,仍没有流程卡死迹象,也还没有最终精度结果。 | ||
| 17 | |||
| 1 | ## 2026-06-02 真实 FMA smoke fresh evidence 再校验 checkpoint | 18 | ## 2026-06-02 真实 FMA smoke fresh evidence 再校验 checkpoint |
| 2 | 19 | ||
| 3 | 完成项: | 20 | 完成项: | ... | ... |
| ... | @@ -146,3 +146,11 @@ cd /workspace/acr-engine | ... | @@ -146,3 +146,11 @@ cd /workspace/acr-engine |
| 146 | - 已确认当前仍未切换到 `build-index` 或 `evaluate` 进程。 | 146 | - 已确认当前仍未切换到 `build-index` 或 `evaluate` 进程。 |
| 147 | - 已确认模型输出目录仍为空,仅有目录本身。 | 147 | - 已确认模型输出目录仍为空,仅有目录本身。 |
| 148 | - 这进一步证明:当前是长时间 CPU 训练,不是进程悬挂。 | 148 | - 这进一步证明:当前是长时间 CPU 训练,不是进程悬挂。 |
| 149 | |||
| 150 | |||
| 151 | ## 12:12 UTC 再次时间推进补充 | ||
| 152 | |||
| 153 | - 最新 live 证据已推进到:`train.py ELAPSED=15:12`。 | ||
| 154 | - 当前 CPU / 内存观测:`%CPU≈614`, `%MEM≈10.5`。 | ||
| 155 | - 仍未出现 `build-index/evaluate` 进程,也未出现首个模型文件。 | ||
| 156 | - 这说明当前只是继续处在真实 FMA 全量 epoch 内训练阶段。 | ... | ... |
| ... | @@ -101,6 +101,28 @@ | ... | @@ -101,6 +101,28 @@ |
| 101 | - 当前状态是 **真实 FMA 全量训练仍在 epoch 内部推进**。 | 101 | - 当前状态是 **真实 FMA 全量训练仍在 epoch 内部推进**。 |
| 102 | - 还没有到 `Epoch 1` 结束,因此仍不能期待 `best_model.pt` 已经落盘。 | 102 | - 还没有到 `Epoch 1` 结束,因此仍不能期待 `best_model.pt` 已经落盘。 |
| 103 | 103 | ||
| 104 | ### 再更新的 fresh evidence(2026-06-02 12:12 UTC) | ||
| 105 | |||
| 106 | - 真实 FMA smoke 仍在持续推进: | ||
| 107 | - `train.py ELAPSED=15:12` | ||
| 108 | - `%CPU≈614` | ||
| 109 | - `%MEM≈10.5` | ||
| 110 | - 当前进程结构仍未变化: | ||
| 111 | - `PID=311494`:`external_adapters.py smoke-local fma ...` | ||
| 112 | - `PID=311629`:`train.py --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...` | ||
| 113 | - 仍未观测到 `build-index` / `evaluate` 相关新进程。 | ||
| 114 | - `fma_models_smoke/` 仍只有目录本身,没有模型文件。 | ||
| 115 | - manifest 再次校验仍然通过: | ||
| 116 | - `ok=true` | ||
| 117 | - `catalog_references=8000` | ||
| 118 | - `train_queries=6401` | ||
| 119 | - `test_queries=1593` | ||
| 120 | - `val_queries=0` | ||
| 121 | |||
| 122 | 这说明: | ||
| 123 | - 真实 FMA 全量 smoke 依旧在 `Epoch 1` 内部推进。 | ||
| 124 | - 截至 12:12 UTC,仍未出现首个可落盘模型文件或下游阶段切换。 | ||
| 125 | |||
| 104 | ### 重启后第一优先级动作 | 126 | ### 重启后第一优先级动作 |
| 105 | 127 | ||
| 106 | 1. 先检查真实 FMA smoke 是否完成: | 128 | 1. 先检查真实 FMA smoke 是否完成: | ... | ... |
-
Please register or sign in to post a comment