Record live FMA smoke handoff so the next session resumes at build-index
Constraint: CPU-only real FMA smoke is still running, so delivery must emphasize resumable evidence instead of final metrics Rejected: wait for evaluate completion | would block handoff and delay resumable delivery with no new guaranteed result Confidence: high Scope-risk: narrow Directive: Keep future commits limited to explicit doc files unless index/evaluate artifacts are intentionally being reported Tested: verified running PIDs, checked best_model.pt and song_to_idx.json existence, revalidated manifests with validate-splits Not-tested: final index artifact emission and evaluate metrics are not available yet
Showing
5 changed files
with
114 additions
and
0 deletions
| ... | @@ -74,6 +74,18 @@ | ... | @@ -74,6 +74,18 @@ |
| 74 | 74 | ||
| 75 | ## 5.5 最新真实 FMA smoke 运行态(2026-06-02) | 75 | ## 5.5 最新真实 FMA smoke 运行态(2026-06-02) |
| 76 | 76 | ||
| 77 | ### 当前最新快照(13:36 UTC) | ||
| 78 | |||
| 79 | - 远程同步基线:`c2d7820cdeebb142896916c0a03726521e5c09d8` | ||
| 80 | - 真实 FMA smoke 已完成训练,`best_model.pt` 与 `song_to_idx.json` 已生成。 | ||
| 81 | - 当前最重要活跃阶段不是训练,而是: | ||
| 82 | - `run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...` | ||
| 83 | - 到 `2026-06-02 13:36 UTC`: | ||
| 84 | - `evaluate.py` 仍未出现 | ||
| 85 | - `fma_index_smoke/` 目录已创建,但还没有索引产物文件证据 | ||
| 86 | - 因此新 session 不应重复排查训练;应优先盯住 `build-index -> evaluate` 的阶段切换。 | ||
| 87 | |||
| 88 | |||
| 77 | - 真实 FMA 数据已本地就绪:`acr-engine/data/raw/fma_small_audio/` | 89 | - 真实 FMA 数据已本地就绪:`acr-engine/data/raw/fma_small_audio/` |
| 78 | - 已验证: | 90 | - 已验证: |
| 79 | - `num_audio_files=8000` | 91 | - `num_audio_files=8000` | ... | ... |
| 1 | ## 2026-06-02 真实 FMA smoke build-index 13:36 UTC delivery checkpoint | ||
| 2 | |||
| 3 | 完成项: | ||
| 4 | - 复核真实 FMA 全量 smoke 的最新运行态,确认当前已越过训练阶段。 | ||
| 5 | - 将最新可交付事实补充到 handoff / delivery / AGENT 记忆文档。 | ||
| 6 | - 明确新 session 的唯一高价值续跑目标:监控 `build-index -> evaluate` 切换。 | ||
| 7 | |||
| 8 | 验证结果: | ||
| 9 | - 活跃进程仍为: | ||
| 10 | - `external_adapters.py smoke-local fma ...` | ||
| 11 | - `run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...` | ||
| 12 | - 模型产物已存在: | ||
| 13 | - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt` | ||
| 14 | - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json` | ||
| 15 | - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true` | ||
| 16 | - 当前仍未观测到 `evaluate.py`,`fma_index_smoke/` 仍未看到索引产物文件 | ||
| 17 | |||
| 18 | 结论: | ||
| 19 | - 真实 FMA smoke 当前稳定停留在 CPU-only 建索引阶段。 | ||
| 20 | - 本次交付重点已从“训练进行中”切换为“等待索引产物或评测切换”。 | ||
| 21 | |||
| 1 | ## 2026-06-02 真实 FMA smoke build-index 13:34 UTC checkpoint | 22 | ## 2026-06-02 真实 FMA smoke build-index 13:34 UTC checkpoint |
| 2 | 23 | ||
| 3 | 完成项: | 24 | 完成项: | ... | ... |
| 1 | # Changelist / 2026-06-02 | 1 | # Changelist / 2026-06-02 |
| 2 | 2 | ||
| 3 | ## 本次最终交付补充(13:36 UTC) | ||
| 4 | |||
| 5 | - 已把最新真实 FMA 全量 smoke 状态固化到 handoff 文档。 | ||
| 6 | - 当前事实已变为:训练完成,进入 `build-index`,但 `evaluate.py` 尚未开始。 | ||
| 7 | - 新 session 不应再从训练阶段开始理解,而应直接接管 `build-index` 监控。 | ||
| 8 | |||
| 9 | |||
| 3 | ## 本次交付目标 | 10 | ## 本次交付目标 |
| 4 | 11 | ||
| 5 | 在不等待长时间 benchmark 完成的前提下,交付一套足够完整的续跑文档,让新 session 能立刻知道: | 12 | 在不等待长时间 benchmark 完成的前提下,交付一套足够完整的续跑文档,让新 session 能立刻知道: | ... | ... |
| 1 | # Delivery Handoff / 2026-06-02 | 1 | # Delivery Handoff / 2026-06-02 |
| 2 | 2 | ||
| 3 | ## 本次最终可交付结论(13:36 UTC) | ||
| 4 | |||
| 5 | 本次应交付的核心不是“最终评测分数”,而是**可直接续跑的真实 FMA 全量 smoke 状态包**: | ||
| 6 | - 远程已同步到:`c2d7820cdeebb142896916c0a03726521e5c09d8` | ||
| 7 | - 真实 FMA 全量 smoke 已确认 **训练完成** | ||
| 8 | - 已有模型产物:`best_model.pt`、`song_to_idx.json` | ||
| 9 | - 当前仍在 **CPU-only build-index** 阶段 | ||
| 10 | - `evaluate.py` 仍未启动 | ||
| 11 | - manifest 仍有效:`8000 refs / 6401 train queries / 1593 test queries` | ||
| 12 | |||
| 13 | ### 新 session 第一优先级 | ||
| 14 | |||
| 15 | 只做一件最有价值的事: | ||
| 16 | - 持续盯住 `/tmp/fma_real_smoke_stopcheck/fma_index_smoke` 与 `evaluate.py` 的出现,捕获首个索引产物或最终评测结果。 | ||
| 17 | |||
| 18 | |||
| 3 | ## 一页接管 | 19 | ## 一页接管 |
| 4 | 20 | ||
| 5 | 当前可以直接交付的不是“最终算法结论”,而是“可持续续跑的工程状态”: | 21 | 当前可以直接交付的不是“最终算法结论”,而是“可持续续跑的工程状态”: |
| ... | @@ -149,3 +165,15 @@ cd /workspace/acr-engine | ... | @@ -149,3 +165,15 @@ cd /workspace/acr-engine |
| 149 | - 业务导出离线链跑通 | 165 | - 业务导出离线链跑通 |
| 150 | - 项目 `catalog/train/test/val` 成功生成 | 166 | - 项目 `catalog/train/test/val` 成功生成 |
| 151 | - `train.py --dry-run` 通过 | 167 | - `train.py --dry-run` 通过 |
| 168 | |||
| 169 | ## 当前最关键交付事实(13:36 UTC checkpoint) | ||
| 170 | |||
| 171 | - 活跃进程: | ||
| 172 | - `311494`:`external_adapters.py smoke-local fma ...` | ||
| 173 | - `424691`:`run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...` | ||
| 174 | - 已有文件: | ||
| 175 | - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt` | ||
| 176 | - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json` | ||
| 177 | - 当前还没有文件证据表明索引构建已产出最终 index artifact。 | ||
| 178 | - 当前还没有 `evaluate.py` 进程证据。 | ||
| 179 | - 结论:下一次提交应该围绕 `build-index` 首个产物或最终 `evaluate` metrics,而不是重复解释训练阶段。 | ... | ... |
| ... | @@ -5,6 +5,27 @@ | ... | @@ -5,6 +5,27 @@ |
| 5 | 5 | ||
| 6 | ## 一页结论 | 6 | ## 一页结论 |
| 7 | 7 | ||
| 8 | ### 最新交付快照(2026-06-02 13:36 UTC) | ||
| 9 | |||
| 10 | - 当前远程同步基线:`c2d7820cdeebb142896916c0a03726521e5c09d8` | ||
| 11 | - 真实 FMA 全量 smoke **已经完成训练**,并已产出: | ||
| 12 | - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt` | ||
| 13 | - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json` | ||
| 14 | - 当前主流程仍停留在 **`run_demo.py build-index`**: | ||
| 15 | - `PID=311494`:`external_adapters.py smoke-local ...` | ||
| 16 | - `PID=424691`:`run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...` | ||
| 17 | - 截至 `2026-06-02 13:36 UTC`: | ||
| 18 | - 仍未观测到 `evaluate.py` | ||
| 19 | - `/tmp/fma_real_smoke_stopcheck/fma_index_smoke/` 已存在,但尚未看到索引产物文件 | ||
| 20 | - manifest 再校验仍通过:`catalog_references=8000`, `train_queries=6401`, `test_queries=1593`, `ok=true` | ||
| 21 | - 结论:当前不是训练卡死,而是 **CPU-only 全量真实 FMA 在长时间建索引**。 | ||
| 22 | - 下一关键证据只有两个: | ||
| 23 | 1. 首个 index artifact 出现 | ||
| 24 | 2. 主流程切换到 `evaluate.py` | ||
| 25 | |||
| 26 | 这是一个正在从原型向工业化推进的 **音乐 ACR / music retrieval** 项目。 | ||
| 27 | 当前已经完成: | ||
| 28 | |||
| 8 | 这是一个正在从原型向工业化推进的 **音乐 ACR / music retrieval** 项目。 | 29 | 这是一个正在从原型向工业化推进的 **音乐 ACR / music retrieval** 项目。 |
| 9 | 当前已经完成: | 30 | 当前已经完成: |
| 10 | 31 | ||
| ... | @@ -1309,3 +1330,28 @@ seed123 最终结论: | ... | @@ -1309,3 +1330,28 @@ seed123 最终结论: |
| 1309 | - `high_energy`: `3 / 1.0 / 1.0` | 1330 | - `high_energy`: `3 / 1.0 / 1.0` |
| 1310 | - winner: `hybrid` | 1331 | - winner: `hybrid` |
| 1311 | - 当前第二个 bucket `prefix_000_b` 仍在继续执行 | 1332 | - 当前第二个 bucket `prefix_000_b` 仍在继续执行 |
| 1333 | |||
| 1334 | |||
| 1335 | ## 最新 checkpoint(2026-06-02 13:36 UTC) | ||
| 1336 | |||
| 1337 | - 当前仍存在两个关键活跃进程: | ||
| 1338 | - `311494`:`/usr/local/miniconda3/bin/python src/data/external_adapters.py smoke-local fma data/raw/fma_small_audio --output-root /tmp/fma_real_smoke_stopcheck --eval-ratio 0.2 --query-duration 8.0 --train-epochs 1 --batch-size 2 --device cpu --max-test-queries 8 --seed 123` | ||
| 1339 | - `424691`:`/usr/local/miniconda3/bin/python run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests --model /tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt --output /tmp/fma_real_smoke_stopcheck/fma_index_smoke --device cpu --resume --checkpoint-every-refs 100` | ||
| 1340 | - 已确认训练完成后的关键文件存在: | ||
| 1341 | - `best_model.pt` | ||
| 1342 | - `song_to_idx.json` | ||
| 1343 | - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => | ||
| 1344 | - `ok=true` | ||
| 1345 | - `catalog_references=8000` | ||
| 1346 | - `train_queries=6401` | ||
| 1347 | - `test_queries=1593` | ||
| 1348 | - `val_queries=0` | ||
| 1349 | - 当前仍未观测到 `evaluate.py`。 | ||
| 1350 | - 当前仍未在 `fma_index_smoke/` 下观测到首个索引产物文件。 | ||
| 1351 | |||
| 1352 | ### 新 session 恢复顺序 | ||
| 1353 | |||
| 1354 | 1. 先检查 `build-index` 是否仍在运行。 | ||
| 1355 | 2. 再检查 `fma_index_smoke/` 是否出现首个文件。 | ||
| 1356 | 3. 若 `evaluate.py` 出现,立即记录 metrics / report 路径。 | ||
| 1357 | 4. 仅更新交接文档并提交,不要误带 `data/raw`、`data/external_smoke`、`/tmp`。 | ... | ... |
-
Please register or sign in to post a comment