Commit 8328bc79 8328bc79e6f046bcf4737d16cc8e5d0303b1898c by cnb.bofCdSsphPA

Record live FMA smoke handoff so the next session resumes at build-index

Constraint: CPU-only real FMA smoke is still running, so delivery must emphasize resumable evidence instead of final metrics
Rejected: wait for evaluate completion | would block handoff and delay resumable delivery with no new guaranteed result
Confidence: high
Scope-risk: narrow
Directive: Keep future commits limited to explicit doc files unless index/evaluate artifacts are intentionally being reported
Tested: verified running PIDs, checked best_model.pt and song_to_idx.json existence, revalidated manifests with validate-splits
Not-tested: final index artifact emission and evaluate metrics are not available yet
1 parent c2d7820c
...@@ -74,6 +74,18 @@ ...@@ -74,6 +74,18 @@
74 74
75 ## 5.5 最新真实 FMA smoke 运行态(2026-06-02) 75 ## 5.5 最新真实 FMA smoke 运行态(2026-06-02)
76 76
77 ### 当前最新快照(13:36 UTC)
78
79 - 远程同步基线:`c2d7820cdeebb142896916c0a03726521e5c09d8`
80 - 真实 FMA smoke 已完成训练,`best_model.pt``song_to_idx.json` 已生成。
81 - 当前最重要活跃阶段不是训练,而是:
82 - `run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
83 -`2026-06-02 13:36 UTC`
84 - `evaluate.py` 仍未出现
85 - `fma_index_smoke/` 目录已创建,但还没有索引产物文件证据
86 - 因此新 session 不应重复排查训练;应优先盯住 `build-index -> evaluate` 的阶段切换。
87
88
77 - 真实 FMA 数据已本地就绪:`acr-engine/data/raw/fma_small_audio/` 89 - 真实 FMA 数据已本地就绪:`acr-engine/data/raw/fma_small_audio/`
78 - 已验证: 90 - 已验证:
79 - `num_audio_files=8000` 91 - `num_audio_files=8000`
......
1 ## 2026-06-02 真实 FMA smoke build-index 13:36 UTC delivery checkpoint
2
3 完成项:
4 - 复核真实 FMA 全量 smoke 的最新运行态,确认当前已越过训练阶段。
5 - 将最新可交付事实补充到 handoff / delivery / AGENT 记忆文档。
6 - 明确新 session 的唯一高价值续跑目标:监控 `build-index -> evaluate` 切换。
7
8 验证结果:
9 - 活跃进程仍为:
10 - `external_adapters.py smoke-local fma ...`
11 - `run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
12 - 模型产物已存在:
13 - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt`
14 - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json`
15 - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true`
16 - 当前仍未观测到 `evaluate.py``fma_index_smoke/` 仍未看到索引产物文件
17
18 结论:
19 - 真实 FMA smoke 当前稳定停留在 CPU-only 建索引阶段。
20 - 本次交付重点已从“训练进行中”切换为“等待索引产物或评测切换”。
21
1 ## 2026-06-02 真实 FMA smoke build-index 13:34 UTC checkpoint 22 ## 2026-06-02 真实 FMA smoke build-index 13:34 UTC checkpoint
2 23
3 完成项: 24 完成项:
......
1 # Changelist / 2026-06-02 1 # Changelist / 2026-06-02
2 2
3 ## 本次最终交付补充(13:36 UTC)
4
5 - 已把最新真实 FMA 全量 smoke 状态固化到 handoff 文档。
6 - 当前事实已变为:训练完成,进入 `build-index`,但 `evaluate.py` 尚未开始。
7 - 新 session 不应再从训练阶段开始理解,而应直接接管 `build-index` 监控。
8
9
3 ## 本次交付目标 10 ## 本次交付目标
4 11
5 在不等待长时间 benchmark 完成的前提下,交付一套足够完整的续跑文档,让新 session 能立刻知道: 12 在不等待长时间 benchmark 完成的前提下,交付一套足够完整的续跑文档,让新 session 能立刻知道:
......
1 # Delivery Handoff / 2026-06-02 1 # Delivery Handoff / 2026-06-02
2 2
3 ## 本次最终可交付结论(13:36 UTC)
4
5 本次应交付的核心不是“最终评测分数”,而是**可直接续跑的真实 FMA 全量 smoke 状态包**
6 - 远程已同步到:`c2d7820cdeebb142896916c0a03726521e5c09d8`
7 - 真实 FMA 全量 smoke 已确认 **训练完成**
8 - 已有模型产物:`best_model.pt``song_to_idx.json`
9 - 当前仍在 **CPU-only build-index** 阶段
10 - `evaluate.py` 仍未启动
11 - manifest 仍有效:`8000 refs / 6401 train queries / 1593 test queries`
12
13 ### 新 session 第一优先级
14
15 只做一件最有价值的事:
16 - 持续盯住 `/tmp/fma_real_smoke_stopcheck/fma_index_smoke``evaluate.py` 的出现,捕获首个索引产物或最终评测结果。
17
18
3 ## 一页接管 19 ## 一页接管
4 20
5 当前可以直接交付的不是“最终算法结论”,而是“可持续续跑的工程状态”: 21 当前可以直接交付的不是“最终算法结论”,而是“可持续续跑的工程状态”:
...@@ -149,3 +165,15 @@ cd /workspace/acr-engine ...@@ -149,3 +165,15 @@ cd /workspace/acr-engine
149 - 业务导出离线链跑通 165 - 业务导出离线链跑通
150 - 项目 `catalog/train/test/val` 成功生成 166 - 项目 `catalog/train/test/val` 成功生成
151 - `train.py --dry-run` 通过 167 - `train.py --dry-run` 通过
168
169 ## 当前最关键交付事实(13:36 UTC checkpoint)
170
171 - 活跃进程:
172 - `311494``external_adapters.py smoke-local fma ...`
173 - `424691``run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
174 - 已有文件:
175 - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt`
176 - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json`
177 - 当前还没有文件证据表明索引构建已产出最终 index artifact。
178 - 当前还没有 `evaluate.py` 进程证据。
179 - 结论:下一次提交应该围绕 `build-index` 首个产物或最终 `evaluate` metrics,而不是重复解释训练阶段。
......
...@@ -5,6 +5,27 @@ ...@@ -5,6 +5,27 @@
5 5
6 ## 一页结论 6 ## 一页结论
7 7
8 ### 最新交付快照(2026-06-02 13:36 UTC)
9
10 - 当前远程同步基线:`c2d7820cdeebb142896916c0a03726521e5c09d8`
11 - 真实 FMA 全量 smoke **已经完成训练**,并已产出:
12 - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt`
13 - `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json`
14 - 当前主流程仍停留在 **`run_demo.py build-index`**
15 - `PID=311494``external_adapters.py smoke-local ...`
16 - `PID=424691``run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
17 - 截至 `2026-06-02 13:36 UTC`
18 - 仍未观测到 `evaluate.py`
19 - `/tmp/fma_real_smoke_stopcheck/fma_index_smoke/` 已存在,但尚未看到索引产物文件
20 - manifest 再校验仍通过:`catalog_references=8000`, `train_queries=6401`, `test_queries=1593`, `ok=true`
21 - 结论:当前不是训练卡死,而是 **CPU-only 全量真实 FMA 在长时间建索引**
22 - 下一关键证据只有两个:
23 1. 首个 index artifact 出现
24 2. 主流程切换到 `evaluate.py`
25
26 这是一个正在从原型向工业化推进的 **音乐 ACR / music retrieval** 项目。
27 当前已经完成:
28
8 这是一个正在从原型向工业化推进的 **音乐 ACR / music retrieval** 项目。 29 这是一个正在从原型向工业化推进的 **音乐 ACR / music retrieval** 项目。
9 当前已经完成: 30 当前已经完成:
10 31
...@@ -1309,3 +1330,28 @@ seed123 最终结论: ...@@ -1309,3 +1330,28 @@ seed123 最终结论:
1309 - `high_energy`: `3 / 1.0 / 1.0` 1330 - `high_energy`: `3 / 1.0 / 1.0`
1310 - winner: `hybrid` 1331 - winner: `hybrid`
1311 - 当前第二个 bucket `prefix_000_b` 仍在继续执行 1332 - 当前第二个 bucket `prefix_000_b` 仍在继续执行
1333
1334
1335 ## 最新 checkpoint(2026-06-02 13:36 UTC)
1336
1337 - 当前仍存在两个关键活跃进程:
1338 - `311494``/usr/local/miniconda3/bin/python src/data/external_adapters.py smoke-local fma data/raw/fma_small_audio --output-root /tmp/fma_real_smoke_stopcheck --eval-ratio 0.2 --query-duration 8.0 --train-epochs 1 --batch-size 2 --device cpu --max-test-queries 8 --seed 123`
1339 - `424691``/usr/local/miniconda3/bin/python run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests --model /tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt --output /tmp/fma_real_smoke_stopcheck/fma_index_smoke --device cpu --resume --checkpoint-every-refs 100`
1340 - 已确认训练完成后的关键文件存在:
1341 - `best_model.pt`
1342 - `song_to_idx.json`
1343 - `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` =>
1344 - `ok=true`
1345 - `catalog_references=8000`
1346 - `train_queries=6401`
1347 - `test_queries=1593`
1348 - `val_queries=0`
1349 - 当前仍未观测到 `evaluate.py`
1350 - 当前仍未在 `fma_index_smoke/` 下观测到首个索引产物文件。
1351
1352 ### 新 session 恢复顺序
1353
1354 1. 先检查 `build-index` 是否仍在运行。
1355 2. 再检查 `fma_index_smoke/` 是否出现首个文件。
1356 3.`evaluate.py` 出现,立即记录 metrics / report 路径。
1357 4. 仅更新交接文档并提交,不要误带 `data/raw``data/external_smoke``/tmp`
......