Commit 8328bc79 8328bc79e6f046bcf4737d16cc8e5d0303b1898c by cnb.bofCdSsphPA

Record live FMA smoke handoff so the next session resumes at build-index

Constraint: CPU-only real FMA smoke is still running, so delivery must emphasize resumable evidence instead of final metrics
Rejected: wait for evaluate completion | would block handoff and delay resumable delivery with no new guaranteed result
Confidence: high
Scope-risk: narrow
Directive: Keep future commits limited to explicit doc files unless index/evaluate artifacts are intentionally being reported
Tested: verified running PIDs, checked best_model.pt and song_to_idx.json existence, revalidated manifests with validate-splits
Not-tested: final index artifact emission and evaluate metrics are not available yet
1 parent c2d7820c
......@@ -74,6 +74,18 @@
## 5.5 最新真实 FMA smoke 运行态(2026-06-02)
### 当前最新快照(13:36 UTC)
- 远程同步基线:`c2d7820cdeebb142896916c0a03726521e5c09d8`
- 真实 FMA smoke 已完成训练,`best_model.pt``song_to_idx.json` 已生成。
- 当前最重要活跃阶段不是训练,而是:
- `run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
-`2026-06-02 13:36 UTC`
- `evaluate.py` 仍未出现
- `fma_index_smoke/` 目录已创建,但还没有索引产物文件证据
- 因此新 session 不应重复排查训练;应优先盯住 `build-index -> evaluate` 的阶段切换。
- 真实 FMA 数据已本地就绪:`acr-engine/data/raw/fma_small_audio/`
- 已验证:
- `num_audio_files=8000`
......
## 2026-06-02 真实 FMA smoke build-index 13:36 UTC delivery checkpoint
完成项:
- 复核真实 FMA 全量 smoke 的最新运行态,确认当前已越过训练阶段。
- 将最新可交付事实补充到 handoff / delivery / AGENT 记忆文档。
- 明确新 session 的唯一高价值续跑目标:监控 `build-index -> evaluate` 切换。
验证结果:
- 活跃进程仍为:
- `external_adapters.py smoke-local fma ...`
- `run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
- 模型产物已存在:
- `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt`
- `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json`
- `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` => `ok=true`
- 当前仍未观测到 `evaluate.py``fma_index_smoke/` 仍未看到索引产物文件
结论:
- 真实 FMA smoke 当前稳定停留在 CPU-only 建索引阶段。
- 本次交付重点已从“训练进行中”切换为“等待索引产物或评测切换”。
## 2026-06-02 真实 FMA smoke build-index 13:34 UTC checkpoint
完成项:
......
# Changelist / 2026-06-02
## 本次最终交付补充(13:36 UTC)
- 已把最新真实 FMA 全量 smoke 状态固化到 handoff 文档。
- 当前事实已变为:训练完成,进入 `build-index`,但 `evaluate.py` 尚未开始。
- 新 session 不应再从训练阶段开始理解,而应直接接管 `build-index` 监控。
## 本次交付目标
在不等待长时间 benchmark 完成的前提下,交付一套足够完整的续跑文档,让新 session 能立刻知道:
......
# Delivery Handoff / 2026-06-02
## 本次最终可交付结论(13:36 UTC)
本次应交付的核心不是“最终评测分数”,而是**可直接续跑的真实 FMA 全量 smoke 状态包**
- 远程已同步到:`c2d7820cdeebb142896916c0a03726521e5c09d8`
- 真实 FMA 全量 smoke 已确认 **训练完成**
- 已有模型产物:`best_model.pt``song_to_idx.json`
- 当前仍在 **CPU-only build-index** 阶段
- `evaluate.py` 仍未启动
- manifest 仍有效:`8000 refs / 6401 train queries / 1593 test queries`
### 新 session 第一优先级
只做一件最有价值的事:
- 持续盯住 `/tmp/fma_real_smoke_stopcheck/fma_index_smoke``evaluate.py` 的出现,捕获首个索引产物或最终评测结果。
## 一页接管
当前可以直接交付的不是“最终算法结论”,而是“可持续续跑的工程状态”:
......@@ -149,3 +165,15 @@ cd /workspace/acr-engine
- 业务导出离线链跑通
- 项目 `catalog/train/test/val` 成功生成
- `train.py --dry-run` 通过
## 当前最关键交付事实(13:36 UTC checkpoint)
- 活跃进程:
- `311494``external_adapters.py smoke-local fma ...`
- `424691``run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
- 已有文件:
- `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt`
- `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json`
- 当前还没有文件证据表明索引构建已产出最终 index artifact。
- 当前还没有 `evaluate.py` 进程证据。
- 结论:下一次提交应该围绕 `build-index` 首个产物或最终 `evaluate` metrics,而不是重复解释训练阶段。
......
......@@ -5,6 +5,27 @@
## 一页结论
### 最新交付快照(2026-06-02 13:36 UTC)
- 当前远程同步基线:`c2d7820cdeebb142896916c0a03726521e5c09d8`
- 真实 FMA 全量 smoke **已经完成训练**,并已产出:
- `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt`
- `/tmp/fma_real_smoke_stopcheck/fma_models_smoke/song_to_idx.json`
- 当前主流程仍停留在 **`run_demo.py build-index`**
- `PID=311494``external_adapters.py smoke-local ...`
- `PID=424691``run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests ...`
- 截至 `2026-06-02 13:36 UTC`
- 仍未观测到 `evaluate.py`
- `/tmp/fma_real_smoke_stopcheck/fma_index_smoke/` 已存在,但尚未看到索引产物文件
- manifest 再校验仍通过:`catalog_references=8000`, `train_queries=6401`, `test_queries=1593`, `ok=true`
- 结论:当前不是训练卡死,而是 **CPU-only 全量真实 FMA 在长时间建索引**
- 下一关键证据只有两个:
1. 首个 index artifact 出现
2. 主流程切换到 `evaluate.py`
这是一个正在从原型向工业化推进的 **音乐 ACR / music retrieval** 项目。
当前已经完成:
这是一个正在从原型向工业化推进的 **音乐 ACR / music retrieval** 项目。
当前已经完成:
......@@ -1309,3 +1330,28 @@ seed123 最终结论:
- `high_energy`: `3 / 1.0 / 1.0`
- winner: `hybrid`
- 当前第二个 bucket `prefix_000_b` 仍在继续执行
## 最新 checkpoint(2026-06-02 13:36 UTC)
- 当前仍存在两个关键活跃进程:
- `311494``/usr/local/miniconda3/bin/python src/data/external_adapters.py smoke-local fma data/raw/fma_small_audio --output-root /tmp/fma_real_smoke_stopcheck --eval-ratio 0.2 --query-duration 8.0 --train-epochs 1 --batch-size 2 --device cpu --max-test-queries 8 --seed 123`
- `424691``/usr/local/miniconda3/bin/python run_demo.py build-index --data /tmp/fma_real_smoke_stopcheck/fma/manifests --model /tmp/fma_real_smoke_stopcheck/fma_models_smoke/best_model.pt --output /tmp/fma_real_smoke_stopcheck/fma_index_smoke --device cpu --resume --checkpoint-every-refs 100`
- 已确认训练完成后的关键文件存在:
- `best_model.pt`
- `song_to_idx.json`
- `validate-splits /tmp/fma_real_smoke_stopcheck/fma/manifests` =>
- `ok=true`
- `catalog_references=8000`
- `train_queries=6401`
- `test_queries=1593`
- `val_queries=0`
- 当前仍未观测到 `evaluate.py`
- 当前仍未在 `fma_index_smoke/` 下观测到首个索引产物文件。
### 新 session 恢复顺序
1. 先检查 `build-index` 是否仍在运行。
2. 再检查 `fma_index_smoke/` 是否出现首个文件。
3.`evaluate.py` 出现,立即记录 metrics / report 路径。
4. 仅更新交接文档并提交,不要误带 `data/raw``data/external_smoke``/tmp`
......