delivery-handoff-2026-06-02.md
4.62 KB
Delivery Handoff / 2026-06-02
一页接管
当前可以直接交付的不是“最终算法结论”,而是“可持续续跑的工程状态”:
- 文档主结构已成型
- 数据规范/输入输出/pgvector 说明已补齐
- 切片策略与公平评测能力已落地
- 最新大一点的 benchmark 还在跑,结果未最终封板
已完成
- 多种音乐感知切片策略已接入训练与 query 生成。
- 真实 FMA mini-subset smoke A/B 已多轮验证。
-
high_energy与hybrid已成为当前最强候选。 - cap48 结果已明确存在 seed sensitivity。
- 文档已经浓缩为可导航结构。
当前最关键交付事实(12:09 UTC checkpoint)
- 真正还在持续执行的是 真实 FMA 全量 smoke,不是 toy benchmark。
- 当前主训练进程:
PID=311629ELAPSED=12:00%CPU≈615
- 当前 manifest 规模:
catalog_references=8000train_queries=6401test_queries=1593
- 当前模型目录
/tmp/fma_real_smoke_stopcheck/fma_models_smoke/仍为空,但这是符合当前train.py实现的正常现象:best_model.pt会在Epoch 1结束后首次保存。 - 所以这轮交付最重要的不是“最终精度”,而是把正在跑的真实大规模 smoke 状态、卡点和续跑方式明确记录下来。
当前卡点
卡点 1:真实 FMA 全量 smoke 仍在 CPU 长训练中
当前最新状态:
- 真实 FMA smoke 已启动并持续运行
- 当前环境无 GPU
-
fma_models_smoke/为空不代表失败,而是 epoch-end 保存逻辑所致
真正待做:
- 等待
Epoch 1结束并确认首个模型文件 - 继续捕获
build-index/evaluate转场证据 - 完成后立即回写文档、commit、push
卡点 2:还没有单一全局默认策略
当前最新状态:
- cap48 三 seed 聚合:
high_energy更稳 - cap64 单 seed:
hybrid更强 - bucket toy smoke:两个 bucket 分别出现不同 winner
- 因此当前不能把某一个策略写死为“全局最优”
真正待做:
- 增加更有语义的 bucket
- 补 cap64 multi-seed
- 继续降低
hybrid波动
卡点 3:工作区噪音很大
当前有大量未跟踪或变更的数据/产物文件,提交时必须精准暂存文档文件。
建议接手顺序
- 先从 session-handoff.md 与 open-dataset-workflow.md 读取当前结论。
- 优先把 toy prefix bucket 升级为语义 bucket。
- 继续补 cap64 multi-seed。
- 回写结论到:
- 单独提交文档,再进入下一轮 benchmark。
推荐检查命令
pgrep -af 'ab_smoke_seg_cap48_top2_seed999|external_adapters.py smoke-local fma /tmp/ab_smoke_seg_cap48_top2_seed999|evaluate.py --data /tmp/ab_smoke_seg_cap48_top2_seed999|run_demo.py build-index --data /tmp/ab_smoke_seg_cap48_top2_seed999|train.py --data /tmp/ab_smoke_seg_cap48_top2_seed999'
test -f /tmp/ab_smoke_seg_cap48_top2_seed999/report.json && cat /tmp/ab_smoke_seg_cap48_top2_seed999/report.json || echo NO_REPORT
下一轮已启动
- 新 benchmark:
/tmp/ab_smoke_seg_cap64_top2 - 当前阶段:
high_energy已完成评测,结果为top1=0.625 / topk=1.0 / num_queries=32 - cap64 已完成,结果:
hybrid=0.875,high_energy=0.625 - cap64 winner=
hybrid - 下一 session 应优先进入 bucket/style-aware benchmark
当前最关键的新事实
- bucket/style-aware benchmark 的完整汇总已经生成:
/tmp/ab_smoke_bucketed_smoke/report.json -
prefix_000_awinner=hybrid -
prefix_000_bwinner=high_energy - aggregate:
-
hybrid:mean_top1=1.0, mean_num_queries=4.0 -
high_energy:mean_top1=1.0, mean_num_queries=3.5
-
- 这意味着 bucket baseline 已经可以作为后续“解释不同子集 winner 分化”的最小工程基础。
最新新增的实跑证据
- 新增脚本:
acr-engine/scripts/business_export_offline_smoke.py - 已在本地真实可读音频上跑通:
- 业务导出样例 -> 规范化 -> 项目 manifest ->
train.py --dry-run
- 业务导出样例 -> 规范化 -> 项目 manifest ->
- 关键结果:
catalog_refs=2train_queries=1test_queries=1val_queries=0dry_run_passed=true
最短可跑命令
重启后如果你只想先确认链路是否还通,直接运行:
cd /workspace/acr-engine
/usr/local/miniconda3/bin/python scripts/business_export_offline_smoke.py \
--output-root /tmp/business_export_offline_smoke
预期:
- 业务导出离线链跑通
- 项目
catalog/train/test/val成功生成 -
train.py --dry-run通过