Changelist / 2026-06-02
本次交付目标
在不等待长时间 benchmark 完成的前提下,交付一套足够完整的续跑文档,让新 session 能立刻知道:
- 已完成什么
- 正在卡在哪里
- 下一步跑什么
- 哪些文件能提,哪些不能提
文件级变更
| 文件 | 变更说明 |
|---|---|
| ../AGENT.md | 新增开发偏好与续跑记忆 |
| ./session-handoff.md | 增补当前卡点、待办与续跑命令 |
| ./delivery-handoff-2026-06-02.md | 新增快速接管摘要 |
| ./CHANGELOG.md | 记录本次交付检查点 |
不在本次提交中的内容
- FMA / MTG-Jamendo 原始数据
-
data/external_smoke中的音频与模型产物 -
/tmpbenchmark 输出 __pycache__- checkpoint / index 目录
当前运行中的任务
cap48 top2 seed=999- 启动命令:
cd /workspace/acr-engine
/usr/local/miniconda3/bin/python scripts/ab_smoke_segmentation.py \
--dataset fma \
--input-dir data/raw/fma_small_audio \
--work-root /tmp/ab_smoke_seg_cap48_top2_seed999 \
--subset-size 48 \
--query-duration 8 \
--train-epochs 1 \
--batch-size 2 \
--device cpu \
--strategies hybrid high_energy \
--max-test-queries 24 \
--seed 999 \
--output-json /tmp/ab_smoke_seg_cap48_top2_seed999/report.json
下一步建议
- 检查
seed=999是否完成。 - 生成 3-seed aggregate。
- 回写 workflow / handoff / changelog。
- 提交推送。
- 再开启 cap64 或 bucket benchmark。
本次追加证据
- 已确认
cap48 top2 seed=999未卡在 build-index。 -
hybrid已完成 reference index,随后进入evaluate.py。 本次提交用于沉淀这份 fresh verification evidence,方便下个 session 不必重复排查。
已补记
hybridseed=999 的中间结果:top1=0.875 / topk=1.0 / num_queries=24。已补齐
seed=999最终结果,并完成 cap48 三 seed aggregate 归纳。已记录 cap64 benchmark 已启动,并确认进入
high_energy训练阶段。已补充 cap64 新鲜证据:
high_energy索引完成(64 refs / 657 windows / 192-d)并进入evaluate.py。已补充 cap64 首个结果:
high_energy = top1 0.625 / topk 1.0 / num_queries 32,并记录主流程切换到hybrid。已补充 cap64 阶段推进:
hybrid已进入训练阶段。已补充 cap64 阶段推进:
hybrid已完成训练并进入 build-index。已补充 cap64 新鲜证据:从运行会话确认
hybrid的Epoch 1/1已完整跑完。已补充 cap64 新鲜证据:
hybridreference index 完成(64 refs / 657 windows / 192-d)并进入evaluate.py。已补齐 cap64 最终结果:
hybrid=0.875、high_energy=0.625,winner=hybrid。已新增
acr-engine/scripts/ab_smoke_bucketed.py,并完成首个 bucket 的 smoke 验证。-
已补齐 bucket/style-aware smoke 的完整汇总:
-
prefix_000_awinner=hybrid -
prefix_000_bwinner=high_energy - aggregate 层面两者
mean_top1=1.0,但hybridmean_num_queries更高。
-
最新待办(重启后直接接手)
- 把 toy prefix bucket 升级为更有业务意义的 bucket:
- 高能段主导
- 重复副歌明显
- 节拍规整
- 混淆样本 / hard negative
- 继续补 cap64 multi-seed,而不是只保留单 seed。
- 在 bucket 基线下继续优化
hybrid波动,而不是过早锁定全局默认策略。 - 保持“文档更新 -> changelog -> commit -> push”的阶段节奏。
- 已新增
acr-engine/scripts/business_export_offline_smoke.py,并拿到端到端离线 smoke fresh evidence。 - 已确认链路:业务导出样例 -> 规范化 -> 项目 manifest ->
train.py --dry-run。