changelist-2026-06-02.md 3.51 KB

Changelist / 2026-06-02

本次交付目标

在不等待长时间 benchmark 完成的前提下,交付一套足够完整的续跑文档,让新 session 能立刻知道:

  • 已完成什么
  • 正在卡在哪里
  • 下一步跑什么
  • 哪些文件能提,哪些不能提

文件级变更

文件 变更说明
../AGENT.md 新增开发偏好与续跑记忆
./session-handoff.md 增补当前卡点、待办与续跑命令
./delivery-handoff-2026-06-02.md 新增快速接管摘要
./CHANGELOG.md 记录本次交付检查点

不在本次提交中的内容

  • FMA / MTG-Jamendo 原始数据
  • data/external_smoke 中的音频与模型产物
  • /tmp benchmark 输出
  • __pycache__
  • checkpoint / index 目录

当前运行中的任务

  • cap48 top2 seed=999
  • 启动命令:
cd /workspace/acr-engine
/usr/local/miniconda3/bin/python scripts/ab_smoke_segmentation.py \
  --dataset fma \
  --input-dir data/raw/fma_small_audio \
  --work-root /tmp/ab_smoke_seg_cap48_top2_seed999 \
  --subset-size 48 \
  --query-duration 8 \
  --train-epochs 1 \
  --batch-size 2 \
  --device cpu \
  --strategies hybrid high_energy \
  --max-test-queries 24 \
  --seed 999 \
  --output-json /tmp/ab_smoke_seg_cap48_top2_seed999/report.json

下一步建议

  1. 检查 seed=999 是否完成。
  2. 生成 3-seed aggregate。
  3. 回写 workflow / handoff / changelog。
  4. 提交推送。
  5. 再开启 cap64 或 bucket benchmark。

本次追加证据

  • 已确认 cap48 top2 seed=999 未卡在 build-index。
  • hybrid 已完成 reference index,随后进入 evaluate.py
  • 本次提交用于沉淀这份 fresh verification evidence,方便下个 session 不必重复排查。

  • 已补记 hybrid seed=999 的中间结果:top1=0.875 / topk=1.0 / num_queries=24

  • 已补齐 seed=999 最终结果,并完成 cap48 三 seed aggregate 归纳。

  • 已记录 cap64 benchmark 已启动,并确认进入 high_energy 训练阶段。

  • 已补充 cap64 新鲜证据:high_energy 索引完成(64 refs / 657 windows / 192-d)并进入 evaluate.py

  • 已补充 cap64 首个结果:high_energy = top1 0.625 / topk 1.0 / num_queries 32,并记录主流程切换到 hybrid

  • 已补充 cap64 阶段推进:hybrid 已进入训练阶段。

  • 已补充 cap64 阶段推进:hybrid 已完成训练并进入 build-index。

  • 已补充 cap64 新鲜证据:从运行会话确认 hybridEpoch 1/1 已完整跑完。

  • 已补充 cap64 新鲜证据:hybrid reference index 完成(64 refs / 657 windows / 192-d)并进入 evaluate.py

  • 已补齐 cap64 最终结果:hybrid=0.875high_energy=0.625,winner=hybrid

  • 已新增 acr-engine/scripts/ab_smoke_bucketed.py,并完成首个 bucket 的 smoke 验证。

  • 已补齐 bucket/style-aware smoke 的完整汇总:

    • prefix_000_a winner=hybrid
    • prefix_000_b winner=high_energy
    • aggregate 层面两者 mean_top1=1.0,但 hybrid mean_num_queries 更高。

最新待办(重启后直接接手)

  1. 把 toy prefix bucket 升级为更有业务意义的 bucket:
    • 高能段主导
    • 重复副歌明显
    • 节拍规整
    • 混淆样本 / hard negative
  2. 继续补 cap64 multi-seed,而不是只保留单 seed。
  3. 在 bucket 基线下继续优化 hybrid 波动,而不是过早锁定全局默认策略。
  4. 保持“文档更新 -> changelog -> commit -> push”的阶段节奏。