delivery-handoff-2026-06-02.md 2.29 KB

Delivery Handoff / 2026-06-02

一页接管

当前可以直接交付的不是“最终算法结论”,而是“可持续续跑的工程状态”:

  • 文档主结构已成型
  • 数据规范/输入输出/pgvector 说明已补齐
  • 切片策略与公平评测能力已落地
  • 最新大一点的 benchmark 还在跑,结果未最终封板

已完成

  • 多种音乐感知切片策略已接入训练与 query 生成。
  • 真实 FMA mini-subset smoke A/B 已多轮验证。
  • high_energyhybrid 已成为当前最强候选。
  • cap48 结果已明确存在 seed sensitivity。
  • 文档已经浓缩为可导航结构。

当前卡点

卡点 1:seed=999 benchmark 未完成

当前最新状态:

  • hybrid reference index 已完成
  • hybrid 已完成评测:top1=0.875 / topk=1.0 / num_queries=24
  • high_energy 已完成评测:top1=0.9167 / topk=1.0 / num_queries=24
  • report.json 已落盘,winner=high_energy
  • cap48 三 seed aggregate 已可使用

待检查:

  • /tmp/ab_smoke_seg_cap48_top2_seed999/report.json
  • /tmp/ab_smoke_seg_cap48_top2_seed999/hybrid/fma_reports_smoke/eval.json
  • /tmp/ab_smoke_seg_cap48_top2_seed999/high_energy/fma_reports_smoke/eval.json

卡点 2:工作区噪音很大

当前有大量未跟踪或变更的数据/产物文件,提交时必须精准暂存文档文件。

建议接手顺序

  1. 检查进程是否仍在运行。
  2. 如果完成,计算 3-seed aggregate。
  3. 回写结论到:
  4. 单独提交文档。
  5. 再继续下一轮 benchmark。

推荐检查命令

pgrep -af 'ab_smoke_seg_cap48_top2_seed999|external_adapters.py smoke-local fma /tmp/ab_smoke_seg_cap48_top2_seed999|evaluate.py --data /tmp/ab_smoke_seg_cap48_top2_seed999|run_demo.py build-index --data /tmp/ab_smoke_seg_cap48_top2_seed999|train.py --data /tmp/ab_smoke_seg_cap48_top2_seed999'
test -f /tmp/ab_smoke_seg_cap48_top2_seed999/report.json && cat /tmp/ab_smoke_seg_cap48_top2_seed999/report.json || echo NO_REPORT

下一轮已启动

  • 新 benchmark:/tmp/ab_smoke_seg_cap64_top2
  • 当前阶段:high_energy build-index 中
  • 下一 session 应优先检查 report.json 是否生成