Commit 1bdca61b 1bdca61b27b73bfc95c8a25d4c6765b0a0485777 by cnb.bofCdSsphPA

Capture the finished bucket benchmark and handoff state for the next session

Constraint: Avoid staging datasets, smoke artifacts, /tmp outputs, and caches
Rejected: Delay handoff until larger semantic buckets exist | User asked for immediate delivery and resumability now
Confidence: high
Scope-risk: narrow
Directive: Treat toy prefix buckets as a methodology baseline, not a product conclusion
Tested: Verified /tmp/ab_smoke_bucketed_smoke/report.json and bucket_report.json outputs; reviewed targeted git diff
Not-tested: No new training or benchmark execution in this documentation-only checkpoint
1 parent c1a22cbb
......@@ -46,24 +46,23 @@
- 小样本真实 FMA smoke 下,多策略都可能接近满分,不能据此定默认策略。
- cap48 规模下结果对 seed 敏感。
- 当前已知两轮 cap48 聚合里:
- `high_energy` 稳定性更强
- `hybrid` 上限更高但波动更大
- 默认策略决策应基于 multi-seed aggregate,而不是单次跑分。
- cap64 当前单 seed 下 `hybrid` 更强。
- bucket toy smoke 已完成完整汇总,并出现不同 bucket 的不同 winner。
- 默认策略决策应基于 multi-seed + bucket/style-aware aggregate,而不是单次跑分。
## 5. 当前续跑优先级
1. 完成/确认 `cap48 top2 seed=999` 结果
2. 汇总 3-seed aggregate。
1. 将 toy prefix bucket 升级为语义 bucket
2. 补 cap64 multi-seed aggregate。
3. 更新:
- `docs/open-dataset-workflow.md`
- `docs/session-handoff.md`
- `docs/CHANGELOG.md`
4. 提交并推送。
5. 下一轮再推进:
- cap64 benchmark
- bucket/style-aware benchmark
- 工业级 hard negative / confusion 集设计
- 工业级 hard negative / confusion bucket
- `hybrid` 波动收敛
- 更接近商用的数据集组合评测
## 6. 高风险注意事项
......
## 2026-06-02 bucket/style-aware benchmark 汇总完成 checkpoint
完成项:
- 已确认 bucket/style-aware benchmark 的完整 `report.json` 生成完成。
- 已确认两个最小 bucket 都已完成并各自产出 `bucket_report.json`
- 已把“bucket 基线已可运行”推进为“bucket 基线已有完整汇总结果”。
最终结果(toy bucket smoke, seed=42):
- `prefix_000_a`:winner=`hybrid`
- `prefix_000_b`:winner=`high_energy`
- aggregate:
- `hybrid``bucket_runs=2, mean_top1=1.0, mean_topk=1.0, mean_num_queries=4.0`
- `high_energy``bucket_runs=2, mean_top1=1.0, mean_topk=1.0, mean_num_queries=3.5`
结论:
- 这个最小 bucket smoke 再次证明:当前不存在单一全局默认策略。
- bucket winner 已经出现分化,后续必须转向更有语义的 bucket(风格 / 结构 / hard-case),而不是继续只看单一 cap 分数。
- 现阶段可稳定对外表述为:
- `high_energy` 在 cap48 三 seed 聚合下更稳
- `hybrid` 在 cap64 单 seed 下更强
- bucket 基线已能解释“不同子集出现不同 winner”的现象,但当前 bucket 仍只是 toy prefix bucket
## 2026-06-02 bucket/style-aware benchmark 基线落地 checkpoint
完成项:
......
......@@ -82,3 +82,20 @@ cd /workspace/acr-engine
- 已补齐 cap64 最终结果:`hybrid=0.875``high_energy=0.625`,winner=`hybrid`
- 已新增 `acr-engine/scripts/ab_smoke_bucketed.py`,并完成首个 bucket 的 smoke 验证。
- 已补齐 bucket/style-aware smoke 的完整汇总:
- `prefix_000_a` winner=`hybrid`
- `prefix_000_b` winner=`high_energy`
- aggregate 层面两者 `mean_top1=1.0`,但 `hybrid` `mean_num_queries` 更高。
## 最新待办(重启后直接接手)
1. 把 toy prefix bucket 升级为更有业务意义的 bucket:
- 高能段主导
- 重复副歌明显
- 节拍规整
- 混淆样本 / hard negative
2. 继续补 cap64 multi-seed,而不是只保留单 seed。
3. 在 bucket 基线下继续优化 `hybrid` 波动,而不是过早锁定全局默认策略。
4. 保持“文档更新 -> changelog -> commit -> push”的阶段节奏。
......
......@@ -18,19 +18,18 @@
## 当前卡点
### 卡点 1:seed=999 benchmark 未完成
### 卡点 1:还没有单一全局默认策略
当前最新状态:
- `hybrid` reference index 已完成
- `hybrid` 已完成评测:`top1=0.875 / topk=1.0 / num_queries=24`
- `high_energy` 已完成评测:`top1=0.9167 / topk=1.0 / num_queries=24`
-`report.json` 已落盘,winner=`high_energy`
- cap48 三 seed aggregate 已可使用
- cap48 三 seed 聚合:`high_energy` 更稳
- cap64 单 seed:`hybrid` 更强
- bucket toy smoke:两个 bucket 分别出现不同 winner
- 因此当前不能把某一个策略写死为“全局最优”
待检查
- `/tmp/ab_smoke_seg_cap48_top2_seed999/report.json`
- `/tmp/ab_smoke_seg_cap48_top2_seed999/hybrid/fma_reports_smoke/eval.json`
- `/tmp/ab_smoke_seg_cap48_top2_seed999/high_energy/fma_reports_smoke/eval.json`
真正待做
- 增加更有语义的 bucket
- 补 cap64 multi-seed
- 继续降低 `hybrid` 波动
### 卡点 2:工作区噪音很大
......@@ -38,14 +37,14 @@
## 建议接手顺序
1. 检查进程是否仍在运行。
2. 如果完成,计算 3-seed aggregate。
3. 回写结论到:
1. 先从 [session-handoff.md](./session-handoff.md)[open-dataset-workflow.md](./open-dataset-workflow.md) 读取当前结论。
2. 优先把 toy prefix bucket 升级为语义 bucket。
3. 继续补 cap64 multi-seed。
4. 回写结论到:
- [open-dataset-workflow.md](./open-dataset-workflow.md)
- [session-handoff.md](./session-handoff.md)
- [CHANGELOG.md](./CHANGELOG.md)
4. 单独提交文档。
5. 再继续下一轮 benchmark。
5. 单独提交文档,再进入下一轮 benchmark。
## 推荐检查命令
......@@ -64,3 +63,14 @@ test -f /tmp/ab_smoke_seg_cap48_top2_seed999/report.json && cat /tmp/ab_smoke_se
- cap64 已完成,结果:`hybrid=0.875`, `high_energy=0.625`
- cap64 winner=`hybrid`
- 下一 session 应优先进入 bucket/style-aware benchmark
## 当前最关键的新事实
- bucket/style-aware benchmark 的完整汇总已经生成:`/tmp/ab_smoke_bucketed_smoke/report.json`
- `prefix_000_a` winner=`hybrid`
- `prefix_000_b` winner=`high_energy`
- aggregate:
- `hybrid``mean_top1=1.0, mean_num_queries=4.0`
- `high_energy``mean_top1=1.0, mean_num_queries=3.5`
- 这意味着 bucket baseline 已经可以作为后续“解释不同子集 winner 分化”的最小工程基础。
......
......@@ -109,3 +109,11 @@ flowchart LR
```bash
/usr/local/miniconda3/bin/python acr-engine/scripts/ab_smoke_bucketed.py --dataset fma --input-dir data/raw/fma_small_audio --bucket-config /tmp/cap64_bucket_test.json --work-root /tmp/ab_smoke_bucketed_smoke --default-subset-size 4 --query-duration 8 --train-epochs 1 --batch-size 2 --device cpu --strategies high_energy hybrid --max-test-queries 4 --seed 42 --output-json /tmp/ab_smoke_bucketed_smoke/report.json
```
当前已验证的最小结果:
- `prefix_000_a` winner=`hybrid`
- `prefix_000_b` winner=`high_energy`
- aggregate 层面两者 `mean_top1` 都是 `1.0`
因此 bucket benchmark 的当前意义不是“选出唯一赢家”,而是为后续语义 bucket / hard-case bucket 提供一个可复用执行框架。
......
......@@ -357,4 +357,13 @@ cd acr-engine
- `high_energy`: `3 / 1.0 / 1.0`
- winner: `hybrid`
当前第二个 bucket 仍在运行中,因此完整 bucket 汇总仍待补齐。
完整 bucket 汇总现已完成:
- `prefix_000_a` winner=`hybrid`
- `prefix_000_b` winner=`high_energy`
- aggregate:
- `hybrid``mean_top1=1.0, mean_topk=1.0, mean_num_queries=4.0`
- `high_energy``mean_top1=1.0, mean_topk=1.0, mean_num_queries=3.5`
当前结论:
- bucket baseline 已经能稳定复现“不同子集会选出不同 winner”。
- 下一步不是继续做 prefix toy bucket,而是升级到更有业务意义的 bucket。
......
......@@ -219,6 +219,20 @@
- `cap48 top2 seed=999` 已完成,三 seed aggregate 已可计算。
- 工作区存在大量数据与模型产物,当前只建议精确提交文档文件。
## 0.5 当前 bucket/style-aware 基线结论
完整 bucket 汇总已完成:
- 汇总文件:`/tmp/ab_smoke_bucketed_smoke/report.json`
- `prefix_000_a`:winner=`hybrid`
- `prefix_000_b`:winner=`high_energy`
- aggregate:
- `hybrid``mean_top1=1.0, mean_topk=1.0, mean_num_queries=4.0`
- `high_energy``mean_top1=1.0, mean_topk=1.0, mean_num_queries=3.5`
当前解释:
- toy bucket 已经足够证明“不同子集可出现不同 winner”。
- 但它仍不是业务语义 bucket,因此只能作为方法学基线,不能当成最终产品结论。
### 最新验证证据(2026-06-02 18:21 UTC 左右)
- `hybrid` 的 reference index 已完成:
- `refs_done=48 / refs_total=48`
......@@ -240,10 +254,11 @@
- `hybrid``mean_top1=0.8750, min=0.7917, max=0.9583, stdev=0.0680`
### 最优先待办
1. 跟进 bucket/style-aware benchmark 的完整 `report.json`
1. 把已完成的 toy bucket baseline 升级为语义 bucket(风格 / 结构 / hard-case)
2. 对比 cap48 与 cap64 的不一致现象,补充分规模结论。
3. 继续优化 `hybrid`,重点降低波动并提升 hard case 稳定性。
4. 在 bucket 基线下继续提交与推送。
3. 继续补 cap64 multi-seed,而不是只保留单 seed。
4. 继续优化 `hybrid`,重点降低波动并提升 hard case 稳定性。
5. 在 bucket 基线下继续提交与推送。
### 续跑时不要做的事
- 不要 `git add .`
......