Capture the finished bucket benchmark and handoff state for the next session

Constraint: Avoid staging datasets, smoke artifacts, /tmp outputs, and caches Rejected: Delay handoff until larger semantic buckets exist | User asked for immediate delivery and resumability now Confidence: high Scope-risk: narrow Directive: Treat toy prefix buckets as a methodology baseline, not a product conclusion Tested: Verified /tmp/ab_smoke_bucketed_smoke/report.json and bucket_report.json outputs; reviewed targeted git diff Not-tested: No new training or benchmark execution in this documentation-only checkpoint

Capture the finished bucket benchmark and handoff state for the next session
Constraint: Avoid staging datasets, smoke artifacts, /tmp outputs, and caches Rejected: Delay handoff until larger semantic buckets exist | User asked for immediate delivery and resumability now Confidence: high Scope-risk: narrow Directive: Treat toy prefix buckets as a methodology baseline, not a product conclusion Tested: Verified /tmp/ab_smoke_bucketed_smoke/report.json and bucket_report.json outputs; reviewed targeted git diff Not-tested: No new training or benchmark execution in this documentation-only checkpoint
cnb.bofCdSsphPA
Commit 1bdca61b ... 1bdca61b27b73bfc95c8a25d4c6765b0a0485777 authored 2026-06-02 18:50:23 +0800 by cnb.bofCdSsphPA
Showing 7 changed files with 108 additions and 28 deletions
AGENT.md
docs/CHANGELOG.md
docs/changelist-2026-06-02.md
docs/delivery-handoff-2026-06-02.md
docs/industrial-benchmark-spec.md
docs/open-dataset-workflow.md
docs/session-handoff.md
--- a/AGENT.md
View file @1bdca61
+++ b/AGENT.md
View file @1bdca61
@@ -46,24 +46,23 @@

 - 小样本真实 FMA smoke 下，多策略都可能接近满分，不能据此定默认策略。
 - cap48 规模下结果对 seed 敏感。
- 当前已知两轮 cap48 聚合里：
-  - `high_energy` 稳定性更强
-  - `hybrid` 上限更高但波动更大
- 默认策略决策应基于 multi-seed aggregate，而不是单次跑分。
+- cap64 当前单 seed 下 `hybrid` 更强。
+- bucket toy smoke 已完成完整汇总，并出现不同 bucket 的不同 winner。
+- 默认策略决策应基于 multi-seed + bucket/style-aware aggregate，而不是单次跑分。

 ## 5. 当前续跑优先级

-1. 完成/确认 `cap48 top2 seed=999` 结果。
-2. 汇总 3-seed aggregate。
+1. 将 toy prefix bucket 升级为语义 bucket。
+2. 补 cap64 multi-seed aggregate。
 3. 更新：
   - `docs/open-dataset-workflow.md`
   - `docs/session-handoff.md`
   - `docs/CHANGELOG.md`
 4. 提交并推送。
 5. 下一轮再推进：
-   - cap64 benchmark
-   - bucket/style-aware benchmark
-   - 工业级 hard negative / confusion 集设计
+   - 工业级 hard negative / confusion bucket
+   - `hybrid` 波动收敛
+   - 更接近商用的数据集组合评测

 ## 6. 高风险注意事项

--- a/docs/CHANGELOG.md
View file @1bdca61
+++ b/docs/CHANGELOG.md
View file @1bdca61
+## 2026-06-02 bucket/style-aware benchmark 汇总完成 checkpoint
+
+完成项：
+- 已确认 bucket/style-aware benchmark 的完整 `report.json` 生成完成。
+- 已确认两个最小 bucket 都已完成并各自产出 `bucket_report.json`。
+- 已把“bucket 基线已可运行”推进为“bucket 基线已有完整汇总结果”。
+
+最终结果（toy bucket smoke, seed=42）：
+- `prefix_000_a`：winner=`hybrid`
+- `prefix_000_b`：winner=`high_energy`
+- aggregate：
+  - `hybrid`：`bucket_runs=2, mean_top1=1.0, mean_topk=1.0, mean_num_queries=4.0`
+  - `high_energy`：`bucket_runs=2, mean_top1=1.0, mean_topk=1.0, mean_num_queries=3.5`
+
+结论：
+- 这个最小 bucket smoke 再次证明：当前不存在单一全局默认策略。
+- bucket winner 已经出现分化，后续必须转向更有语义的 bucket（风格 / 结构 / hard-case），而不是继续只看单一 cap 分数。
+- 现阶段可稳定对外表述为：
+  - `high_energy` 在 cap48 三 seed 聚合下更稳
+  - `hybrid` 在 cap64 单 seed 下更强
+  - bucket 基线已能解释“不同子集出现不同 winner”的现象，但当前 bucket 仍只是 toy prefix bucket
+
 ## 2026-06-02 bucket/style-aware benchmark 基线落地 checkpoint

 完成项：
--- a/docs/changelist-2026-06-02.md
View file @1bdca61
+++ b/docs/changelist-2026-06-02.md
View file @1bdca61
@@ -82,3 +82,20 @@ cd /workspace/acr-engine
 - 已补齐 cap64 最终结果：`hybrid=0.875`、`high_energy=0.625`，winner=`hybrid`。

 - 已新增 `acr-engine/scripts/ab_smoke_bucketed.py`，并完成首个 bucket 的 smoke 验证。
+
+
+- 已补齐 bucket/style-aware smoke 的完整汇总：
+  - `prefix_000_a` winner=`hybrid`
+  - `prefix_000_b` winner=`high_energy`
+  - aggregate 层面两者 `mean_top1=1.0`，但 `hybrid` `mean_num_queries` 更高。
+
+## 最新待办（重启后直接接手）
+
+1. 把 toy prefix bucket 升级为更有业务意义的 bucket：
+   - 高能段主导
+   - 重复副歌明显
+   - 节拍规整
+   - 混淆样本 / hard negative
+2. 继续补 cap64 multi-seed，而不是只保留单 seed。
+3. 在 bucket 基线下继续优化 `hybrid` 波动，而不是过早锁定全局默认策略。
+4. 保持“文档更新 -> changelog -> commit -> push”的阶段节奏。
--- a/docs/delivery-handoff-2026-06-02.md
View file @1bdca61
+++ b/docs/delivery-handoff-2026-06-02.md
View file @1bdca61
@@ -18,19 +18,18 @@

 ## 当前卡点

-### 卡点 1：seed=999 benchmark 未完成
+### 卡点 1：还没有单一全局默认策略

 当前最新状态：
- `hybrid` reference index 已完成
- `hybrid` 已完成评测：`top1=0.875 / topk=1.0 / num_queries=24`
- `high_energy` 已完成评测：`top1=0.9167 / topk=1.0 / num_queries=24`
- 总 `report.json` 已落盘，winner=`high_energy`
- cap48 三 seed aggregate 已可使用
+- cap48 三 seed 聚合：`high_energy` 更稳
+- cap64 单 seed：`hybrid` 更强
+- bucket toy smoke：两个 bucket 分别出现不同 winner
+- 因此当前不能把某一个策略写死为“全局最优”

-待检查：
- `/tmp/ab_smoke_seg_cap48_top2_seed999/report.json`
- `/tmp/ab_smoke_seg_cap48_top2_seed999/hybrid/fma_reports_smoke/eval.json`
- `/tmp/ab_smoke_seg_cap48_top2_seed999/high_energy/fma_reports_smoke/eval.json`
+真正待做：
+- 增加更有语义的 bucket
+- 补 cap64 multi-seed
+- 继续降低 `hybrid` 波动

 ### 卡点 2：工作区噪音很大

@@ -38,14 +37,14 @@

 ## 建议接手顺序

-1. 检查进程是否仍在运行。
-2. 如果完成，计算 3-seed aggregate。
-3. 回写结论到：
+1. 先从 [session-handoff.md](./session-handoff.md) 与 [open-dataset-workflow.md](./open-dataset-workflow.md) 读取当前结论。
+2. 优先把 toy prefix bucket 升级为语义 bucket。
+3. 继续补 cap64 multi-seed。
+4. 回写结论到：
   - [open-dataset-workflow.md](./open-dataset-workflow.md)
   - [session-handoff.md](./session-handoff.md)
   - [CHANGELOG.md](./CHANGELOG.md)
-4. 单独提交文档。
-5. 再继续下一轮 benchmark。
+5. 单独提交文档，再进入下一轮 benchmark。

 ## 推荐检查命令

@@ -64,3 +63,14 @@ test -f /tmp/ab_smoke_seg_cap48_top2_seed999/report.json && cat /tmp/ab_smoke_se
 - cap64 已完成，结果：`hybrid=0.875`, `high_energy=0.625`
 - cap64 winner=`hybrid`
 - 下一 session 应优先进入 bucket/style-aware benchmark
+
+
+## 当前最关键的新事实
+
+- bucket/style-aware benchmark 的完整汇总已经生成：`/tmp/ab_smoke_bucketed_smoke/report.json`
+- `prefix_000_a` winner=`hybrid`
+- `prefix_000_b` winner=`high_energy`
+- aggregate：
+  - `hybrid`：`mean_top1=1.0, mean_num_queries=4.0`
+  - `high_energy`：`mean_top1=1.0, mean_num_queries=3.5`
+- 这意味着 bucket baseline 已经可以作为后续“解释不同子集 winner 分化”的最小工程基础。
--- a/docs/industrial-benchmark-spec.md
View file @1bdca61
+++ b/docs/industrial-benchmark-spec.md
View file @1bdca61
@@ -109,3 +109,11 @@ flowchart LR
 ```bash
 /usr/local/miniconda3/bin/python acr-engine/scripts/ab_smoke_bucketed.py   --dataset fma   --input-dir data/raw/fma_small_audio   --bucket-config /tmp/cap64_bucket_test.json   --work-root /tmp/ab_smoke_bucketed_smoke   --default-subset-size 4   --query-duration 8   --train-epochs 1   --batch-size 2   --device cpu   --strategies high_energy hybrid   --max-test-queries 4   --seed 42   --output-json /tmp/ab_smoke_bucketed_smoke/report.json
 ```
+
+
+当前已验证的最小结果：
+- `prefix_000_a` winner=`hybrid`
+- `prefix_000_b` winner=`high_energy`
+- aggregate 层面两者 `mean_top1` 都是 `1.0`
+
+因此 bucket benchmark 的当前意义不是“选出唯一赢家”，而是为后续语义 bucket / hard-case bucket 提供一个可复用执行框架。
--- a/docs/open-dataset-workflow.md
View file @1bdca61
+++ b/docs/open-dataset-workflow.md
View file @1bdca61
@@ -357,4 +357,13 @@ cd acr-engine
 - `high_energy`: `3 / 1.0 / 1.0`
 - winner: `hybrid`

-当前第二个 bucket 仍在运行中，因此完整 bucket 汇总仍待补齐。
+完整 bucket 汇总现已完成：
+- `prefix_000_a` winner=`hybrid`
+- `prefix_000_b` winner=`high_energy`
+- aggregate：
+  - `hybrid`：`mean_top1=1.0, mean_topk=1.0, mean_num_queries=4.0`
+  - `high_energy`：`mean_top1=1.0, mean_topk=1.0, mean_num_queries=3.5`
+
+当前结论：
+- bucket baseline 已经能稳定复现“不同子集会选出不同 winner”。
+- 下一步不是继续做 prefix toy bucket，而是升级到更有业务意义的 bucket。
--- a/docs/session-handoff.md
View file @1bdca61
+++ b/docs/session-handoff.md
View file @1bdca61
@@ -219,6 +219,20 @@
 - `cap48 top2 seed=999` 已完成，三 seed aggregate 已可计算。
 - 工作区存在大量数据与模型产物，当前只建议精确提交文档文件。

+## 0.5 当前 bucket/style-aware 基线结论
+
+完整 bucket 汇总已完成：
+- 汇总文件：`/tmp/ab_smoke_bucketed_smoke/report.json`
+- `prefix_000_a`：winner=`hybrid`
+- `prefix_000_b`：winner=`high_energy`
+- aggregate：
+  - `hybrid`：`mean_top1=1.0, mean_topk=1.0, mean_num_queries=4.0`
+  - `high_energy`：`mean_top1=1.0, mean_topk=1.0, mean_num_queries=3.5`
+
+当前解释：
+- toy bucket 已经足够证明“不同子集可出现不同 winner”。
+- 但它仍不是业务语义 bucket，因此只能作为方法学基线，不能当成最终产品结论。
+
 ### 最新验证证据（2026-06-02 18:21 UTC 左右）
 - `hybrid` 的 reference index 已完成：
  - `refs_done=48 / refs_total=48`
@@ -240,10 +254,11 @@
  - `hybrid`：`mean_top1=0.8750, min=0.7917, max=0.9583, stdev=0.0680`

 ### 最优先待办
-1. 跟进 bucket/style-aware benchmark 的完整 `report.json`。
+1. 把已完成的 toy bucket baseline 升级为语义 bucket（风格 / 结构 / hard-case）。
 2. 对比 cap48 与 cap64 的不一致现象，补充分规模结论。
-3. 继续优化 `hybrid`，重点降低波动并提升 hard case 稳定性。
-4. 在 bucket 基线下继续提交与推送。
+3. 继续补 cap64 multi-seed，而不是只保留单 seed。
+4. 继续优化 `hybrid`，重点降低波动并提升 hard case 稳定性。
+5. 在 bucket 基线下继续提交与推送。

 ### 续跑时不要做的事
 - 不要 `git add .`