Commit 9c3f182a 9c3f182afc37734dd5920b756f2822cf26e89b3a by cnb.bofCdSsphPA

checkpoint the first end-to-end dual-axis smoke result\n\nConstraint: The handof…

…f must record the fresh dual-axis metric outcome without staging temporary smoke artifacts\nRejected: Keep tuning weights before checkpointing | The first end-to-end dual-axis result is already a meaningful evidence point and restart-safe boundary\nConfidence: high\nScope-risk: narrow\nDirective: Continue with finer-grained dual-axis weight search, targeting humming_like recovery while preserving confused gains\nTested: Verified dual-axis smoke completed train, build-index, and evaluate with top1 0.5 / topk 0.9 and updated handoff/changelog docs\nNot-tested: Improved dual-axis weight combinations beyond this first balanced trial
1 parent 62798505
...@@ -74,22 +74,16 @@ ...@@ -74,22 +74,16 @@
74 74
75 ## 5.5 最新真实 FMA / chromaprint 运行态(2026-06-02) 75 ## 5.5 最新真实 FMA / chromaprint 运行态(2026-06-02)
76 76
77 ### 当前最新快照(15:47 UTC) 77 ### 当前最新快照(15:56 UTC)
78 78
79 - 远程同步基线:`7812b58`(更新前) 79 - 远程同步基线:`6279850`(更新前)
80 - 当前最重要的新证据:**dual-axis hard-case weighting 已在代码中参数化** 80 - 当前最重要的新证据:**dual-axis smoke 已完成首轮端到端评测,但当前组合未改善 humming_like**
81 - 当前可调入口: 81 - 结果:`top1=0.5`, `topk=0.9`, `humming_like=0.0`, `confused=0.25`
82 - `training.sample_type_weights` 82 - 这说明:dual-axis 入口是通的,但当前权重组合不是更优解。
83 - `training.pair_type_weights`
84 - fresh verification:
85 - `py_compile` 通过
86 - `train.py --dry-run` 通过
87 - 自定义权重实例化检查通过
88 - 这说明:下一轮已经可以直接做权重搜索实验,而不需要再先改数据集/训练框架结构。
89 - 下一次值得提交的事件: 83 - 下一次值得提交的事件:
90 1. 首轮 dual-axis 权重实验结果 84 1. 更细粒度的 dual-axis 权重搜索结果
91 2. `humming_like` 改善且 `confused` 不回退的组合 85 2. `humming_like` 回升且 `confused` 不掉的组合
92 3. dual-track 回归验证结果 86 3. dual-track 回归验证改善结果
93 87
94 88
95 ## 6. 高风险注意事项 89 ## 6. 高风险注意事项
......
1 ## 2026-06-02 15:56 UTC / dual-axis smoke completed first end-to-end eval
2
3 - 以新的 dual-axis 配置跑通了一轮端到端 smoke:`train -> build-index -> evaluate`
4 - fresh evidence(`2026-06-02 15:56:02 UTC`):
5 - 训练输出:`/tmp/dualaxis_smoke/models/best_model.pt`
6 - 索引输出:`/tmp/dualaxis_smoke/index/`
7 - 评测输出:`/tmp/dualaxis_smoke/eval.json`
8 - 结果:
9 - `num_queries=20`
10 - `top1=0.5`
11 - `topk=0.9`
12 - `clean top1=0.875`
13 - `humming_like top1=0.0`
14 - `confused top1=0.25`
15 - 对比当前基线:
16 -`v6``humming_like=0.25` 更差
17 -`v6``confused=0.25` 持平
18 - 结论:
19 - 双轴参数化已经能跑通完整链路
20 - 但这组权重并未改善 `humming_like`,后续应继续做更细粒度的双轴搜索,而不是直接接受当前组合
21
1 ## 2026-06-02 15:47 UTC / dual-axis hard-case weighting is now configurable in code 22 ## 2026-06-02 15:47 UTC / dual-axis hard-case weighting is now configurable in code
2 23
3 - 已把 `SongPairDataset` 中的 hard-case 采样权重与 pair loss 权重从硬编码改为配置驱动 24 - 已把 `SongPairDataset` 中的 hard-case 采样权重与 pair loss 权重从硬编码改为配置驱动
......
...@@ -297,3 +297,29 @@ ...@@ -297,3 +297,29 @@
297 297
298 - dual-axis hard-case weighting 已从“设计建议”升级为“代码中可直接调参实验”的状态。 298 - dual-axis hard-case weighting 已从“设计建议”升级为“代码中可直接调参实验”的状态。
299 - 下一轮可直接围绕 `sample_type_weights``pair_type_weights` 做最小实验。 299 - 下一轮可直接围绕 `sample_type_weights``pair_type_weights` 做最小实验。
300
301 ## 本次追加交付(2026-06-02 15:56 UTC)
302
303 ### 新增运行证据
304
305 | 类别 | 内容 |
306 |---|---|
307 | dual-axis smoke | `train -> build-index -> evaluate` 完整跑通 |
308 | 训练输出 | `/tmp/dualaxis_smoke/models/best_model.pt` |
309 | 索引输出 | `/tmp/dualaxis_smoke/index/` |
310 | 评测输出 | `/tmp/dualaxis_smoke/eval.json` |
311 | 结果 | `top1=0.5`, `topk=0.9` |
312 | hard-case | `humming_like=0.0`, `confused=0.25` |
313
314 ### 当前最重要的 fresh evidence
315
316 - `num_queries=20`
317 - `clean: n=8, top1=0.875, topk=1.0`
318 - `augmented: n=4, top1=0.5, topk=0.75`
319 - `humming_like: n=4, top1=0.0, topk=0.75`
320 - `confused: n=4, top1=0.25, topk=1.0`
321
322 ### 结论
323
324 - 目前这组 dual-axis 配置证明了“可配置实验链路”是通的。
325 - 但它没有带来 `humming_like` 改善,说明后续搜索需要更细:该拆分 `sample_type_weights``pair_type_weights` 的取值粒度。
......
1 ## 本次交付包追加更新(2026-06-02 15:56 UTC)
2
3 ### 交付结论
4
5 当前最新里程碑已经从“dual-axis 参数化完成”推进到 **dual-axis smoke 首次端到端评测完成**
6 - 远程基线当前为:`6279850`(更新前)
7 - 训练、建索引、评测全部跑通
8 - 但这组权重没有改善 `humming_like`,说明接下来要做更细粒度搜索
9
10 ### 当前最新事实
11
12 #### dual-axis smoke 结果
13 - 观测时间:`2026-06-02 15:56:02 UTC`
14 - 结果文件:`/tmp/dualaxis_smoke/eval.json`
15 - 评测结果:
16 - `num_queries=20`
17 - `top1=0.5`
18 - `topk=0.9`
19 - `clean=0.875`
20 - `augmented=0.5`
21 - `humming_like=0.0`
22 - `confused=0.25`
23
24 ### 当前判断
25
26 - dual-axis 入口是可用的,但当前试验组合不是更优解。
27 - 下一阶段应进入更细粒度的权重搜索,而不是直接扩大规模。
28
29 ---
30
1 ## 本次交付包追加更新(2026-06-02 15:47 UTC) 31 ## 本次交付包追加更新(2026-06-02 15:47 UTC)
2 32
3 ### 交付结论 33 ### 交付结论
......
...@@ -5,22 +5,24 @@ ...@@ -5,22 +5,24 @@
5 5
6 ## 一页结论 6 ## 一页结论
7 7
8 ### 最新交付快照(2026-06-02 15:47 UTC) 8 ### 最新交付快照(2026-06-02 15:56 UTC)
9 9
10 - 当前远程同步基线:`7812b58`(更新前) 10 - 当前远程同步基线:`6279850`(更新前)
11 - 当前最重要的新事实:**dual-axis hard-case weighting 已在代码中参数化** 11 - 当前最重要的新事实:**dual-axis smoke 已完成首轮端到端评测,但当前组合未改善 humming_like**
12 - 新增可调入口: 12 - 结果:
13 - `training.sample_type_weights` 13 - `num_queries=20`
14 - `training.pair_type_weights` 14 - `top1=0.5`
15 - fresh verification: 15 - `topk=0.9`
16 - `py_compile` 通过 16 - `humming_like=0.0`
17 - `train.py --dry-run` 通过 17 - `confused=0.25`
18 - 自定义权重实例化检查通过 18 - 结论:
19 - 结论:下一轮不需要先改代码结构,已经可以直接做最小调参实验。 19 - dual-axis 入口已可用
20 - 但当前权重组合不是更优解
21 - 下一轮应做更细粒度的权重搜索
20 - 新 session 第一优先级: 22 - 新 session 第一优先级:
21 1. `v6` 主基线上搜索 dual-axis 权重组合 23 1. 继续搜索 `sample_type_weights` / `pair_type_weights`
22 2. 目标优先提升 `humming_like top1`,同时不丢掉 `confused top1` 24 2. 目标是把 `humming_like` 拉回到至少 `v6` 水平,同时不丢 `confused`
23 3. real-path clean + synthetic hard-case 双轨复测 25 3. 再做 real-path clean + synthetic hard-case 双轨复测
24 26
25 ### 最新可观测性修复(2026-06-02 15:18 UTC) 27 ### 最新可观测性修复(2026-06-02 15:18 UTC)
26 28
......