checkpoint the first end-to-end dual-axis smoke result\n\nConstraint: The handof…
…f must record the fresh dual-axis metric outcome without staging temporary smoke artifacts\nRejected: Keep tuning weights before checkpointing | The first end-to-end dual-axis result is already a meaningful evidence point and restart-safe boundary\nConfidence: high\nScope-risk: narrow\nDirective: Continue with finer-grained dual-axis weight search, targeting humming_like recovery while preserving confused gains\nTested: Verified dual-axis smoke completed train, build-index, and evaluate with top1 0.5 / topk 0.9 and updated handoff/changelog docs\nNot-tested: Improved dual-axis weight combinations beyond this first balanced trial
Showing
5 changed files
with
103 additions
and
30 deletions
| ... | @@ -74,22 +74,16 @@ | ... | @@ -74,22 +74,16 @@ |
| 74 | 74 | ||
| 75 | ## 5.5 最新真实 FMA / chromaprint 运行态(2026-06-02) | 75 | ## 5.5 最新真实 FMA / chromaprint 运行态(2026-06-02) |
| 76 | 76 | ||
| 77 | ### 当前最新快照(15:47 UTC) | 77 | ### 当前最新快照(15:56 UTC) |
| 78 | 78 | ||
| 79 | - 远程同步基线:`7812b58`(更新前) | 79 | - 远程同步基线:`6279850`(更新前) |
| 80 | - 当前最重要的新证据:**dual-axis hard-case weighting 已在代码中参数化**。 | 80 | - 当前最重要的新证据:**dual-axis smoke 已完成首轮端到端评测,但当前组合未改善 humming_like**。 |
| 81 | - 当前可调入口: | 81 | - 结果:`top1=0.5`, `topk=0.9`, `humming_like=0.0`, `confused=0.25` |
| 82 | - `training.sample_type_weights` | 82 | - 这说明:dual-axis 入口是通的,但当前权重组合不是更优解。 |
| 83 | - `training.pair_type_weights` | ||
| 84 | - fresh verification: | ||
| 85 | - `py_compile` 通过 | ||
| 86 | - `train.py --dry-run` 通过 | ||
| 87 | - 自定义权重实例化检查通过 | ||
| 88 | - 这说明:下一轮已经可以直接做权重搜索实验,而不需要再先改数据集/训练框架结构。 | ||
| 89 | - 下一次值得提交的事件: | 83 | - 下一次值得提交的事件: |
| 90 | 1. 首轮 dual-axis 权重实验结果 | 84 | 1. 更细粒度的 dual-axis 权重搜索结果 |
| 91 | 2. `humming_like` 改善且 `confused` 不回退的组合 | 85 | 2. `humming_like` 回升且 `confused` 不掉的组合 |
| 92 | 3. dual-track 回归验证结果 | 86 | 3. dual-track 回归验证改善结果 |
| 93 | 87 | ||
| 94 | 88 | ||
| 95 | ## 6. 高风险注意事项 | 89 | ## 6. 高风险注意事项 | ... | ... |
| 1 | ## 2026-06-02 15:56 UTC / dual-axis smoke completed first end-to-end eval | ||
| 2 | |||
| 3 | - 以新的 dual-axis 配置跑通了一轮端到端 smoke:`train -> build-index -> evaluate` | ||
| 4 | - fresh evidence(`2026-06-02 15:56:02 UTC`): | ||
| 5 | - 训练输出:`/tmp/dualaxis_smoke/models/best_model.pt` | ||
| 6 | - 索引输出:`/tmp/dualaxis_smoke/index/` | ||
| 7 | - 评测输出:`/tmp/dualaxis_smoke/eval.json` | ||
| 8 | - 结果: | ||
| 9 | - `num_queries=20` | ||
| 10 | - `top1=0.5` | ||
| 11 | - `topk=0.9` | ||
| 12 | - `clean top1=0.875` | ||
| 13 | - `humming_like top1=0.0` | ||
| 14 | - `confused top1=0.25` | ||
| 15 | - 对比当前基线: | ||
| 16 | - 比 `v6` 的 `humming_like=0.25` 更差 | ||
| 17 | - 与 `v6` 的 `confused=0.25` 持平 | ||
| 18 | - 结论: | ||
| 19 | - 双轴参数化已经能跑通完整链路 | ||
| 20 | - 但这组权重并未改善 `humming_like`,后续应继续做更细粒度的双轴搜索,而不是直接接受当前组合 | ||
| 21 | |||
| 1 | ## 2026-06-02 15:47 UTC / dual-axis hard-case weighting is now configurable in code | 22 | ## 2026-06-02 15:47 UTC / dual-axis hard-case weighting is now configurable in code |
| 2 | 23 | ||
| 3 | - 已把 `SongPairDataset` 中的 hard-case 采样权重与 pair loss 权重从硬编码改为配置驱动 | 24 | - 已把 `SongPairDataset` 中的 hard-case 采样权重与 pair loss 权重从硬编码改为配置驱动 | ... | ... |
| ... | @@ -297,3 +297,29 @@ | ... | @@ -297,3 +297,29 @@ |
| 297 | 297 | ||
| 298 | - dual-axis hard-case weighting 已从“设计建议”升级为“代码中可直接调参实验”的状态。 | 298 | - dual-axis hard-case weighting 已从“设计建议”升级为“代码中可直接调参实验”的状态。 |
| 299 | - 下一轮可直接围绕 `sample_type_weights` 与 `pair_type_weights` 做最小实验。 | 299 | - 下一轮可直接围绕 `sample_type_weights` 与 `pair_type_weights` 做最小实验。 |
| 300 | |||
| 301 | ## 本次追加交付(2026-06-02 15:56 UTC) | ||
| 302 | |||
| 303 | ### 新增运行证据 | ||
| 304 | |||
| 305 | | 类别 | 内容 | | ||
| 306 | |---|---| | ||
| 307 | | dual-axis smoke | `train -> build-index -> evaluate` 完整跑通 | | ||
| 308 | | 训练输出 | `/tmp/dualaxis_smoke/models/best_model.pt` | | ||
| 309 | | 索引输出 | `/tmp/dualaxis_smoke/index/` | | ||
| 310 | | 评测输出 | `/tmp/dualaxis_smoke/eval.json` | | ||
| 311 | | 结果 | `top1=0.5`, `topk=0.9` | | ||
| 312 | | hard-case | `humming_like=0.0`, `confused=0.25` | | ||
| 313 | |||
| 314 | ### 当前最重要的 fresh evidence | ||
| 315 | |||
| 316 | - `num_queries=20` | ||
| 317 | - `clean: n=8, top1=0.875, topk=1.0` | ||
| 318 | - `augmented: n=4, top1=0.5, topk=0.75` | ||
| 319 | - `humming_like: n=4, top1=0.0, topk=0.75` | ||
| 320 | - `confused: n=4, top1=0.25, topk=1.0` | ||
| 321 | |||
| 322 | ### 结论 | ||
| 323 | |||
| 324 | - 目前这组 dual-axis 配置证明了“可配置实验链路”是通的。 | ||
| 325 | - 但它没有带来 `humming_like` 改善,说明后续搜索需要更细:该拆分 `sample_type_weights` 与 `pair_type_weights` 的取值粒度。 | ... | ... |
| 1 | ## 本次交付包追加更新(2026-06-02 15:56 UTC) | ||
| 2 | |||
| 3 | ### 交付结论 | ||
| 4 | |||
| 5 | 当前最新里程碑已经从“dual-axis 参数化完成”推进到 **dual-axis smoke 首次端到端评测完成**: | ||
| 6 | - 远程基线当前为:`6279850`(更新前) | ||
| 7 | - 训练、建索引、评测全部跑通 | ||
| 8 | - 但这组权重没有改善 `humming_like`,说明接下来要做更细粒度搜索 | ||
| 9 | |||
| 10 | ### 当前最新事实 | ||
| 11 | |||
| 12 | #### dual-axis smoke 结果 | ||
| 13 | - 观测时间:`2026-06-02 15:56:02 UTC` | ||
| 14 | - 结果文件:`/tmp/dualaxis_smoke/eval.json` | ||
| 15 | - 评测结果: | ||
| 16 | - `num_queries=20` | ||
| 17 | - `top1=0.5` | ||
| 18 | - `topk=0.9` | ||
| 19 | - `clean=0.875` | ||
| 20 | - `augmented=0.5` | ||
| 21 | - `humming_like=0.0` | ||
| 22 | - `confused=0.25` | ||
| 23 | |||
| 24 | ### 当前判断 | ||
| 25 | |||
| 26 | - dual-axis 入口是可用的,但当前试验组合不是更优解。 | ||
| 27 | - 下一阶段应进入更细粒度的权重搜索,而不是直接扩大规模。 | ||
| 28 | |||
| 29 | --- | ||
| 30 | |||
| 1 | ## 本次交付包追加更新(2026-06-02 15:47 UTC) | 31 | ## 本次交付包追加更新(2026-06-02 15:47 UTC) |
| 2 | 32 | ||
| 3 | ### 交付结论 | 33 | ### 交付结论 | ... | ... |
| ... | @@ -5,22 +5,24 @@ | ... | @@ -5,22 +5,24 @@ |
| 5 | 5 | ||
| 6 | ## 一页结论 | 6 | ## 一页结论 |
| 7 | 7 | ||
| 8 | ### 最新交付快照(2026-06-02 15:47 UTC) | 8 | ### 最新交付快照(2026-06-02 15:56 UTC) |
| 9 | 9 | ||
| 10 | - 当前远程同步基线:`7812b58`(更新前) | 10 | - 当前远程同步基线:`6279850`(更新前) |
| 11 | - 当前最重要的新事实:**dual-axis hard-case weighting 已在代码中参数化** | 11 | - 当前最重要的新事实:**dual-axis smoke 已完成首轮端到端评测,但当前组合未改善 humming_like** |
| 12 | - 新增可调入口: | 12 | - 结果: |
| 13 | - `training.sample_type_weights` | 13 | - `num_queries=20` |
| 14 | - `training.pair_type_weights` | 14 | - `top1=0.5` |
| 15 | - fresh verification: | 15 | - `topk=0.9` |
| 16 | - `py_compile` 通过 | 16 | - `humming_like=0.0` |
| 17 | - `train.py --dry-run` 通过 | 17 | - `confused=0.25` |
| 18 | - 自定义权重实例化检查通过 | 18 | - 结论: |
| 19 | - 结论:下一轮不需要先改代码结构,已经可以直接做最小调参实验。 | 19 | - dual-axis 入口已可用 |
| 20 | - 但当前权重组合不是更优解 | ||
| 21 | - 下一轮应做更细粒度的权重搜索 | ||
| 20 | - 新 session 第一优先级: | 22 | - 新 session 第一优先级: |
| 21 | 1. 在 `v6` 主基线上搜索 dual-axis 权重组合 | 23 | 1. 继续搜索 `sample_type_weights` / `pair_type_weights` |
| 22 | 2. 目标优先提升 `humming_like top1`,同时不丢掉 `confused top1` | 24 | 2. 目标是把 `humming_like` 拉回到至少 `v6` 水平,同时不丢 `confused` |
| 23 | 3. 用 real-path clean + synthetic hard-case 双轨复测 | 25 | 3. 再做 real-path clean + synthetic hard-case 双轨复测 |
| 24 | 26 | ||
| 25 | ### 最新可观测性修复(2026-06-02 15:18 UTC) | 27 | ### 最新可观测性修复(2026-06-02 15:18 UTC) |
| 26 | 28 | ... | ... |
-
Please register or sign in to post a comment