CHANGELOG.md
2 KB
Changelog
2026-06-02
Stage: 文档补全 + ACR 最小可运行链路
完成项:
- 补充项目职责图:
docs/project-responsibility-map.md - 补充系统架构图:
docs/acr-architecture.md - 补充阶段路线图:
docs/roadmap.md - 补充运行手册:
docs/runbook.md - 补充引擎说明:
acr-engine/README.md - 新增依赖清单:
acr-engine/requirements.txt - 新增 demo CLI:
acr-engine/run_demo.py - 修复数据集读取路径问题:
acr-engine/src/data/dataset.py - 修复首次训练不落 best checkpoint 的问题:
acr-engine/train.py
验证结果:
- 已生成 synthetic dataset
- 已通过
train.py --dry-run - 已完成 1 epoch CPU 训练并生成
best_model.pt - 已完成指纹索引与 embedding 索引构建
- 已完成识别命令并输出 JSON 候选结果
2026-06-02
Stage: 准确率优化 v2(128 Mel / band-split / retrieval 评测 / dataset 规范 / SOTA 调研)
完成项:
- 补充 dataset / 输入输出规范:
docs/dataset-spec.md - 补充开源数据集接入计划:
docs/open-dataset-plan.md - 补充 2026 SOTA 研究说明:
docs/sota-research-2026.md - 输入特征从低维说话人风格配置改为
128 Mel - 新增频带分割模块
BandSplitBlock - 引入 pro-WGAN 风格工程近似平衡策略(针对困难样本的更强增广)
- 合成数据新增
confused/humming_like样本类型 - 引入
catalog.json作为可搜索 reference 清单 - 索引从整曲单向量改为 window-level embedding index
- 新增
evaluate.py做 retrieval 评测 - 训练逻辑改为更 retrieval-oriented 的 song-pair 训练输入
验证结果:
- synthetic_v2 端到端重新跑通
- build-index 成功
- evaluate 成功
- test split 指标:top1=0.65, top5=0.95
- 分类型指标:
- clean top1=1.00
- augmented top1=0.75
- humming_like top1=0.25
- confused top1=0.25
结论:
- 结构性错误(catalog/index/fusion/评测缺失)已明显改善
- 当前主要剩余短板是 humming_like / confused 的鲁棒识别