roadmap.md
1.85 KB
ACR 项目 Roadmap
更新:2026-06-02
Phase 0:原型跑通(当前阶段)
目标
完成一个端到端可运行的本地 demo。
范围
- 合成数据生成
- 数据增强
- ECAPA embedding 模型
- 传统指纹匹配器
- HybridEngine
- 最小训练入口
- 最小识别入口
- 文档补全
验收标准
- 能生成数据
- 能训练至少 1 epoch
- 能建立 reference 索引
- 能对测试片段输出 Top-K 候选
Phase 1:研究验证
目标
验证不同场景下识别效果是否可接受。
任务
- 增加 top-1 / top-5 / MRR 评估脚本
- 对 clean / noisy / stretched / pitch-shifted 分开评测
- 增加 query-by-humming 专项评测集
- 加入更稳健的 negative sampling
- 补充 checkpoint / config versioning
Phase 2:工程化
目标
把原型升级为可复现实验项目。
任务
-
增加
Makefile或justfile -
增加
pytest基础测试 - 增加日志与指标记录
- 增加模型导出与加载规范
- 增加 CLI 参数校验
- 增加 Docker 运行方式
Phase 3:产品化 PoC
目标
提供可被业务方调用的服务接口。
任务
- FastAPI 服务化
- 上传音频并返回候选歌曲
- 曲库增量入库命令
- 元数据管理接口
- 结果缓存与批量检索
Phase 4:大规模检索
目标
支持百万级以上曲库。
任务
- 接入 Faiss / HNSW
- embedding 分片与压缩
- 双层召回 + 精排
- 在线索引更新
- 冷热分层存储
Phase 5:真实业务能力
目标
逼近真实听歌识曲产品。
任务
- 真实版权音频数据接入
- 哼唱专项模型/旋律塔
- 多模态融合(旋律 + 声纹 + 指纹)
- 在线 A/B 评估
- 监控与质量回流