roadmap.md 1.85 KB

ACR 项目 Roadmap

更新:2026-06-02

Phase 0:原型跑通(当前阶段)

目标

完成一个端到端可运行的本地 demo。

范围

  • 合成数据生成
  • 数据增强
  • ECAPA embedding 模型
  • 传统指纹匹配器
  • HybridEngine
  • 最小训练入口
  • 最小识别入口
  • 文档补全

验收标准

  • 能生成数据
  • 能训练至少 1 epoch
  • 能建立 reference 索引
  • 能对测试片段输出 Top-K 候选

Phase 1:研究验证

目标

验证不同场景下识别效果是否可接受。

任务

  • 增加 top-1 / top-5 / MRR 评估脚本
  • 对 clean / noisy / stretched / pitch-shifted 分开评测
  • 增加 query-by-humming 专项评测集
  • 加入更稳健的 negative sampling
  • 补充 checkpoint / config versioning

Phase 2:工程化

目标

把原型升级为可复现实验项目。

任务

  • 增加 Makefilejustfile
  • 增加 pytest 基础测试
  • 增加日志与指标记录
  • 增加模型导出与加载规范
  • 增加 CLI 参数校验
  • 增加 Docker 运行方式

Phase 3:产品化 PoC

目标

提供可被业务方调用的服务接口。

任务

  • FastAPI 服务化
  • 上传音频并返回候选歌曲
  • 曲库增量入库命令
  • 元数据管理接口
  • 结果缓存与批量检索

Phase 4:大规模检索

目标

支持百万级以上曲库。

任务

  • 接入 Faiss / HNSW
  • embedding 分片与压缩
  • 双层召回 + 精排
  • 在线索引更新
  • 冷热分层存储

Phase 5:真实业务能力

目标

逼近真实听歌识曲产品。

任务

  • 真实版权音频数据接入
  • 哼唱专项模型/旋律塔
  • 多模态融合(旋律 + 声纹 + 指纹)
  • 在线 A/B 评估
  • 监控与质量回流