industrialization-roadmap.md
1.79 KB
ACR 工业级可商用演进路线
更新:2026-06-02
1. 目标定义
把当前原型升级为一个可商用的工业级 ACR 系统,满足:
- 可扩展曲库管理
- 可重复训练 / 评测 / 部署
- 多数据源接入(synthetic / FMA / Jamendo / CCMusic / ModelScope)
- 更强鲁棒性(噪声、失真、哼唱、混淆)
- 检索服务化
- 商用合规与授权边界可审计
2. 工业级分层
2.1 数据层
-
catalog.json/ query manifests - 外部 dataset adapters
- license / usage tracking
- 数据版本与快照
2.2 训练层
- baseline encoder
- foundation-model encoder
- retrieval-first losses
- hard negative mining
- 数据平衡与生成增强
2.3 索引层
- window-level embeddings
- ANN index (Faiss/HNSW)
- 指纹索引与向量索引双路
- 增量入库
2.4 服务层
- FastAPI / gRPC
- batch ingest
- recognize API
- top-k candidate + rejection
- metadata lookup
2.5 质量层
- regression benchmark
- hard-case benchmark
- online shadow evaluation
- 数据/模型回滚机制
3. 数据集策略
第一梯队(优先)
- FMA small / medium
- MTG-Jamendo
- CCMusic(需核验申请/授权方式)
- ModelScope music datasets(按 license 白名单接入)
第二梯队
- humming / QBSH 数据集
- instrument / structure / singing datasets 作为辅助监督
4. 商用必做项
- 每个 dataset 记录:
- 来源 URL
- license
- 是否允许商业使用
- 再分发限制
- 模型训练用途限制
- 每个模型版本记录训练数据组成
- 每次上线保留评测报告与可追溯哈希
5. 当前到工业化的缺口
- 缺 dataset adapter 层
- 缺 ANN 检索
- 缺 API 服务
- 缺 license registry
- 缺 foundation-model baseline
- 缺真正的 hard-negative mining
- 缺真实开源数据 benchmark