industrialization-roadmap.md 1.79 KB

Raw Blame History Permalink



ACR 工业级可商用演进路线


更新：2026-06-02


1. 目标定义

把当前原型升级为一个可商用的工业级 ACR 系统，满足：


可扩展曲库管理
可重复训练 / 评测 / 部署
多数据源接入（synthetic / FMA / Jamendo / CCMusic / ModelScope）
更强鲁棒性（噪声、失真、哼唱、混淆）
检索服务化
商用合规与授权边界可审计


2. 工业级分层


2.1 数据层


catalog.json / query manifests
外部 dataset adapters
license / usage tracking
数据版本与快照


2.2 训练层


baseline encoder
foundation-model encoder
retrieval-first losses
hard negative mining
数据平衡与生成增强


2.3 索引层


window-level embeddings
ANN index (Faiss/HNSW)
指纹索引与向量索引双路
增量入库


2.4 服务层


FastAPI / gRPC
batch ingest
recognize API
top-k candidate + rejection
metadata lookup


2.5 质量层


regression benchmark
hard-case benchmark
online shadow evaluation
数据/模型回滚机制


3. 数据集策略


第一梯队（优先）


FMA small / medium
MTG-Jamendo
CCMusic（需核验申请/授权方式）
ModelScope music datasets（按 license 白名单接入）


第二梯队


humming / QBSH 数据集
instrument / structure / singing datasets 作为辅助监督


4. 商用必做项


每个 dataset 记录：


来源 URL
license
是否允许商业使用
再分发限制
模型训练用途限制


每个模型版本记录训练数据组成
每次上线保留评测报告与可追溯哈希


5. 当前到工业化的缺口


缺 dataset adapter 层
缺 ANN 检索
缺 API 服务
缺 license registry
缺 foundation-model baseline
缺真正的 hard-negative mining
缺真实开源数据 benchmark