sota-evolution-guide.md 6.19 KB

Raw Blame History Permalink



SOTA 演进方案说明 / SOTA Evolution Guide


更新：2026-06-04

目标：给出一个“先不上微调、先用开源 encoder”的 Phase-1 路线，并明确后续如何演进到更强的版权保护 / 版本归属系统。


一页结论

如果当前约束是：


先不微调底座
先要落数据规范
先解决 100w 音频 / 30w 歌曲的检索与归属基础问题


那么最合理的 Phase-1 路线不是“重训一套新模型”，而是：


保留 exact lane：Chromaprint / fingerprint

semantic lane 主底座：MERT-v1-95M

semantic lane challenger：MuQ

数据库先稳住：model_registry + feature_set_registry + audio_embedding + retrieval_index_registry


结果先按层聚合：window -> recording -> work -> canonical_song


1. 为什么当前要走 encoder-only Phase-1

因为你当前最紧迫的问题不是“模型精度极限”，而是：


曲库很大：100w 音频 / 30w 歌曲
数据关系复杂：同曲可能有多录音、多版本、多来源资产
如果数据规范不稳，未来任何模型升级都会反复返工


所以 Phase-1 目标应该是：

flowchart LR
    A[冻结数据规范] --> B[接入开源 encoder]
    B --> C[建立 semantic baseline]
    C --> D[做大规模索引与聚合验证]
    D --> E[再决定是否进入微调 / version lane]


2. 推荐的阶段划分


Phase-0：当前仓库阶段（已具备）


Chromaprint + ECAPA + melody rerank
可跑通训练/建索引/评测/服务闭环
适合作为 baseline，而不是最终生产底座


Phase-1：Encoder-only foundation baseline（当前推荐）


exact lane：Chromaprint
semantic lane：MERT-v1-95M
challenger：MuQ
不微调底座
只做 feature extraction + index + aggregation


Phase-2：Version / Cover lane


在 Phase-1 数据模型稳定后
引入 cover/version 专门分支
强化 work-level 归属


Phase-3：Industrial retrieval stack


ANN + reranker
online/offline artifact registry
监控、回放、审计、人工复核


3. Phase-1 的推荐模型组合


3.1 Exact lane


选型


Chromaprint / landmark hash


作用


原曲片段
平台转码
near-duplicate
局部片段强匹配


为什么保留

版权保护不能只靠 semantic embedding。exact lane 在很多真实投诉/取证场景里仍然是最快且证据最强的第一条路径。


3.2 Semantic lane 主模型：MERT-v1-95M


推荐原因


是 music SSL foundation model
已有公开论文与实现
比自训小型 ECAPA 更符合音乐任务底座定位
Phase-1 直接做 frozen encoder 成本与风险都更低


Phase-1 中的角色


作为主 encoder 产出 window embedding
负责 noisy/BGM/一般跨域检索 baseline
后面可继续作为 teacher 或兼容旧索引版本


推荐 feature set


mert_v1_95m__window_5s_hop_2.5s__meanpool__l2
mert_v1_95m__window_10s_hop_5s__meanpool__l2


为什么先做两套


5s/2.5s：更利于局部定位

10s/5s：更利于整体语义稳定


3.3 Semantic lane Challenger：MuQ


推荐原因


更新、更接近下一代 music foundation model 路线
值得作为 challenger baseline
即使不开微调，也有希望在部分 MIR 任务上优于较早底座


当前建议


Phase-1 先作为对照组，不立即替代 MERT
重点验证：向量分布稳定性、窗口级检索表现、内存/推理成本


3.4 为什么 Phase-1 不直接以 CoverHunter 为主线

因为 CoverHunter 的优势在：


cover song identification
alignment / refined attention / coarse-to-fine 训练


而你当前约束是：


先不用微调
先用开源 encoder
先把数据和检索规范落稳


所以它更适合作为 Phase-2 的 version/cover lane 方向，而不是 Phase-1 的主 baseline。


4. 角色关注点


4.1 模型底座角色

重点关注：


哪些 encoder 已注册到 model_registry

每个 encoder 的 input SR、window、pooling、embedding dim
哪些 feature set 是线上候选，哪些只是实验候选


4.2 检索角色

重点关注：


指纹 lane 与 semantic lane 如何组合

recording/work/song 聚合规则
top-k 候选如何稳定输出


4.3 数据角色

重点关注：


资产去重
reference 资产选择
window manifest
是否支持全量重建特征与索引


4.4 运维 / 平台角色

重点关注：


encoder 版本切换是否可灰度
索引重建是否可并行
热/冷索引、历史索引是否可回滚


5. Phase-1 的实施顺序

flowchart TD
    A[冻结 PostgreSQL 数据规范] --> B[导入 canonical/work/recording/asset/window]
    B --> C[注册 model_registry / feature_set_registry]
    C --> D[抽取 MERT 特征]
    C --> E[抽取 MuQ 特征]
    D --> F[构建 semantic index]
    E --> F
    F --> G[与 fingerprint lane 做聚合]
    G --> H[输出 canonical_song_id / work_id / recording_id]


6. 每阶段解决的问题


阶段
解决的问题
暂不解决的问题


Phase-1
数据规范、开源底座 baseline、索引可重建、song/work/recording 聚合
底座微调、cover 专项训练、melody tower


Phase-2
version/cover 归属、work-level recall
更复杂跨模态 humming


Phase-3
工业化服务、回放、监控、人工审核闭环
极致 research SOTA


7. 与当前仓库的关系


当前保留


ECAPA baseline：保留做对照，不作为长期主底座

Chromaprint：保留，且在版权保护场景里非常重要

melody rerank：保留为辅助 lane


当前新增


model_registry
feature_set_registry
foundation encoder 特征抽取与注册
更清晰的 canonical_song / work / recording 数据结构


8. 当前推荐结论

如果今天就要给 Phase-1 定方案，我建议：


先不改训练主线，不删 ECAPA
新增 MERT-v1-95M semantic lane
新增 MuQ challenger lane
只把 is_reference=true 的主参考窗口先做成热索引
先把 PostgreSQL 设计当成主交付


换句话说：


Phase-1 的核心不是“哪一个模型最终赢”，而是“数据规范 + 模型注册 + 特征注册 + 索引注册”这套长期结构先稳定下来。