sota-research-2026.md
4.73 KB
ACR / Music Retrieval SOTA Research (截至 2026-06-02)
结论摘要
到 2025-2026,这个方向相比传统“从零训练一个小型 ECAPA embedding”已经明显前进了。
当前更强的方向主要有三类:
- Neural Audio Fingerprinting 的鲁棒训练增强
- Music Foundation Model 作为 backbone / teacher
- Band-split / band-aware 结构用于音乐频谱建模
1. Neural AFP 的更强实践
Enhancing Neural Audio Fingerprint Robustness to Audio Degradation for Music Identification (2025)
关键信息:
- 指出很多 neural AFP 工作对真实退化模拟不够真实
- 系统比较 metric learning 方法
- 发现自监督 triplet loss 变体在该任务中更优
- 强调多个 positive samples 对不同 loss 的影响不同
对本项目的启发:
- 不应只依赖当前简单 SupCon + CE
- 应增加更真实的退化增强
- 应明确做 retrieval 指标选择,而非只看分类头
2. Music Foundation Model Backbones
Robust Neural Audio Fingerprinting using Music Foundation Models (2025)
关键信息:
- 使用预训练 music foundation model(例如 MuQ、MERT)作为 neural fingerprinting backbone
- 在 distorted / compressed / manipulated 音频条件下优于从零训练模型
- 还能更好做 segment-level localization
MERT (2023)
关键信息:
- 大规模自监督 music understanding 模型
- 在多个 music understanding 任务上达到强表现
MuQ (2025)
关键信息:
- 面向音乐的自监督表征学习模型
- 使用 Mel-RVQ 目标
- 在多种下游任务上优于更早工作
对本项目的启发:
- 2026 继续只用小模型从零训,不太可能是最佳路线
- 更合理路线:
- 当前仓库保留轻量自训 baseline
- 下一阶段增加 MERT / MuQ frozen encoder 或 adapter fine-tune 版本
3. Band-split / band-aware 结构
Music Source Separation with Band-split RNN (2022)
关键信息:
- 显式把频谱切成多个频带再建模
- 对音乐任务优于直接照搬通用音频结构
虽然该文主要做 source separation,不是 ACR,但它对“音乐频带先验”很有启发。
对本项目的启发:
- 输入层加入 band-split 是合理工程方向
- 未来可继续发展成:
- band-aware attention
- multi-band retrieval heads
- harmonic/rhythm 双塔结构
4. 数据平衡与生成增强
BAGAN: Data Augmentation with Balancing GAN (2018)
严格说你提到的 pro-WGAN 我这次没有找到一个明确、权威、在该任务里广泛标准化的同名主文献;当前更接近、且有明确权威来源的是 BAGAN / balancing GAN 这一类面向不平衡数据增强的方法。
因此本次实现里我采用的是:
- pro-WGAN 风格的工程近似平衡策略
- 不是声称已经复现某篇明确的
pro-WGANSOTA 论文
如果你之后指定了准确论文或仓库,我可以按那一版精确对齐实现。
5. 2026 年是否已经有更好的方案?
有,结论是:有明显更好的路线。
最值得参考的是:
- 用 music foundation model 做 backbone
- 用 更真实退化模拟 + retrieval-first metric learning
- 用 segment-level / window-level indexing,而不是整曲平均 embedding
- 对哼唱任务增加 melody/pitch contour 专门支路
6. 对本项目的建议排序
当前阶段(已开始)
- 128 Mel 替换低维说话人风格输入
- band-split 输入层
- 更强混淆增强
- retrieval-first 评测
下一阶段
- MERT / MuQ frozen feature baseline
- triplet / multi-positive metric learning 对比 SupCon
- window-level index aggregation
- FMA / Jamendo 小规模真实数据验证
更后阶段
- humming 专门 melody tower
- foundation model + lightweight fingerprint head
- ANN + reranker 两阶段工业化检索
Sources
- Araz et al., 2025, Enhancing Neural Audio Fingerprint Robustness to Audio Degradation for Music Identification: https://arxiv.org/abs/2506.22661
- Singh et al., 2025, Robust Neural Audio Fingerprinting using Music Foundation Models: https://arxiv.org/abs/2511.05399
- Li et al., 2023, MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training: https://arxiv.org/abs/2306.00107
- Zhu et al., 2025, MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization: https://arxiv.org/abs/2501.01108
- Luo & Yu, 2022, Music Source Separation with Band-split RNN: https://arxiv.org/abs/2209.15174
- Mariani et al., 2018, BAGAN: Data Augmentation with Balancing GAN: https://arxiv.org/abs/1803.09655