sota-research-2026.md 6.45 KB

Raw Blame History Permalink



ACR / Music Retrieval SOTA Research (截至 2026-06-02)


结论摘要

到 2025-2026，这个方向相比传统“从零训练一个小型 ECAPA embedding”已经明显前进了。

当前更强的方向主要有三类：


Neural Audio Fingerprinting 的鲁棒训练增强
Music Foundation Model 作为 backbone / teacher
Band-split / band-aware 结构用于音乐频谱建模


对本项目当前阶段的直接结论：


仅靠样本重复或统一加权不是 SOTA 思路
更接近 2026 工业最佳实践的是：retrieval-first + hard negative mining + foundation model backbone + 任务专门支路

我们当前仓库已经走到其中两步：128 Mel + band-split、retrieval-first eval

下一步最该补的是：confusion-aware negatives 与 humming melody tower


1. 方向图

flowchart LR
    A[2026 ACR / MIR SOTA] --> B[Neural AFP Robustness]
    A --> C[Music Foundation Models]
    A --> D[Band-aware Architectures]
    A --> E[Data Balancing / Hard Negatives]


1. Neural AFP 的更强实践


Enhancing Neural Audio Fingerprint Robustness to Audio Degradation for Music Identification (2025)


arXiv: https://arxiv.org/abs/2506.22661


关键信息：


指出很多 neural AFP 工作对真实退化模拟不够真实
系统比较 metric learning 方法
发现自监督 triplet loss 变体在该任务中更优
强调多个 positive samples 对不同 loss 的影响不同


对本项目的启发：


不应只依赖当前简单 SupCon + CE
应增加更真实的退化增强
应明确做 retrieval 指标选择，而非只看分类头


2. Music Foundation Model Backbones


Robust Neural Audio Fingerprinting using Music Foundation Models (2025)


arXiv: https://arxiv.org/abs/2511.05399


关键信息：


使用预训练 music foundation model（例如 MuQ、MERT）作为 neural fingerprinting backbone
在 distorted / compressed / manipulated 音频条件下优于从零训练模型
还能更好做 segment-level localization


MERT (2023)


arXiv: https://arxiv.org/abs/2306.00107


关键信息：


大规模自监督 music understanding 模型
在多个 music understanding 任务上达到强表现


MuQ (2025)


arXiv: https://arxiv.org/abs/2501.01108


关键信息：


面向音乐的自监督表征学习模型
使用 Mel-RVQ 目标
在多种下游任务上优于更早工作


对本项目的启发：


2026 继续只用小模型从零训，不太可能是最佳路线
更合理路线：


当前仓库保留轻量自训 baseline
下一阶段增加 MERT / MuQ frozen encoder 或 adapter fine-tune 版本


3. Band-split / band-aware 结构


Music Source Separation with Band-split RNN (2022)


arXiv: https://arxiv.org/abs/2209.15174


关键信息：


显式把频谱切成多个频带再建模
对音乐任务优于直接照搬通用音频结构


虽然该文主要做 source separation，不是 ACR，但它对“音乐频带先验”很有启发。

对本项目的启发：


输入层加入 band-split 是合理工程方向
未来可继续发展成：


band-aware attention
multi-band retrieval heads
harmonic/rhythm 双塔结构


4. 数据平衡与生成增强


BAGAN: Data Augmentation with Balancing GAN (2018)


arXiv: https://arxiv.org/abs/1803.09655


严格说你提到的 pro-WGAN 我这次没有找到一个明确、权威、在该任务里广泛标准化的同名主文献；当前更接近、且有明确权威来源的是 BAGAN / balancing GAN 这一类面向不平衡数据增强的方法。

因此本次实现里我采用的是：


pro-WGAN 风格的工程近似平衡策略
不是声称已经复现某篇明确的 pro-WGAN SOTA 论文


如果你之后指定了准确论文或仓库，我可以按那一版精确对齐实现。


对当前实验结果的解释


策略
overall top1
humming_like top1
confused top1
结论


naive oversampling (smoke-v4)
0.40
0.00
0.00
明显退化


type-aware weighting (smoke-v5)
0.60
0.50
0.00
改善 humming，但 confused 无突破


sample-level confused-priority weighting (smoke-v6)
0.65
0.25
0.25
confused 突破，但需要重新平衡 humming


这说明：


2026 年这个方向里，“难例重要”是对的

但 单维度加权还不够，需要把不同 hard case 分开建模
对音乐 ACR 来说，confused 与 humming_like 不是同一种难度来源：


confused 更偏 timbre / arrangement / retrieval ambiguity

humming_like 更偏 melody / pitch contour mismatch


当前仓库里的 residual confused failure 进一步显示：


intro 片段是更高风险区域
下一步应引入 segment_type-aware hard negatives

这比继续全局调 sample ratio 更接近工业有效路径


5. 2026 年是否已经有更好的方案？

有，结论是：有明显更好的路线。

最值得参考的是：


用 music foundation model 做 backbone
用 更真实退化模拟 + retrieval-first metric learning

用 segment-level / window-level indexing，而不是整曲平均 embedding
对哼唱任务增加 melody/pitch contour 专门支路


6. 对本项目的建议排序


当前阶段（已开始）


128 Mel 替换低维说话人风格输入
band-split 输入层
更强混淆增强
retrieval-first 评测


下一阶段


MERT / MuQ frozen feature baseline
triplet / multi-positive metric learning 对比 SupCon
window-level index aggregation
FMA / Jamendo 小规模真实数据验证
confusion-aware negative mining
humming 专门旋律支路 / pitch contour rerank


更后阶段


humming 专门 melody tower
foundation model + lightweight fingerprint head
ANN + reranker 两阶段工业化检索


Sources


Araz et al., 2025, Enhancing Neural Audio Fingerprint Robustness to Audio Degradation for Music Identification: https://arxiv.org/abs/2506.22661

Singh et al., 2025, Robust Neural Audio Fingerprinting using Music Foundation Models: https://arxiv.org/abs/2511.05399

Li et al., 2023, MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training: https://arxiv.org/abs/2306.00107

Zhu et al., 2025, MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization: https://arxiv.org/abs/2501.01108

Luo & Yu, 2022, Music Source Separation with Band-split RNN: https://arxiv.org/abs/2209.15174

Mariani et al., 2018, BAGAN: Data Augmentation with Balancing GAN: https://arxiv.org/abs/1803.09655