project-responsibility-map.md 3.3 KB

ACR 项目职责图

更新:2026-06-02

一页结论

  • 本项目已经从“算法原型”升级为“面向工业化的 ACR 平台雏形
  • 当前系统分为 数据层、训练层、检索层、服务层、评测层、合规层
  • 近期重点不是再堆功能,而是:
    1. 提升 humming_like / confused 准确率
    2. 接入真实白名单数据集
    3. 完善服务、索引、benchmark 与合规闭环

1. 分层图

flowchart TD
    A[L1 业务目标层] --> B[L2 系统能力层]
    B --> C[L3 核心模块层]
    C --> D[L4 工程服务层]
    C --> E[L5 数据与合规层]

    A1[听歌识曲 / 哼唱识别 / 商业可用]:::goal --> A

    B1[高准确率识别] --> B
    B2[可扩展曲库] --> B
    B3[可服务化调用] --> B
    B4[可审计数据来源] --> B

    C1[训练与表征学习] --> C
    C2[指纹检索] --> C
    C3[向量检索] --> C
    C4[混合重排] --> C
    C5[评测基准] --> C

    D1[FastAPI] --> D
    D2[Index Build] --> D
    D3[Manifest Tools] --> D

    E1[External Adapters] --> E
    E2[Dataset Registry] --> E
    E3[License Review] --> E

    classDef goal fill:#e8f5e9,stroke:#2e7d32;

2. 职责总表

层级 模块 负责内容 当前状态
数据层 src/data/* synthetic 数据、external adapters、manifest 已有基础
训练层 train.py / src/models/* 128 Mel、band-split、embedding 学习 可运行
检索层 src/engines/* chromaprint、embedding、melody-aware hybrid 可运行
服务层 src/service/* health / recognize / index build 骨架已通
评测层 evaluate.py top1/top5/hard-case benchmark 已建立
合规层 registry/docs dataset source / licensing / whitelist 雏形已建

3. 分工图

flowchart LR
    D[数据团队] --> D1[数据接入]
    D --> D2[manifest 标准化]
    D --> D3[license 审查]

    M[模型团队] --> M1[特征与模型]
    M --> M2[鲁棒训练]
    M --> M3[hard-case 优化]

    R[检索团队] --> R1[指纹索引]
    R --> R2[向量索引]
    R --> R3[融合与拒识]

    S[平台团队] --> S1[API 服务]
    S --> S2[部署]
    S --> S3[监控]

    Q[质量团队] --> Q1[benchmark]
    Q --> Q2[回归验证]
    Q --> Q3[上线门禁]

4. 文字说明

4.1 数据层

负责把不同来源的数据集(synthetic、FMA、Jamendo、CCMusic、ModelScope 白名单集)转成统一的 catalog/query manifest

4.2 训练层

负责音乐任务特征建模,目前已经从低维说话人风格输入升级到:

  • 128 Mel
  • band-split
  • retrieval-first 训练方向

4.3 检索层

负责三路信息融合:

  • 指纹匹配
  • embedding 匹配
  • melody-aware 重排

4.4 服务层

负责把离线原型包装成可调用系统,目前已有 FastAPI 骨架。

4.5 评测层

负责质量门禁,不能只看总体 top1,要看 hard-case、拒识、误接收。

4.6 合规层

负责商用前提,任何外部数据集都必须进入 registry 和白名单流程。


5. 细节附录

关键文档:

  • docs/dataset-spec.md
  • docs/industrial-benchmark-spec.md
  • docs/dataset-sources-and-licensing.md
  • docs/industrialization-roadmap.md

Sources

  • See docs/references-and-sources.md for the current source map.