business-export-cookbook.md
3.35 KB
Business Export Cookbook / 业务库表导出 Cookbook
更新:2026-06-02
关联文档:业务 Manifest 与 Type-Role 规范 · 业务素材类型与 Bucket 指南
一页结论
下个 session 如果要从你们的业务库表真正导出训练/评测清单,建议直接按这个顺序:
- 先从 SQL 导出音频资产基础字段
- 用
type-role mapping补role/bucket - 落成 CSV 或 JSONL 中间文件
- 再转成项目 manifest
仓库里已经补好以下参考物:
- ../acr-engine/configs/manifests/business_asset_manifest_template.json
- ../acr-engine/configs/manifests/business_type_role_mapping.json
- ../acr-engine/configs/manifests/examples/business_asset_export_example.csv
- ../acr-engine/configs/manifests/examples/business_asset_export_example.jsonl
1. 推荐 SQL 导出字段
SELECT
s.id AS song_id,
a.id AS asset_id,
a.type AS type,
a.file_path AS audio_path,
s.title AS title,
s.artist_name AS artist,
s.album_id AS album_id,
a.duration_sec AS duration_sec,
a.sample_rate AS sample_rate,
a.bitrate AS bitrate,
a.license_code AS license,
a.created_at AS created_at
FROM music_asset a
JOIN song s ON s.id = a.song_id
WHERE a.type IN (1,7,8,9,10,11,16,18,2,12);
说明:
- 这不是强制 SQL,只是字段映射样例。
- 关键不是表名,而是把字段凑齐到 manifest 规范里。
2. 导出后要补什么字段
| 字段 | 来源 | 说明 |
|---|---|---|
role |
business_type_role_mapping.json |
由 type 映射 |
bucket |
business_type_role_mapping.json |
默认业务 bucket |
split |
导出脚本或后处理 | train/val/test/holdout |
source_dataset |
固定值 | 如 internal_catalog
|
offset_sec |
片段类素材可填 | 非片段可先置 0
|
3. 推荐中间格式
CSV
适合:
- 业务同学先导数据
- Excel / 表格工具核对
样例:
JSONL
适合:
- 脚本流式处理
- 后续直接转 manifest
样例:
4. 建议后处理规则
-
type=10/11默认补成reference -
type=1/9默认补成压缩域reference -
type=7/8/16默认补成query -
type=18/2/12默认先excluded - 非音频资产直接过滤掉
5. 下个 session 最直接动作
- 按 SQL 样例从业务库导一次真实数据
- 存成 CSV 或 JSONL
- 用仓库里的 mapping 规则补齐
role/bucket - 再转换成项目需要的 manifest