Lyric Dedup Sample Set
基准歌词: test_api/test_lyric.txt
这些样本用于检查当前去重系统的两类行为:
-
positive_*: 应被判定为与基准歌词重复或高度重复。 -
negative_*: 不应被判定为重复,用于检查主题、关键词或风格相似时的误杀。
样本说明
| 文件 | 期望 | 测试点 |
|---|---|---|
positive_01_format_spacing_punctuation_duplicate.txt |
去重命中 | 去掉标题/分隔线、改变空行、弱化标点后的同文变体 |
positive_02_minor_wording_typos_duplicate.txt |
去重命中 | 少量错字、近义词、语序微调后的近重复 |
positive_03_section_order_shift_duplicate.txt |
去重命中 | 段落顺序变化但核心文本大量重合 |
positive_04_partial_core_chorus_duplicate.txt |
去重命中 | 只提交核心副歌/高潮片段时的局部重复检测 |
negative_01_same_theme_new_lyrics_not_duplicate.txt |
不应命中 | 同样是凌晨、长安、雪、追梦,但逐句原创 |
negative_02_same_keywords_different_scene_not_duplicate.txt |
不应命中 | 复用高频关键词,叙事场景和句法明显不同 |
negative_03_style_similar_low_overlap_not_duplicate.txt |
不应命中 | 国风+Rap+都市融合风格相似,但文本低重合 |
negative_04_common_hook_phrases_not_duplicate.txt |
不应命中 | 只含常见短语/意象,防止短文本公共表达误杀 |