README.md 1.4 KB

Lyric Dedup Sample Set

基准歌词: test_api/test_lyric.txt

这些样本用于检查当前去重系统的两类行为:

  • positive_*: 应被判定为与基准歌词重复或高度重复。
  • negative_*: 不应被判定为重复,用于检查主题、关键词或风格相似时的误杀。

样本说明

文件 期望 测试点
positive_01_format_spacing_punctuation_duplicate.txt 去重命中 去掉标题/分隔线、改变空行、弱化标点后的同文变体
positive_02_minor_wording_typos_duplicate.txt 去重命中 少量错字、近义词、语序微调后的近重复
positive_03_section_order_shift_duplicate.txt 去重命中 段落顺序变化但核心文本大量重合
positive_04_partial_core_chorus_duplicate.txt 去重命中 只提交核心副歌/高潮片段时的局部重复检测
negative_01_same_theme_new_lyrics_not_duplicate.txt 不应命中 同样是凌晨、长安、雪、追梦,但逐句原创
negative_02_same_keywords_different_scene_not_duplicate.txt 不应命中 复用高频关键词,叙事场景和句法明显不同
negative_03_style_similar_low_overlap_not_duplicate.txt 不应命中 国风+Rap+都市融合风格相似,但文本低重合
negative_04_common_hook_phrases_not_duplicate.txt 不应命中 只含常见短语/意象,防止短文本公共表达误杀