“Silver data”(也常说 silver-standard data)指质量介于“gold data(人工精标注数据)”与更粗糙数据之间的数据:通常由自动方法(规则、模型、远程监督/弱监督、对齐匹配等)生成或半自动标注,覆盖面大但噪声更高,常用于机器学习/自然语言处理中的训练、预训练、数据扩增或评测补充。也可泛指“次高质量、可用但不完美”的数据版本。
We trained the model on silver data before fine-tuning on a small gold dataset.
我们先用银标准数据训练模型,再用少量金标准数据进行微调。
Because the labels come from heuristics, this silver data contains noise and needs careful filtering.
由于这些标签来自启发式规则,这些银标准数据含有噪声,需要谨慎筛选与清洗。
/ˈsɪlvər ˈdeɪtə/(也常见 /ˈsɪlvər ˈdætə/)
该说法源于用贵金属作等级隐喻的传统:gold standard(金标准)表示最权威、最高质量(多为人工精标注);silver(银)表示“次一级但仍有较高价值”。因此 silver data 多指“接近金标准、但由自动/半自动方式得到、质量略逊”的数据。