数据策展 / 数据整理与管理:指对数据进行收集、筛选、清洗、标注、组织、版本控制、记录元数据并长期维护,使其在当前与未来都能可靠、可复用、可共享(常见于科研、图书馆与档案、企业数据治理、机器学习数据集管理等场景)。
/ˈdeɪtə kjʊˈreɪʃən/(也常见 /ˈdætə kjʊˈreɪʃən/)
We need better data curation before we train the model.
在训练模型之前,我们需要更好的数据整理与管理。
Effective data curation documents sources, removes duplicates, and tracks changes so the dataset remains trustworthy over time.
有效的数据策展会记录数据来源、去除重复项并追踪变更,从而让数据集长期保持可信。
curation 来自拉丁语 curare(照料、负责、管理),原本多用于博物馆与美术馆语境中的“策展/馆藏管理”。随着数字化发展,data curation 借用这一概念,强调对数据进行“像管理馆藏一样”的系统维护与可持续保存。