传统云服务可以在合同中约定许多具体服务内容和参数标准,并使用探针、benchmark 工具、抽样测试等方法来监控和验证服务质量。
但目前 AI 服务要么是打包一个产品,要么是约定什么模型多少 token ,如果服务商偷偷降低算力、阉割外部插件,即使用户能感觉到劣化,却似乎很难举证服务存在劣化,也很难在合同中约定质量评判标准。如果事先约定了固定的质量测试方法,服务商可能专门针对这些测试做优化,导致测试结果不能反映实际服务质量。如果约定抽样评测实际结果的正确率,这种测评似乎代价又比较高,毕竟 AI 做的工作有一定复杂度和随机性,不容易简单批量判断对错,除非用人工或更聪明的 AI 来验证,但这又违背了使用 AI 的初衷。
我问了下 AI 有哪些 AI 质量评价方法,了解到自然语言处理方面有 Precision, Recall, F1 之类指标以及 BLEU, ROUGE 之类机制,但似乎都要有参考文本。而且现实中 AI 服务非常多样,不知道是不是都适用。
所以目前针对 AI 服务降低质量,在合同条款上有什么好的、易于举证的防范方法吗?