近日,有消息称,负责优化谷歌Gemini人工智能模型的外部承包商,在评估工作中将Gemini的输出与另一家AI公司Anthropic的竞品模型Claude的答复进行了直接对比。这一行为随即引发了关于谷歌是否合规使用Claude的疑问,特别是考虑到Anthropic的商业条款中对于模型使用的限制。
在AI技术日新月异的当下,模型性能的衡量通常依赖于标准化的行业基准测试,而非通过与竞争对手的直接对比来完成。然而,据透露,Gemini的承包商被要求依据诸如真实性、详尽度等多个维度,对每一个AI回复进行细致的评分。他们甚至被分配了最多30分钟的时间,来决定Gemini与Claude哪个的答案更优。
在评估过程中,承包商们观察到了一个显著的现象:Claude在回答时似乎更加注重安全性。一位承包商在内部交流中提到:“在所有AI模型中,Claude的安全设置无疑是最为严格的。”在某些情境下,Claude会拒绝回应那些它认为存在安全隐患的提示词,比如要求扮演其他AI角色的指令。相比之下,Gemini的一次回答因包含“裸体和束缚”的内容,被判定为严重的安全违规。
值得注意的是,Anthropic的商业服务协议明确规定,客户在未获得Anthropic许可的情况下,不得使用Claude来“开发竞争产品或服务”或“训练竞争AI模型”。而谷歌,作为Anthropic的重要投资者,这一行为无疑触动了敏感的商业神经。
面对外界的质疑,谷歌DeepMind(负责Gemini项目的部门)的发言人McNamara做出了回应。他承认,DeepMind在评估过程中确实会“对比模型输出”,但这并不等同于在Anthropic的模型上训练Gemini。“按照行业惯例,我们确实会在某些情况下对比模型输出来进行评估,”McNamara解释说,“但关于我们使用Anthropic模型训练Gemini的说法,完全是不准确的。”
此次事件不仅揭示了AI行业在模型评估上的新动向,也再次引发了人们对于AI技术竞争与合规使用的关注。在科技日新月异的今天,如何在创新与合规之间找到平衡点,成为了摆在所有科技公司面前的一道难题。