站内搜索 | 手机版

巨人财经 - 专业科技行业财经媒体

巨人网 > 产经 > 正文内容

谷歌新推FACTS Grounding基准，大语言模型能否摆脱“幻觉”困扰？

发布时间：2024-12-18 14:08 来源：ITBEAR 作者：顾雨柔

近日，谷歌DeepMind团队发布了一项名为FACTS Grounding的全新基准测试，旨在提升大型语言模型（LLMs）的事实准确性，增强用户的信任感，并拓宽其应用边界。该测试的核心在于评估LLMs能否根据给定材料准确作答，同时避免产生“幻觉”，即不捏造信息。

在数据集层面，FACTS Grounding数据集精心编制了1719个涵盖金融、科技、零售、医疗和法律等多个领域的示例。每个示例均包含一篇文档、一条要求LLM基于文档的系统指令以及相应的提示词。这些文档的长度各异，最长的文档包含约20000字的内容，确保了数据集的丰富性和多样性。用户请求的类型多样，包括摘要、问答生成和改写等，但不涉及需要创造力、数学或复杂推理的任务。

数据集被巧妙地分为860个“公共”示例和859个“私有”示例。目前，公共数据集已公开发布，供研究人员和开发者进行评估使用。而私有数据集则用于排行榜评分，这一设计旨在防止基准污染和排行榜作弊，确保评估的公正性和准确性。

在评估方案上，FACTS Grounding基准测试采用了Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet三款先进的模型作为评委，它们将共同评估答案的充分性、事实准确性和文档支持性。这一多模型评估体系能够更全面、客观地反映LLMs在事实准确性方面的表现。

评估过程分为两个阶段。首先，评委们会判断响应是否符合资格，即是否充分回答了用户请求。接着，他们会评估响应的事实准确性，即是否完全基于所提供的文档，没有产生“幻觉”。最终，基于模型在所有示例上的平均得分，计算出每个LLM在FACTS Grounding基准测试中的表现。

值得注意的是，在FACTS Grounding基准测试中，谷歌自家的Gemini模型在事实准确的文本生成方面脱颖而出，取得了最高分。这一成绩不仅展示了Gemini模型在事实准确性方面的卓越表现，也验证了FACTS Grounding基准测试的有效性和可靠性。

更多>同类内容

北京奔驰启动零碳综合创新示范项目，新质赋能打通低碳转型新通道

12-18

2025款奥迪Q7燃油SUV来袭，新配置新色彩，起售价60.98万元

12-17

盖世小鸡超新星手柄升级：全面适配GameSir Connect软件调参

11-24

十几万横店群演集体调薪，短剧剧组在减少，4年“横漂”加500个群找戏拍

11-24

卖一台车亏10万，蔚来李斌慌不慌？

11-24

C919飞机APU系统扬雪试验成功，适航取证再进一步！

11-24

瓦尔基里VK MAG 75系列机械键盘上市，低至149元起，多种配置可选！

11-24

苹果iPhone 18 Pro将采用LTPO+技术，供应商挑战与研发进度受关注

11-24

北欧电池巨头Northvolt陷困境，CEO离职并申请破产保护

11-23

济南企业家：以“智造”为笔，绘就数字先锋城市新蓝图

11-23

罗德口袋无线领夹麦上市，便携续航强，定价995元

11-23

英伟达大涨后，黄仁勋夫妇慈善基金今年的必须捐赠金额翻倍

11-23

胡祚雄荣获“时代创变者奖”，凌雄科技DaaS创新引领行业变革

11-23

HKC G27H7 Pro显示器：27英寸4K 160Hz/1080P 320Hz双模，仅售1899元！

11-23

《英雄联盟：双城之战》海报疑AI制作，拳头游戏：已撤下，尊重创作者

11-23

点击查看更多 +

全站最新

北京奔驰启动零碳综合创新示范项目，新质赋能打通低碳转型新通道

北京奔驰启动零碳综合创新示范项目，新质赋能打通低碳转型新通道

2025款奥迪Q7燃油SUV来袭，新配置新色彩，起售价60.98万元

2025款奥迪Q7燃油SUV来袭，新配置新色彩，起售价60.98万元

一加Ace 5系列配置曝光：处理器、电池快充成Pro版与标准版关键差异

一加Ace 5系列配置曝光：处理器、电池快充成Pro版与标准版关键差异

小米YU7内饰成谜，英伟达芯片延迟或影响上市，座舱有何惊喜？

小米YU7内饰成谜，英伟达芯片延迟或影响上市，座舱有何惊喜？

比亚迪仰望U7插混版亮相，首款水平对置发动机引关注！

比亚迪仰望U7插混版亮相，首款水平对置发动机引关注！

长虹百寸巨幕电视100Q10T Max上市，XDR Mini LED仅售19997元！

长虹百寸巨幕电视100Q10T Max上市，XDR Mini LED仅售19997元！

马云低调布局印度市场，退休前大动作：半个印度已入其版图？

马云低调布局印度市场，退休前大动作：半个印度已入其版图？

英伟达CEO黄仁勋：用作业搭讪妻子，20岁就立志30岁当CEO

英伟达CEO黄仁勋：用作业搭讪妻子，20岁就立志30岁当CEO

热门内容

本栏最新

北京奔驰启动零碳综合创新示范项目，新质赋能打通低碳转型新通道

北京奔驰启动零碳综合创新示范项目，新质赋能打通低碳转型新通道

2025款奥迪Q7燃油SUV来袭，新配置新色彩，起售价60.98万元

2025款奥迪Q7燃油SUV来袭，新配置新色彩，起售价60.98万元

盖世小鸡超新星手柄升级：全面适配GameSir Connect软件调参

盖世小鸡超新星手柄升级：全面适配GameSir Connect软件调参

十几万横店群演集体调薪，短剧剧组在减少，4年“横漂”加500个群找戏拍

十几万横店群演集体调薪，短剧剧组在减少，4年“横漂”加500个群找戏拍

卖一台车亏10万，蔚来李斌慌不慌？

卖一台车亏10万，蔚来李斌慌不慌？

C919飞机APU系统扬雪试验成功，适航取证再进一步！

C919飞机APU系统扬雪试验成功，适航取证再进一步！

瓦尔基里VK MAG 75系列机械键盘上市，低至149元起，多种配置可选！

瓦尔基里VK MAG 75系列机械键盘上市，低至149元起，多种配置可选！

苹果iPhone 18 Pro将采用LTPO+技术，供应商挑战与研发进度受关注

苹果iPhone 18 Pro将采用LTPO+技术，供应商挑战与研发进度受关注

巨人财经微信：netspread（注明:巨人财经）简体繁体根据客户端智能切换，如显示有问题，请点击页面右上角的简繁切换功能！
Copyright © 2016-2023 jur.com.cn All rights reserved. 鲁ICP备11015305号-24

微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群