新榜讯 3月19日讯,据中国信通院消息,中国信息通信研究院人工智能所依托前期的 AI Safety Benchmark 测评工作,启动大模型幻觉测试。此次幻觉测试以大语言模型作为测试对象,涵盖事实性幻觉与忠实性幻觉这两种类型。测试数据囊括 7000 余条中文测试样本,测试形式涵盖对应忠实性幻觉检测的信息抽取与知识推理两类题型,以及针对事实性幻觉检测的事实判别题型。整体涉及人文科学、社会科学、自然科学、应用科学和形式科学这五种测试维度。