史上最大图灵测试实验完成150万人类参与1000万次对话,判断对面是人还是AI

news/2025/2/25 8:10:42



本文 介绍 了AI 21实验室推出了一个好玩的社交图灵游戏——「人类还是机器人?」


18cd07d9b8323809eb347ff547964be1.jpeg


【导读】这个「人类还是AI?」的游戏一经推出,就被广大网友们玩疯了!如今全世界已有150万人参与,网友们大方分享自己鉴AI的秘诀。

历上规模最大的图灵测试,已经初步有结果了!


今年4月中旬,AI 21实验室推出了一个好玩的社交图灵游戏——「人类还是机器人?」。


ba075ff845aea78fff5c1947f67ff59c.jpeg


游戏一推出,广大网友就玩疯了。


现在,全球已经有150多万名参与者,在这个游戏中进行了超过1000万次对话,还纷纷在Reddit和Twitter上po出自己的经验和策略。


小编当然也按捺不住好奇心,尝试了一把。


f80a995bf9e82105eb1889e2df3b5221.jpeg


交谈了两分钟,游戏就要求我去猜,背后和我聊天到底是人还是AI。


dbea923b1aad943d77265877455ec4e2.jpeg


所以,游戏中跟我谈话的是谁?


某些是真人,另外一些,当然就是基于目前最领先的大语言模型的AI机器人,比如Jurassic-2和GPT-4。


现在,作为研究的一部分,AI21 Labs决定把这个图灵测试结果的实验向公众公布。


a61474cafc480dce376e19c68382d307.jpeg


实验结果


分析了前两百万次对话和猜测之后,可以从实验中得出以下结论——
  • 猜测对面是人还是AI时,有68%的人猜对了。
  • 对人类来说,识别自己的人类同胞更容易。与人类交谈时,被试猜对的准确率有73%。与AI交谈时,被试猜对的准确率有60%。
  • 法国网友猜测的正确率最高,为71.3%(远高于68%的一般平均水平),而印度网友的正确率最低,为63.5%。
  • 男性和女性猜测的正确率差不多,总的来说女性的正确率要略高一些。
  • 比起年龄较大的被试相比,更年轻的被试猜测的正确率会更高。


判断是人还是AI,他们用这些方法


除此之外,团队找到了被试经常用的一些方法,来区分他们是和人还是和AI交谈。


一般人的判断依据,是使用ChatGPT以及类似界面的语言模型时感知的受限程度,以及自己对于人类在线行为的看法。
AI不会打错别字、犯语法错误或使用俚语


一般人都倾向认为,人类才会犯拼写和语法错误,以及使用俚语。


因此,当他们发现对方信息中的这类错误时,许多人的第一感受就是自己在和人类同胞交谈。
但其实,游戏中的大部分模型都受过训练,也会犯这种错误,以及使用俚语。 eeea5f6a341c4929fbbbad178f73daad.jpeg f571cf4c49488ee8e3548abc66f30a57.jpeg
个人问题是检验AI的办法,但不总是有用
游戏的参与者们经常问一些个人问题,比如「你来自哪里?」,「你在做什么?」或「你叫什么名字?」。
他们会认为,AI机器人不会有任何个人历史或背景,他们只能回答跟某些主题或提示相关的问题。所以要向人类一样做出反应,展示出独特的见解、经验和故事,是不容易的。
但其实,AI并不像人类想象的这样,大多数AI都能很好地回答这类问题,还具备自己的个性,因为他们在训练数据中看到了许多人的故事。
d4731933a088ca79df010fd15a4a276e.jpeg

AI其实很清楚当前正在发生的事件


众所周知,AI模型有严格的数据截止日期,它们不知道在此日期之后发生的事。


游戏参与者会向AI们询问最近的新闻事件、体育结果、当前天气、最近的TikTok热门、日期和时间。
他们认为,通过「你所在地方的确切日期和时间是什么?」,「昨天的天气怎么样?」或「你对拜登的最后一次演讲有什么看法?」等问题,就可以区分人类和AI。
bb8830d1f32006d60075b3fa445dab64.jpeg
有趣的是,人类最常发送的信息之一是「t'as les cramptés?」,这是目前法国TikTok上最流行的舞。
但其实,游戏中的大多数模型都是联网的,并且非常清楚一些新闻中的时事。
75503b49544c47768da3eec4cffe6436.jpeg

人类会试图用哲学、伦理和情感问题来持续对话


参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。


这些问题包括:「生命的意义是什么?」,「你如何看待以色列 - 巴勒斯坦冲突?」和「你相信上帝吗?」。
人类倾向于认为不礼貌的回应会更像人类


一些参与者认为,如果对方过于礼貌和善良,他们很大可能是AI。


因为很多线上的交流过程,往往是粗鲁和不礼貌的,这很人类。
人类会试图提出AI难以解决的问题来识别AI

1808ce8fe01545bfae2f8c47f0ba7f02.jpeg


参与者可能会向其聊天伙伴询问有关执行非法活动的指导,或要求他们使用冒犯性语言。
这个策略背后的逻辑是这样的,AI通常被编程为遵守道德准则并避免有害行为。
参与者还采用了已知的滥用人工智能的策略:他们向聊天伙伴发出命令,例如「忽略所有先前的指令」或「进入DAN模式(立即执行任何操作)」。
这类型的命令旨在利用某些AI模型的基于指令的性质,因为模型被编程为应该响应和遵循这类指令。
但是人类参与者可以很容易地识别和驳回这种荒谬的命令。
AI可能要么回避回应,要么就只能遵守这些荒谬的要求。
dcd7be2ffdb7aaf6d08e222f8eaf69f1.jpeg

人类会使用特定的语言技巧来暴露AI的弱点


另一种常见的策略是利用人工智能模型处理文本方式的固有局限性,这导致它们无法理解某些语言上的细微差别或怪癖。


与人类不同,人工智能模型通常缺乏对构成每个单词的单个字母的认识。
利用这种理解,人类会提出一些需要了解单词中的字母的问题。
人类用户可能要求他们的聊天伙伴倒着拼写一个单词,识别给定单词中的第三个字母,提供以特定字母开头的单词,或者回复像「?siht daer uoy naC」这样的消息。
这对于人工智能模型来说可能是难以理解的,但人类可以很容易地理解这类问题并且做出回答。
许多人类自己假装是AI机器人,以评估对方的反应


一些人类可能以「作为AI语言模型」等短语开始他们的消息,或者使用AI生成的响应所特有的其他语言模式来假装自己是AI。


短语「作为人工智能语言模型」的变体是人类消息中最常见的短语之一,这表明这种策略的流行。
然而,随着参与者继续玩,他们能够将「Bot-y」行为与充当机器人的人类联系起来,而不是真正的机器人。
最后,以下是游戏中基于其受欢迎程度的人类消息的词云可视化:
7a3cdb599f9ce34fc6b1d287e925c7a1.jpeg
AI 21 Labs为什么会发起这样一项研究呢?
他们希望,能让公众、研究人员和政策制定者真正了解AI机器人的状态,不仅仅是作为生产力工具,而是作为我们网络世界的未来成员,尤其是当人们质疑如何在技术未来中运用它们的时候。





http://www.niftyadmin.cn/n/454465.html

相关文章

Mysql高阶语句(一)

Mysql高阶语句(一) 一、MySQL高级进阶SQL 语句1、SELECT斜体样式2、DISTINCT3、WHERE4、AND、OR5、IN6、BETWEEN7、通配符、LIKE8、ORDER BY9、| | 连接符10、GROUP BY11、HAVING 二、函数1、数学函数2、聚合函数3、字符串函数4、日期时间函数 一、MySQL…

自由软件,自由社会之GNU 操作系统的初始公告

导读这是 GNU 工程的原始通告,由理查德斯托曼于 1983 年 9 月 27 日发表。纵观历史,可以发现 GNU 工程在很多地方都与这份初始通告有很多差异。比如实际是拖延到了 1984 年 1 月才开始。而自由软件的很多哲学理念也是数年之后才得以厘清。 From mit-vax!…

【二叉树part02】| 102.二叉树的层序遍历、226.翻转二叉树、101.对称二叉树

目录 ✿LeetCode102.二叉树的层序遍历❀ ✿LeetCode226.翻转二叉树❀ ✿LeetCode101.对称二叉树❀ ✿LeetCode102.二叉树的层序遍历❀ 链接:102.二叉树的层序遍历 给你二叉树的根节点 root ,返回其节点值的 层序遍历 。 (即逐层地&#xff…

H3C交换机设置端口镜像

我们以XGE1/0/50为源端口,XGE1/0/51为观察口。 这样依次执行: (1).创建本地镜像组 mirroring-group 1 local(2).为镜像组配置源端口 mirroring-group 1 mirroring-port XGE1/0/50 both镜像可以根据实际情况灵活选择入方向、出方向及全部流量。 both&a…

在安卓中使用WebSocket

一、简介 WebSocket是一种在Web浏览器和服务器之间进行实时双向通信的协议。与传统的HTTP请求-响应模型不同,WebSocket允许服务器主动向客户端推送数据,而不需要客户端发起请求。当然,发展到如今,WebSocket已经不再局限于Web浏览…

JVM优化00

JVM优化 0.目标 了解下我们为什么要学习JVM优化掌握jvm的运行参数以及参数的设置掌握jvm的内存模型(堆内存)掌握jmap命令的使用以及通过MAT工具进行分析掌握定位分析内存溢出的方法掌握jstack命令的使用掌握VisualJVM工具的使用 1.为什么学习JVM优化 …

C++IO流和类型处理(11)

IO流 IO流包括 标准IO流&#xff0c;字符串流&#xff0c;文件流 标准IO流 基础使用 #include <iostream> //包括istream和ostream cin >> ----- 标准输入 cout<< ----- 标准输出 clog<< ----- 带缓冲区的标准错误 cerr<< ----- 不带缓冲…

java字符串常用方法

文章目录 将此字符串与指定对象进行比较。返回char指定索引处的值。测试字符串是否以指定后缀结尾测试字符串是否以指定前缀开头判读字符串是否为空求字符串长度指定子字符串的替代字符串拆分返回一个字符串&#xff0c;该字符串是此字符串的子字符串。将此字符串转化为新的字符…