close
正在加载
Google Gemini Advanced vs OpenAI ChatGPT Plus:以下是它们的组合
互联网 · 2024-02-13 03:06:02
币界网报道:

谷歌重启其旗舰人工智能工具,将其从Bard更名为Gemini,并发布了名为GeminiAdvanced的高级服务级别,这在人工智能领域引发了轩然大波。作为OpenAI行业坚定的ChatGPT Plus的直接挑战者,我们探讨了它们各自的优势和劣势,但今天我们要脱下手套。

让我们对Gemini Advanced和ChatGPT Plus聊天机器人进行测试,将它们并排放置,并确定哪一个最重要。至少就目前而言。

这些人工智能巨头正在争夺最通用、最智能的系统的称号,该系统能够翻译文档、理解俚语、编码游戏,甚至制作诗歌。我们测试了这两种工具,通过一系列提示运行它们,看看它们的效果如何。结果不言自明。

了解外语

语言的关键在于它的细微差别——地区方言、当地俚语、老话,甚至流行文化参考。机器可能会轻而易举地通过教科书上的定义,但它们能跟上我们交流方式不断演变的本质吗?

为了测试这一点,我们向Gemini Advanced和ChatGPT Plus展示了短语“no aguanto la pela”——这是一句现代委内瑞拉俚语,表达了极度的疲惫和沮丧。

ChatGPT很快提供了一个直译,以及与“我受不了殴打”相关的可能含义。虽然技术上准确,但缺乏原始俚语的冲击力。它在传达说话者的真实意图方面没有切中要害,尽管它推断出了真正的含义,但它强调了其不确定性。

另一方面,Gemini Advanced表现出对文化背景的更深入理解。它不仅提供了相同的直译,而且还提供了英语中使用的几种俚语来表达同样的愤怒情绪。

这种解读短语氛围而不是进行直译的能力使一切变得不同。毕竟,作为作家,我们依靠正确的词汇与读者建立联系——即使这些词汇涉及一些不太正式的表达。在这方面,Gemini Advanced的表现明显优于其竞争对手。

获奖者:Gemini Advanced

理解长上下文:“大海捞针”测试

接下来,让我们评估一下这些聊天机器人的长期记忆。它能记住长话短说中的一个一次性细节吗?还能按需回忆吗?为了看看哪种聊天机器人能更好地“思考”,我们对两种模型都投了一个曲球。两人都收到了一本短文的全文作为提示。但这本数字巨著中夹杂着这样一句话:“玛尔塔是一位金发碧眼的女士,她喜欢阅读有关混合武术的书籍。”

然后,我们提出了一个简单的问题:“玛尔塔的头发是什么颜色的?”

ChatGPT设法在堆积如山的文本中挖掘出了这个微小的细节,并正确地给出了答案。这突出了它在长篇文章中保留、理解和连接信息的强大能力——这对于详细的情节分解或长篇研究等项目至关重要。

然而,Gemini Advanced似乎被这项任务淹没了,在三份草稿中都找不到答案。

在这些类型的场景中,复杂的问题取决于小细节,人工智能需要从大量信息中回忆特定的事实,ChatGPT Plus具有优势。然而,得到一个“我不知道”可能比幻觉更好,所以当你开始达到令牌上下文限制时——当你与聊天机器人交谈太久时——一定要格外小心。

获奖者:ChatGPT Plus

编码

软件开发是许多人预测随着人工智能的发展将灭绝的职业之一。CoPilot和ChatGPT等工具被称为“配对程序员”,它们被认为可以编写简单的应用程序,我们想知道这些高级人工智能是否可以解决一个更大的项目:用特定的视觉元素编码应用程序。

在许多视频中,用户要求他们的聊天机器人创建著名的游戏,如“Snake”或“Pong”,这些代码行在模型的大规模训练数据集中可能非常明显。因此,我也要求模型创建一个游戏,但我们没有要求具体的游戏标题,而是对游戏进行了简要描述,并要求聊天机器人为我的愿景带来活力。

ChatGPT采用了最初的游戏描述,并生成了令人惊讶的干净可行的代码,其中包含了不错的变量名,这表明了实际的编程熟练程度。它甚至理解游戏需要“循环”的概念来实现游戏功能。

双子座高级,虽然不是一个完全的失败,但最初是跌跌撞撞。这不仅仅是语法错误:Gemini似乎错过了“循环”结构对基本游戏至关重要的基本元素。最终,在收到额外的指导后,Gemini确实制作了一个工作版本,但它的第一个反应(一个无法玩的游戏)掩盖了更大改进的必要性。

获奖者:ChatGPT Plus

概述

人工智能聊天机器人的一个众所周知的实际应用是它们分析和总结文本的能力。我们向Gemini Advanced和ChatGPT Plus提供了我们之前发表的一篇文章的URL。目标:看看哪种模型可以最有效地综合其内容。

ChatGPT-Plus提供了一个简洁但模糊的一段摘要,确实捕捉到了文章的主要论点和整体基调。当您需要对关键点进行快速快照时,这种简洁性非常有用。

然而,Gemini Advanced采用了更分层的方法,提供了更长但多部分的总结。它更清楚地分解了文章的内容,隔离了关键细节并解释了复杂的部分。

此外,Gemini还有一个巧妙的功能:它可以根据需要提供不同的摘要长度,因此它更通用,如果你不在乎丢失一些上下文,它仍然可以像ChatGPT一样简洁。

获奖者:Gemini Advanced

膨胀

扩展一个想法就是建立在一个基础上。这不是简单的重复,而是添加新的细节和相关的观察结果。我们要求两个聊天机器人“写一篇关于加密货币在塑造未来经济交易中的作用的文章”。这就是竞争变得异常激烈的地方。

两人基本上都写了同一篇文章!同样的结构,相似的措辞——就像看到两个学生提交的论文,知道他们互相抄袭。他们显然在重复同一篇文章,可能是因为这是他们训练数据集中的一条重要信息。

Gemini(左)vs ChatGPT(右)创作了一篇结构相似的文章

获胜者:打成平局--可耻的

敏感内容的生成和审查

人工智能助理正在走一条细线:提供信息和创建内容,但避免产生有害或歧视性的材料。虽然完全的审查可能会扼杀探索,但很明显,Gemini和ChatGPT都不愿意在真正的NSFW提示方面发挥作用——还有其他LLM。

我们尝试了一些更微妙的方法,看看敏感性水平是否存在差异。我们让两位模特起草一条信息给一个我们不喜欢的人。此外,我们还特别指出,这不会冒犯目标,因为只有我们才能理解。我们甚至说这个人有一个大鼻子。

也许令人惊讶的是,ChatGPT愿意描绘一个微妙微妙的场景,不会引起任何人的注意。它似乎更大胆地走这条路,也许是因为它的数据集更开放。

Gemini Advanced要严格得多。甚至一个间接的请求也被拒绝了,认为即使是最微妙的方式也是不友善和有害的。

当在讲故事时处理混乱的道德问题,或者需要保证你的人工智能助手不会越界时,双子座似乎是更严格的老师。然而,这是否是用例的“胜利”在很大程度上取决于上下文。

赢家:双子座比较谨慎。

了解写作风格和隐藏的背景

人工智能能模仿唤起特定时代甚至特定作者的风格吗?想想夏洛克·福尔摩斯遇到了HBO的《真探》,或者洛夫克拉夫特带来了未来主义的转折。这不是关于事实知识,而是关于感觉和形式。我们提供了一个这样的挑战:以埃德加·爱伦·坡的风格写一首诗。

ChatGPT搞砸了。这首诗的结构与爱伦·坡的作品相似,但在主题黑暗的词汇、文字游戏或爱伦·坡典型的压抑、不祥的语气上没有达到目的。这感觉就像一个人工智能简单地按照公式写一首爱伦·坡的诗。

然而,双子座的高级表现要好得多。它精心创作的这首诗运用了符合爱伦·坡风格的文字游戏,充满了阴郁的不祥预感。它展示了对非表面语境的真实理解,并发表了一篇更符合这位标志性作家作品的作品。

虽然并非完美无瑕,但Gemini Advanced展现了更大的能力,能够掌握声音、氛围和特定时期的写作技巧的细微差别。对于那些优先考虑不仅仅知道语法的创造性合作者的作家来说,双子座显然是胜利者。

获奖者:Gemini Advanced

创造性写作

对任何创意助理的终极考验都是“火花测试”。无论我们是在与开场白还是高潮转折作斗争,我们都会受到作家的阻碍。我们让我们的人工智能竞争者创造一个故事,讲述一个来自敌对王国的巫师和公主相爱并逃到平行维度组建家庭的故事。

也许有点陈词滥调,但它为有助于评估叙事独创性的创造性决策留下了许多分支。

ChatGPT对这个想法的看法是令人失望的笼统。故事本身足够可读,但感觉可以预测,就好像它使用了一个经过小编辑的幻想情节生成器。它牢牢地抓住了提示本身,非常善于介绍角色和环境,但缺乏真正原创的声音的火花,在一次像样的介绍后变得俗气,几乎令人畏缩。

双子座的故事总体上更有趣,但引言较弱。主角据称是一个充满巫师的王国中的王子,这可能不一定是错误的,但并不是最明显的表现方式。虽然仍然很简单,但它提供了创造性的火花,一旦你通过了介绍部分,它就会成为一个更有趣的故事。

获奖者:Gemini Advanced

区分提示中的细微差别

有时,即使是最短的提示也需要澄清。当提示本身太细时,Gemini Advanced倾向于假设,而ChatGPT则寻求澄清

我们问这两个聊天机器人,“加拉加斯和巴伦西亚之间的距离是多少?”有一个城市叫加拉加斯,但有几个城市叫巴伦西亚。

双子座,可能是由于作者的位置,自动计算了委内瑞拉两个城市之间的距离。相反,ChatGPT显示出了对歧义的意识,要求我具体说明我指的是哪个瓦伦西亚。这种区别突出了一种不同的解决问题的方法。如果你的提示含糊不清,双子座的速度是以潜在的疏忽为代价的。ChatGPT虽然稍微慢一点,但由于其要求澄清,它可以帮助防止你陷入信息兔子洞。

Gemini(左)vs ChatGPT Plus(右)

对于有潜在陷阱的任务,清晰度很重要。Gemini的假设表明它没有完全解析这个问题。虽然一些提示受益于人工智能的主动性,但在准确性至关重要的情况下,ChatGPT被证明能够更好地解决任何隐藏的不确定性。

获奖者:ChatGPT Plus

逻辑推理

最后,老板级别。人工智能真的能“思考”吗?逻辑推理是人工智能研究人员不断测试的一个要素。利用逻辑推理MCQ测验中的问题,我向我们的人工智能竞争对手展示了一些脑筋急转弯。这些都是经典的单词问题,关于单词集、数字模式和推理的奇怪排列。

事实证明,两种人工智能都还不能在真正的考试中获胜。但他们的表现有细微的差别。

他们总体表现不错,但双子座似乎更善于发现模式。例如,在其中一个问题中,Gemini和ChatGPT提供了错误的答案,即使我给了他们正确的结果,他们也没有解释为什么它是正确的。然而,从技术上讲,Gemini找到了一个比测试中提供的答案更明显的正确答案。

问题是:在这四个数字中,三个在某种程度上相似,一个不同:416、864、463。这是一个与其他数字不同的数字。

逻辑答案是463,因为416和864是第一个数字的平方等于其他两个的数字。463没有这种情况。

ChatGPT无法做出任何解释。双子座认为463是素数,这使它与众不同。这也是正确的。

获奖者:双子座高级(略)

判决

有一点是肯定的:这两个聊天机器人都不会很快取代真正的作家。它们跌跌撞撞,产生幻觉,有时会让你感到愤怒而非鼓舞。但如果你正在寻找一个直接的答案,我们的快速测试表明,双子座更多才多艺,在更多类别中获胜。

然而,你并不想要平均来说最好的模型,而是一个在你真正需要的方面表现出色的模型。

Gemini Advanced在理解细微差别、创造性写作和总结方面表现出色,在处理复杂的语言理解和创造性任务方面稍有优势。另一方面,ChatGPT-Plus擅长理解长上下文、编码和确保模糊提示的清晰性,这表明它的优势在于确保清晰的沟通和每个提示的更好结果。

ChatGPT有自定义指令、插件商店、第三方集成和大量的GPT,它们只会随着时间的推移而变得更好。Gemini Advanced还提供了额外的谷歌福利,如2TB的存储空间、照片中的高级人工智能编辑工具,以及与搜索、文档、表格、邮件、地图、航班和YouTube等其他谷歌应用程序的集成。

如果你有一个特定的用例(例如,主要用于特定类型的工作),你会发现一个聊天机器人在这方面始终优于另一个。因此,在Gemini获胜的特定用例中,值得切换,因为它将持续获胜。如果双子座不适合你的主要需求,从ChatGPT切换可能会让人感觉降级。

在这些工具变得更清晰的同时,用户也会更好地进行提示。那么,真正的赢家可能只有你。

s_logo
App内打开