close
正在加载
当今人工智能面临的三大数据隐私问题
互联网 · 2024-03-29 12:08:57
币界网报道:
HodlX Guest Post提交您的帖子
 

人工智能(AI)在消费者和企业中引起了狂热的兴奋,因为人们坚信LLM(大型语言模型)和ChatGPT等工具将改变我们的学习、工作和生活方式。

但就像在互联网的早期一样,用户在没有考虑如何使用他们的个人数据以及这可能对他们的隐私产生的影响的情况下就加入了进来。

人工智能领域已经出现了无数数据泄露的例子。2023年3月,在一个“重大”错误意味着用户能够看到陌生人的对话历史后,OpenAI暂时将ChatGPT离线。

同样的错误意味着用户的支付信息——包括姓名、电子邮件地址和部分信用卡号码——也在公共领域。

2023年9月,一名员工无意中泄露了惊人的38兆字节的微软数据,网络安全专家警告称,这可能会让攻击者用恶意代码渗透到人工智能模型中。

研究人员还能够操纵人工智能系统披露机密记录。

在短短几个小时内,一个名为Robust Intelligence的组织就能够从英伟达软件中获取个人身份信息,并绕过旨在阻止系统讨论某些话题的保护措施。

在所有这些场景中都吸取了教训,但每一次突破都有力地说明了人工智能成为我们生活中可靠和值得信赖的力量所需要克服的挑战。

谷歌的聊天机器人Gemini甚至承认,所有对话都是由人工审核人员处理的,这突显了其系统缺乏透明度。

“不要输入任何你不想被审查或使用的东西,”一条提醒用户的警告说。

人工智能正在迅速超越学生用来做作业或游客在罗马旅行时用来推荐的工具。

人们越来越依赖它进行敏感的讨论——从医疗问题到我们的工作日程,它提供了一切信息。

正因为如此,重要的是退后一步,反思当今人工智能面临的三大数据隐私问题,以及为什么它们对我们所有人都很重要。

1.提示不是私人的

像ChatGPT这样的工具会记住过去的对话,以便以后再参考。虽然这可以改善用户体验并帮助培训LLM,但也有风险。

如果一个系统被成功入侵,那么在公共论坛上出现提示的风险就很大。

当人工智能被用于工作目的时,用户历史中可能令人尴尬的细节以及商业敏感信息可能会被泄露。

正如我们从谷歌看到的那样,所有提交的内容最终也会被其开发团队仔细审查。

三星在2023年5月对此采取了行动,当时它完全禁止员工使用生成人工智能工具。此前,一名员工将机密源代码上传至ChatGPT。

这家科技巨头担心这些信息很难检索和删除,这意味着知识产权最终可能会被分发给公众。

苹果、Verizon和摩根大通也采取了类似的行动,有报道称,在ChatGPT的回应与其内部数据相似后,亚马逊发起了打击行动。

正如你所看到的,人们担心的不仅仅是数据泄露会发生什么,而是输入人工智能系统的信息可能会被重新利用并分发给更广泛的受众。

像OpenAI这样的公司已经面临多起诉讼,指控他们的聊天机器人是使用受版权保护的材料进行训练的。

2.组织训练的自定义人工智能模型不是私有的

这就引出了我们的下一点——虽然个人和公司可以根据自己的数据源建立自定义LLM模型,但如果它们存在于ChatGPT这样的平台范围内,它们就不会完全私有。

最终无法知道输入是否被用于训练这些庞大的系统,或者个人信息是否最终会被用于未来的模型。

就像拼图一样,来自多个来源的数据点可以汇集在一起,对某人的身份和背景形成全面而令人担忧的详细见解。

主要平台也可能无法提供关于如何存储和处理这些数据的详细解释,无法选择退出用户不满意的功能。

除了响应用户的提示,人工智能系统越来越有能力从字里行间读出信息,并推断出从一个人的位置到他的个性的一切。

一旦发生数据泄露,可能会造成可怕的后果。可以精心策划极其复杂的网络钓鱼攻击,并将用户秘密输入人工智能系统的信息作为攻击目标。

其他潜在的场景包括这些数据被用来假设某人的身份,无论是通过开立银行账户的应用程序还是deepfake视频。

即使消费者自己不使用人工智能,他们也需要保持警惕。人工智能越来越多地被用于为监控系统供电,并增强公共场所的面部识别技术。

如果这些基础设施不是在真正的私人环境中建立的,那么无数公民的公民自由和隐私可能会在他们不知情的情况下受到侵犯。

3.私人数据用于训练人工智能系统

有人担心,主要的人工智能系统是通过浏览无数的网页来收集它们的智能的。

据估计,3000亿个单词被用于训练ChatGPT——即570G的数据——数据集中有书籍和维基百科条目。

众所周知,算法也依赖于社交媒体页面和在线评论。

有了其中的一些来源,你可以说这些信息的所有者对隐私有合理的期望。

但事情是这样的——我们每天互动的许多工具和应用程序已经受到人工智能的严重影响——并对我们的行为做出反应。

iPhone上的Face ID使用人工智能来跟踪你外表的细微变化。

TikTok和Facebook的人工智能算法根据你过去观看的片段和帖子进行内容推荐。

Alexa和Siri等语音助手在很大程度上也依赖于机器学习。

令人眼花缭乱的人工智能创业公司比比皆是,每一家都有自己的特定目标。然而,在如何收集、存储和应用用户数据方面,有些数据比其他数据更透明。

这一点尤其重要,因为人工智能在医疗保健领域产生了影响——从医学成像和诊断到记录保存和制药。

需要从近年来陷入隐私丑闻的互联网企业身上吸取教训。

Flo是一款女性健康应用,被监管机构指控在2010年代向脸书和谷歌等公司分享用户的私密信息。

我们该何去何从

人工智能将在未来几年对我们所有人的生活产生不可磨灭的影响。LLM一天比一天好,新的用例不断出现。

然而,随着行业以惊人的速度发展,监管机构将难以跟上,这是一个真正的风险。

这意味着消费者需要开始保护自己的数据并监控数据的使用情况。

去中心化可以在这方面发挥至关重要的作用,防止大量数据落入主要平台手中。

DePIN(去中心化物理基础设施网络)有可能确保日常用户在不损害隐私的情况下体验人工智能的全部好处。

加密提示不仅可以提供更个性化的结果,而且保护隐私的LLM将确保用户在任何时候都能完全控制他们的数据,并防止数据被滥用。


Chris Were是Verida的首席执行官,Verida是一个去中心化、自我主权的数据网络,使个人能够控制自己的数字身份和个人数据。Chris是一位澳大利亚的技术企业家,他花了20多年的时间致力于开发创新的软件解决方案。

 

生成的图像:中途

s_logo
App内打开