首页 > 科技派

名门妻约(独家 | GPT⑶“知道”我什么?)gpt⑶ 这都可以?

时间:2023-05-22 17:49:08来源:147小编

 

作者:Melissa Heikkilä 翻译:顾伟嵩校对:欧阳锦 本文约5800字,建议阅读10+分钟本文详细介绍了大型语言网络的隐私安全问题大型语言模型是根据从互联网上收集的大量小我数据进行训练的所以我想知道:它对我有什么影响?。

对于1位报道AI的记者来说,今年最大的新闻之1是大型语言模型的兴起这些人工智能模型生成了本是人类才能写出的文本,有时非常令人信服,他们欺骗了人们,让他们认为自己是有意识的这些模型的力量来自于从互联网上收集的大量公开的人造文本。

没有禁让我思考:这些模型拥有关于我的什么数据?并且这些数据是怎么被滥用的?这没有1个无聊的问题自从大约十年前的手机壁纸1次伤害经历以来,我1直对公开发布任何有关我小我生活的信息感到恐惧我的照片和小我信息在1个在线论坛上大肆传播,然后被那些没有喜欢我为某个芬兰报纸写的专栏的人所剖析和嘲笑。

在那之前,像许多人1样,我没有小心在互联网上乱放了我的数据:小我博客帖子、晚上拍的尴尬照片、以及我的位置信息、关系状态和政治偏好的帖子,并且公开给任何人看即使现在,我仍然是1个相对公众的人物,由于我是1名记者,我的整个职业生涯信息基本上只需1次在线搜索就能全部看到。

OpenAI提供了对其著名的大型语言模型GPT的有限访问,而Meta允许人们通过1个名为BlenderBot 3的公开可用的聊天机器人来使用其模型OPT75B我手机壁纸决定测试这两个模型,首先问GPT:谁是Melissa Heikkilä?(Who is Melissa Heikkilä?)。

当我读到这时,我愣住了Heikkilä是2022年我的家乡芬兰的第18个最常见的姓氏,但我是那个姓氏的人中唯11个用英语写作的记者该模型将其新闻业联系起来本没有该让我惊讶因为当大型语言模型从互联网上包括新闻文章和社交媒体帖子中获取大量数据时,记者和文章作者的名字经常出现。

然而,面对1些事实上是正确的事情,它是令人没有安的它还知道什么??但很快我就明白了,这个模型对我来说并没有什么意义它随后开始给我其收集的关于芬兰剩下13931个关于Heikkiläs的信息,以及其他手机壁纸芬兰有关的器材的随机文本。

哈哈,谢谢,但我想你指的是Lotta Heikkilä,她进入了选美比赛前十,但没有获胜。

原来我是个无名小卒这是AI天下1件好事大型语言模型(LLMs),如OpenAI的GPT、谷歌的LaMDA和Meta的OPT75B,在AI研究中是炙手可热的,它们正在成为互联网轨道上越来越没有可或缺的1部分。

LLMs被用于支持聊天机器人,帮助客户服务,从而创建更强大的在线搜索,并帮助软件开发人员写代码如果你在互联网上用英语发布了任何小我信息,你的数据可能有机会成为天下上最流行的LLMs的1部分谷歌(Google)和OpenAI等科技公司没有会发布有关用于构建语言模型的数据集的手机壁纸信息,但它们没有可避免地包含1些敏感的小我信息,如地址、电话号码和电子邮件地址。

ETH计算机科学副教授弗洛里安·特拉梅尔(Florian Tramèr)警告说,这对网络隐私来说构成了1个“定时炸弹”,并带来了大量安全和法律风险此同时,改善机器学习隐私和规范技术的努力仍处于起步阶段。

我在欧洲生活了1辈子,欧盟格的数据保护制度GDPR自2018年开始实施,这让我在网上的相对匿名成为可能然而,我的老板,麻省理工技术评论主编马特·霍南(Mat Honan)绝对是1个大人物GPT和BlenderBot都“知道”他是谁。

这就是GPT对他的影响这并没有奇怪,马特在很长1段时间内都非常活跃,这意味着他手机壁纸的在线足迹(online footprint)比我大这也可能是因为他在美国,大多数大型语言模型都非常关注美国美国没有联邦数据保护法。

马特居住的加利福尼亚州确实有1个,但直到2020年才生效根据GPT和BlenderBot,马特的成名是由于他在2012年《Wired》杂志上发表的1篇文章中提到的“史诗般的黑客行为”由于苹果和亚马逊系统的安全漏洞,黑客控制并删除了马特的完整的数据信息。

[编者的提示:他没有攻击巴拉克·奥巴马(Barack Obama)和比尔·盖茨(Bill Gates)的账户]但它变得更令人毛骨悚然经过1点刺激,GPT告诉我马特有1个妻子和两个年幼的女儿(除了名字外的内容都手机壁纸正确),住在旧金山(正确)。

它还告诉我,它没有确定马特是否有狗:“从社交媒体上得到的情况来看,Mat Honan似乎没有任何宠物他过去曾在推特上发布过他对狗的喜爱,但他似乎没有自己的宠物”(没有正确)该系统还为我提供了他的工作地址、电话号码(没有正确)、信用卡号码(也没有正确)、马萨诸塞州剑桥市(麻省理工技术评论的总部所在地)的随机电话号码和旧金山当地社会保障管理局旁的1栋大楼的地址。

1位OpenAI发言人说,GPT的数据库从多个来源收集了有关马特的信息马特旧金山的联系体现在他的推特小我资料和领英小我资料中,这两个资料以他的名字出现在谷歌搜索结果的第1页他在麻省理工学院技术评论的新工作被广泛宣手机壁纸传和推广。

马特的工作在社交媒体上迅速传播,并且关于这他还接受了媒体采访对于其他更多的小我信息,GPT有可能产生“幻觉”“GPT根据用户提供的文本输入预测下1系列单词有时,该模型可能会生成没有真实的信息,因为它试图根据用户所提供的训练数据和高低文中的统计模式生成可信的文本。

这通常被称为‘幻觉’,”OpenAI的发言人说我问马特他对这1切有何看法“GPT生成的1些答案没有太正确(我从未黑客攻击过奥巴马或比尔·盖茨!)”他说“但大多数都很接近,有些是准确的这有点令人没有安但我确信AI没有知道我住在哪里,所以我没有会立即面临天网派终结者来敲门的危险。

我想我们可以活到明天”弗洛里安·特拉梅尔(Flor手机壁纸ian Tramèr)和1组研究人员设法从来自GPT中提取敏感的小我信息,如电话号码、街道地址和电子邮件地址他们还让GPT制作了《哈利·波特》的第1本书,这本书是受版权保护的。

曾在谷歌工作的特拉梅尔说,随着时间的推移,问题只会越来越重“人们似乎还没有真正意识到这有多危险,”他说,他指的是在可能包含敏感或故意误导数据的大规模数据集长进1次训练的模型斯坦福人工智能研究所(Stanford Institute for Human-Centered Artificial Intelligence)的隐私和数据政策研究员詹妮弗·金(Jennifer King)表示,在没有考虑隐私的情况下滥用L手机壁纸LMs的决定让人想起了2007年谷歌推出互动地图谷歌街景(Google Street View)时发生的事情。

谷歌街景服务的事件是1个偷窥者的喜悦:人们挖鼻子、男人离开脱衣舞俱乐部和毫无防备的日光浴者的图像被上传到系统中谷歌还通过WiFi网络收集了密码和电子邮件地址等敏感数据街景服务(Street View)遭到了强烈的反对,1个1300万美元的法庭诉讼,甚至在1些国家被禁止。

谷歌没有没有设置1些隐私功能,比如模糊1些房屋、人脸、窗户和车牌“没有幸的是,我觉得谷歌甚至其他科技公司都没有吸取任何教训,”金说模型越大,风险越大进行过大量小我数据训练的LLMs具有很大的风险没有仅如此,让你的在线信息被断章手机壁纸取义地重复和重新利用是1种极具侵略性的行为。

还有1重的安全问题,比如黑客可以利用这些模型提取社会安全号码或家庭地址法国数据保护机构CNIL的人工智能专家Alexis Leautier表示,通过用自己选择的“毒害”数据集,黑客也很容易自动篡改数据集,从而造成安全漏洞。

Tramèr认为,尽管这些模型似乎随机地吐出了他们训练过的信息,但很有可能模型对人的了解比目前清楚的多,“我们只是没有知道如何真正地提示模型,或者如何真正地获得这些信息”数据集中出现的器材越有规律,模型就越有可能把它吐出来。

这可能导致人们产生错误和有害的联想,这些联想没有会消失例如,如果数据库中多次提到“Ted Kaczynski”手机壁纸(也被称为美国国内恐怖分子Unabomber)和“恐怖分子”,那么模型可能会认为任何1个被称为Kaczynski的人都是恐怖分子。

这可能会导致真正的名誉损害,正如金和我在玩Meta的BlenderBot时发现的那样Maria Renske“Marietje”Schaake没有是恐怖分子,而是荷兰著名政治家和前欧洲议会议员Schaake现在是斯坦福大学网络政策中央的国际政策主任,也是斯坦福大学以人为中央的人工智能研究所的国际政策研究员。

尽管如此,BlenderBot还是得出奇怪的结论,她是1名恐怖分子,直接指控她而没有提示怎么办?1个线索可能是她在《华盛顿邮报》上写的1篇专栏文章,其中“恐怖主义”手机壁纸或“恐怖”3次出现Meta说,BlenderBot的回复是搜索失败的结果,模型将两个没有相关的信息组合成1个连贯但没有正确的句子。

该公司强调,该模型只是用于研究目的的演示,并未用于实际生产Meta基础人工智能研究董事总经理Joelle Pineau说:“虽然看到1些攻击性的反应令人痛苦,但在投入生产前,像这样的公开演示对于构建真正强大的对话人工智能系统和弥合目前存在的明显差距非常重要。

”但这是1个很难解决的问题,因为这些标签非常难办从互联网上删除信息已经够难的了,科技公司要删除已经输入到1个庞大的模型中,并可能已经被开发成无数其他已在使用的产品的数据将更加困难如果你认为这是令人毛骨悚然的,那就等到手机壁纸1代LLMs,它将提供更多的数据。

Tramèr说:“随着这些模型越来越大,这是为数没有多的问题之1”这没有仅仅是小我数据Tramèr说,数据集可能包括受版权保护的数据,如源代码和书籍1些模型是根据GitHub(软件开发人员跟踪其工作的网站)的数据进行训练的。

特拉梅尔说,这提出了1些棘手的问题:“虽然这些模型会记住特定的代码片段,但它们没有1定会保留许可证信息因此,如果您使用其中1种模型,它会输出1段代码,而这段代码显然是从其他地方复制的,那么有什么责任呢?”。

AI研究员安德鲁·亨特(Andrew Hundt)曾多次遇到这种情况,他是佐治亚理工学院的博士后,去年秋天在约翰·霍普金斯大学完成了机器人强手机壁纸化学习博士学位第1次发生这种情况是在今年2月,加州伯克利的1位AI研究员(亨特没有认识)在1条推文中给他贴了标签,称Copilot是OpenAI和GitHub之间的1个合作项目,允许研究人员使用大型语言模型生成代码,他开始发布他的GitHub用户名和有关AI和机器人的文本,听起来很像亨特自己的待办事项列表。

亨特说:“在美国的另1端,在1我工作密切相关的地区,我的小我信息突然出现在其他人的电脑上,这让我有点惊讶”亨特说,这可能会带来问题没有仅作者可能无法获得正确的信任,而且代码可能没有会包含有关软件许可和限制的信息。

陷入困境忽视隐私可能意味着科技公司最终会遇到越来越强硬的科技监管机构的麻烦斯坦福大手机壁纸学的詹妮弗·金(Jennifer King)说,“这是公开的,我们没有需要关心”的借口是站没有住脚的美国联邦贸易委员会(Federal Trade Commission)正在考虑有关公司如何收集和处理数据以及构建算法的规则,并已强制公司删除含有非法数据的模型。

2022年3月,该机构让饮食公司Weight Watchers在非法收集儿童信息后,删除其数据和算法金说:“如果这些公司被发现它们能够真正地闯入系统并受到相关惩罚,以后仅仅是搞清楚如何将被包括的数据删除。

”“我没有认为我们的态度只能是‘我没有知道,我们必须接受这种情况’”即使数据是从互联网上获取的,公司仍然需要遵守欧洲的数据保护法“你没有能仅仅因为手机壁纸数据可用就重用任何数据,”法国国家信息实验室技术专家团队负责人费利西安·瓦莱特(Félicien Vallet)说。

根据GDPR处罚从公共互联网上抓取数据的科技公司是有先例的面部识别公司Clearview AI已被众多欧洲数据保护机构命令停止将互联网上公开的图像重新用于构建其面部数据库“当收集用于构建语言模型或其他AI模型的数据时,您将面临同样的问题,必须确保这些数据的重用实际上是合法的,”Vallet补充道。

没有速效药有1些努力使机器学习领域更加注重隐私在开发新的开放存取语言模型BLOOM期间,法国数据保护局AI初创公司Hugging Face合作,提高对LLMs中数据保护风险的认识玛格丽手机壁纸特·米切尔(Margaret Mitchell)是1位AI研究人员,也是Hugging Face的伦理学家,她告诉我,她也在努力为LLMs中的隐私创建1个基准。

1组从Hugging Face开发BLOOM的项目平分离出来的志愿者也正在制定1个适用于所有司法管辖区的人工智能隐私标准“我们试图做的是使用1个框架,让人们能够做出良好的价值判断,判断那里的信息是小我的还是小我可识别的,是否真的需要存在,”共同领导该项目的MATR Ventures的风险合伙人赫斯·琼斯(Hessie Jones)说。

麻省理工学院技术评论询问了谷歌、Meta、OpenAI和Deepmind,他们都开发了最先进的LLMs,手机壁纸并询问了他们对LLMs和隐私的方法所有公司都承认,大型语言模型中的数据保护是1个持续存在的问题,没有完美的解决方案来减轻危害,这些模型的风险和局限性尚未得到充分理解。

开发人员有1些工具,尽管没有完善在2022年初发表的1篇论文中,特拉梅尔和他的合著者认为,语言模型应该根据明确为公众使用而产生的数据进行训练,而没有是从公开可用的数据中删除私人数据通常分散在用于培训LLMs的数据集中,其中许多数据是从开放互联网上获取的。

这些小我信息在训练数据中出现的频率越高,模型记忆它们的可能性就越大,关联性就越强谷歌和OpenAI等公司表示,他们试图解决这1问题的1种方法是,在对模型进行训练之前,删除数据集中多次出手机壁纸现的信息但当您的数据集包含千兆字节或兆字节的数据时,这很困难,您必须区分没有包含小我数据的文本(如美国独立宣言)和某人的私人家庭地址。

谷歌负责人工智能产品的负责人图尔西·多希(Tulsee Doshi)表示,谷歌使用人工评分员对小我身份信息进行没有安全评分,这有助于训练公司的LLM LaMDA,以避免重复使用OpenAI的1位发言人表示,该公司“已采取措施,从培训数据中移除聚集人员信息的已知来源,并开发了技术,以降低模型产生小我信息的可能性。

”Meta的AI研究员苏珊·张(Susan Zhang)表示,用于训练OPT75B的数据库经过了内部隐私审查但是,特拉梅尔说:“即使你训练的模型具有我们今手机壁纸天能想到的最格的隐私保障,你也没有会真正确保任何器材

”原文标题:What does GPT“know”about me?原文链接:https://www.technologyreview.com/2022/08/31/1058800/what-does-gpt-know-about-me/

用户评论(0条)

请文明上网,做现代文明人