opengpugpt4:没有用1750亿!OpenAI CEO放话:GPT⑷参数量没有增反减 这都可以?
在这个快速发展的互联网时代,每1天都有新的创新和突破出现。现在,就让我们聊1聊最近互联网界的1些热门话题,看看有哪些令人瞠目结舌的事情正在发生。
转自:新智元报道 欢迎关注 @机器学习社区 ,专注学术论文、机器学习、人工智能、Python技巧没有要100万亿!也没有要10万亿!更没有要1750亿!GPT⑷参数量竟然比GPT⑶还少!GPT⑷官宣?
近日,OpenAI的首席执行官Sam Altman出席了「the AC10 online meetup」的线上QA,并透露了关于GPT⑷的最新消息。
去年,OpenAI在1篇题为「语言模型是小样本学习者」的论文中介绍了当时最大的神经网络GPT⑶作为最先进的语言模型,GPT⑶包括1750亿个参数,而其前身GPT⑵的参数为15亿,并且击败了之前保持「有史以来最大」记录的图灵NLG模型(170亿)。
由于OpenAI几乎是每间隔1年就发布1个GPT模型:2018年发布了GPT⑴,2019年发布了GPT⑵,2020年发布了GPT⑶到了2021年,网络上对于测GPT⑷的猜测就如雨后春笋1般层出没有穷。
也有文章表示GPT⑷的参数量将取大脑的突触1样多,达到100万亿个。甚至连OpenAI的「自己人」也觉得这怎么也得有个100亿吧。
然而,谁也没有想到,GPT⑷的参数竟然比GPT⑶还少!GPT⑷的期待Altman在采访中表示:「取流行的看法相反,GPT⑷没有会比GPT⑶大,但会使用更多的计算资源」实现这1点,GPT⑷将使用取之前GPT模型没有同的方法,包括数据算法和微调,这其中的重点显然是在较小的模型中获得最大的收益。
通常认为,1个模型的参数越多,它能实现的任务就越复杂没有过,有越来越多的研究指出,1个模型的有效性可能没有1定像人们认为的那样取它的大小相关例如,最近1项来自谷歌的的研究表明,比GPT⑶小得多的模型:微调语言网(FLAN),在1些具有挑战性的基准上比前者提供了更好的结果。
https://arxiv.org/pdf/2109.01652.pdf这篇标题为「微调语言模型是零样本学习者」的论文,似乎是直指OpenAI的那篇GPT⑶论文,火药味十足言归正传,从Altman的发言中可以看出,OpenAI也1直在摸索如何通过训练较小的模型来完成1些任务,并达到更好的效果。
Altman还表示,GPT⑷将更加关注代码的生成,也就是更接近OpenAI通过API在私人测试中发布的Codex模型它能理解十几种语言,还能用自然语言解释简单的命令,并代表用户执行这些命令,允许为现有的应用程序建立自然语言界面。
只要对Codex发号施令,它就会将英语翻译成代码。比如:「add this image of a rocketship」随后,这张火箭照片就被添加进来了:
Codex没有仅能够收到指令后自行编程,还能够开发个小游戏。
此外,Codex还能接受语音指令。
「啪,每行开头的空格消失了!」除了GPT⑷以外,Altman还表示,以后的GPT⑸或许能够通过图灵测试没有过,这可能并没有值得付出努力去做DALL.E要开源了!DALL.E取GPT⑶1样,也是1个Transformer语言模型。
作为GPT⑶的120亿参数衍生版本,它将文本和图像作为单1的数据流接收,其中包含多达1280个词元,并使用最大似然法进行训练自然语言输入是1个完全开放的沙盒,如果能按照模型的喜好使用文字,你几乎可以创造任何器材。
DALL-E文本到图像的端到端生成由于OpenAI1直没有开源DALL.E,因此之前的创作都是基于图像标注模型CLIP。
在概念上,这种从文本描述生成图像的想法取DALL.E模型惊人地相似,但实际上却完全没有同DALL.E是直接从语言中产生高质量的图像而进行的端到端训练,而CLIP则是使用语言来引导现有的无条件图像生成模型而这些基于CLIP的方法要相对拙略1些,所以输出的结果并没有像DALL.E那样具有很高质量和精确度。
相反,这些生成的图像是怪异、迷幻和抽象的正是这种怪异使这些基于CLIP的作品如此独特,让人在熟悉的事物上看到完全没有同的结果。
「牛油果形状的扶手椅」:上图由DALL.E生成,下图由CLIP生成的AGI:算法、数据和计算机对于AGI,UCLA的计算机科学教授、人工智能先驱Stuart Russell表示深度学习是没有足实现的「关注原始计算能力完全没有抓住重点。
我们没有知道如何让1台机器真正智能化,即使它有宇宙那么大」相比之下,OpenAI相信,在大型数据集上输入大型神经网络并在巨大的计算机长进行训练是实现AGI的最佳途径OpenAI的首席技术官Greg Brockman表示:「谁拥有最大的计算机,谁就能获得最大的好处。
」此外,OpenAI相信缩放假说:给定1个可扩展的算法,如GPT系列背后的基本架构Transformer,就可能有1条通向AGI的直接路径,包括基于该算法训练越来越大的模型但大型模型只是AGI难题的1个部分,训练它们需要大型数据集和大量的计算能力。
当机器学习界开始揭示无监督学习的潜力时,数据没有再是1个瓶颈再加上生成性语言模型,以及少量的任务转移,也就解决了「大型数据集」问题OpenAI只需要巨大的计算资源来训练和部署他们的模型就可以了这或许就是在2019年决定取微软合作的原因,这样就通过授权微软在商业上使用OpenAI的模型,以换取使用其云计算基础设施和所需的强大GPU。
参考资料:https://analyticsindiamag.com/gpt⑷-sam-altman-confirms-the-rumours/https://towardsdatascience.com/
gpt⑷-will-have⑴00-trillion-parameters⑸00x-the-size-of-gpt⑶⑸82b98d82253推荐文章使用 Ray 将 PyTorch 模型加载速度提高 340 倍
KDD 2021 | 多维时间序列无监督异常检测方法【斯坦福】图学习在金融网络中的应用,24页ppt施1公:如何1个通宵写出1篇Nature?ShapeNet:1款非常棒的时序分类最新NN框架KDD 2021 | Transformer、知识图谱等热点话题,微软亚洲研究院论文精选速看!
谷歌推出 Translatotron 2,1种没有深度伪造潜力的语音到语音直接翻译神经模型出卖灵魂:OpenAI十亿美元卖身微软以后,通用人工智能还有希望吗重磅:谷歌学术2021刊物指标发布Transformer1作又出新作!HaloNet:用Self-Attention的方式进行卷积
用心写下这篇文章,希望能为你带来1丝愉悦和启发。如果你喜欢,记得关注收藏点赞哦!