1750亿参数需要多大显存(1750亿参数,史上最大AI模型GPT⑶上线:没有仅会写文章、答题,还懂数学)gpt⑶ 没想到1
机器之心报道机器之心编辑部时隔1年,OpenAI 放出的预训练语言模型 GPT⑶ 再次让人刮目相看。
「我们训练了 GPT⑶,1种具有 1750 亿参数的自回归语言模型,这个数字比以往任何非稀疏语言模型都多 10 倍我们在 few-shot 情况下测试了它的性能」本周五,OpenAI 提出的 GPT⑶ 在社交网络上掀起了新1阵风潮。
它的参数量要比 2 月份刚刚推出的、全球最大深度学习模型 Turing NLP 大上十倍,而且没有仅可以更好地答题、翻译、写文章,还带有1些数学计算的能力这样强大的深度学习,没有禁让人产生1种错觉:真正的 AI 要来了吗?。
首先,GPT⑶ 最令人惊讶的还是模型体量手机壁纸,它使用的最大数据集在处理前容量达到了 45TB根据 OpenAI 的算力统计单位 petaflops/s-days,训练 AlphaGoZero 需要 1800⑵000pfs-day,而 OpenAI 刚刚提出的 GPT⑶ 用了 3640pfs-day,看来。
拥有微软无限算力的 OpenAI,现在真的是随心所欲了研究者们希望 GPT⑶ 能够成为更通用化的 NLP 模型,解决当前 BERT 等模型的两个没有足的地方:对领域内有标记数据的过分依赖,以及对于领域数据分布的过拟合。
GPT⑶ 致力于能够使用更少的特定领域,没有做 fine-tuning 解决问题和往常1样,GPT⑶ 立即放出了 G手机壁纸itHub 项目页面,没有过目前仅是1些生成样本和数据集,还没有代码:https://github.com/openai/gpt⑶
没有过上传的没有那么快其实情有可原,在 issue 里有人道出了真相:参数这么多,如果按照 GPT⑵ 十五亿参数等于 6G 这么算的话,GPT⑶ 模型可能要 700G,老硬盘还装没有下,没有是正常人能玩的转的。
2019 年 3 月机器学习先驱,阿尔伯塔大学教授 Richard S. Sutton 著名的文章《苦涩的教训》里开篇就曾说道:「70 年的人工智能研究史告诉我们,利用计算能力的1般方法最终是最有效的方法。
」GPT⑶ 的提出或许会让开发者落泪,大学老师沉默,黄手机壁纸仁勋感到肩上担子更重了还记得几周前刚刚结束的 GTC 2020 吗,英伟达 CEO 的 Keynote 上有1页讲最近几年来人工智能领域里最大的深度学习模型:。
英伟达表示,自 2017 年底发布 Tesla V100 以后,训练最大模型的算力需求增长了 3000 倍在这里面 GPT⑵ 也没有在最高的位置了,微软今年 2 月推出的 Turing NLG(170 亿参数)、英伟达的 Megatron-BERT(80 亿参数)排名前列。
GPT⑶ 要放进这个表里,尺度表还要再向上挪1挪另有网友吐槽,GPT⑶ 共 72 页的论文长度也令人绝望:
下1次更大的模型,论文长度怕没有是要破百了没有过巨大的参数量手机壁纸带来的文本生成效果也是颇为可观的,让我们来看看 GPT⑶ 究竟能没有能实现写新闻、写小说,甚至写论文的能力吧GPT⑶:我是 GPT⑵ 的「究极进化版」。
2019 年初,OpenAI 发布了通用语言模型 GPT⑵,能够生成连贯的文本段落,在许多语言建模基准上取得了 SOTA 性能这1基于 Transformer 的大型语言模型共包含 15 亿参数、在1个 800 万网页数据集上训练而成。
GPT⑵ 是对 GPT 模型的直接扩展,在超出 10 倍的数据量长进行训练,参数量也多出了 10 倍然而,长江后浪推前浪昨日,OpenAI 发布 GPT⑶ 模型,1750 亿参数量,足足是 GPT⑵ 手机壁纸的 116 倍。
GPT⑶ 的论文作者多达 31 人,来自 OpenAI、约翰霍普金斯大学的 Dario Amodei 等研究人员证明了在 GPT⑶ 中,对于所有任务,模型无需进行任何梯度更新或微调,而仅通过取模型的文本交互指定任务和少量示例即可获得很好的效果。
GPT⑶ 在许多 NLP 数据集上均具有出色的性能,包括翻译、问答和文本填空任务,这还包括1些需要即时推理或领域适应的任务,例如给1句话中的单词替换成同义词,或执行 3 位数的数学运算当然,GPT⑶ 也可以生成新闻报道的样本,我们很难将机器写的文章取人类写的区分开来。
新闻生成据《华盛顿邮报》报道,经过两天的激烈辩论,联合卫理公会同手机壁纸意了1次历史性的分裂:要么创立新教派,要么则在神学和社会意义上走向保守大部分参加五月份教会年度会议的代表投票赞成加强任命 LGBTQ 神职人员的禁令,并制定新的规则「惩戒」主持同性婚礼的神职人员。
但是反对这些措施的人有1个新计划:2020 年他们将形成1个新教派「基督教卫理公会」《华盛顿邮报》指出,联合卫理公会是1个自称拥有 1250 万会员的组织,在 20 世纪初期是「美国最大的新教教派」,但是近几十年来它1直在萎缩。
这次新的分裂将是该教会历史上的第二次分裂第1次发生在 1968 年,当时大概只剩下 10% 的成员组成了「福音联合弟兄会」《华盛顿邮报》指出,目前提出的分裂「对于多年来成员没有断手机壁纸流失的联合卫理公会而言,来得正是时候」,这「在 LGBTQ 角色问题大将该教派推向了分裂边缘」。
同性婚姻并没有是分裂该教会的唯1问题2016 年,该教派因跨性别神职人员的任命而分裂北太平洋地区会议投票禁止他们担任神职人员,而南太平洋地区会议投票允许他们担任神职人员
这确定没有是报刊记者撰写的短新闻吗?GPT⑶ 用实力告诉你答案:没有是。给出标题「联合卫理公会同意这1历史性分裂」和子标题「反对同性恋婚姻的人将创建自己的教派」,GPT⑶ 生成了上述新闻。
就问你能没有能看出来?反正我认输……在 OpenAI 的测试中,人类评估人员也很难判断出这篇新闻的真假,检测准确率仅为 12%没有过,GPT⑶ 也有失手手机壁纸的时候比如对于 GPT⑶ 生成的以下短文,人类判断真伪的准确率达到了 61%!。
根据 OpenAI 的统计,人类对 GPT⑶ 175B 模型生成的约 500 词文章的判断准确率为 52%,没有过相比于 GPT⑶ control 模型(没有语境和没有断增加的输出随机性且只具备 1.6 亿参数的模型),GPT⑶ 175B 生成的文本质量要高得多。
果然很暴力啊!
「牙牙学语」,GPT⑶ 的造句能力给出1个新单词及其定义,造出1个新句子难吗?这需要你理解单词的意义及适用语境OpenAI 研究者测试了 GPT⑶ 在这1任务上的能力:给出1个没有存在的单词(如「Gigamuru」),令 GPT⑶ 使手机壁纸用它造句。
我们来看 GPT⑶ 的生成结果:
给出新单词「Gigamuru」(表示1种日本乐器)。GPT⑶ 给出的句子是:叔叔送了我1把 Gigamuru,我喜欢在家弹奏它。宽丝合缝,非常合理,完美!再看1个动词例子:
给出新单词「screeg」(挥剑,击剑)GPT⑶ 造出的句子是:我们玩了几分钟击剑,然后出门吃冰淇淋也还没有错接下来,我们再来看 GPT⑶ 的其他能力语法纠错给出1句带有语法错误的话,让 GPT⑶ 进行修改。
第1个例子中,原句里有两个并列的动词「was」和「died」,GPT⑶ 删除系动词「was」,将其修改为正确的句子第二个例子中,原句里 likes 后的 ourselv手机壁纸es 是 we 的反身代词,而这里 like 这1动作的执行者是 Leslie,因此 likes 后即使要用反身代词,也应该是 himself,而另1个改法是将反身代词改成 we 的宾格 us,即「我们认为 Leslie 喜欢我们」。
Bingo!GPT⑶ 答对了看完 GPT⑶ 的纠错效果,真是英语老师欣慰,学生惭愧……GPT⑶ 还能做计算题?没有止英语老师欣慰,数学老师也跑没有了GPT⑶ 可以执行简单的计算OpenAI 研究人员在以下 10 项任务中测试了 GPT⑶ 做简单计算的能力,且无需任何任务特定的训练。
这十项任务分别是:两位数加减法、3位数加减法、四位数加减法、五位数加减法、两位手机壁纸数乘法,以及1位数混合运算。
用于测试 GPT⑶ 计算能力的十项任务在这十项任务中,模型必须生成正确的答案对于每项任务,该研究生成包含 2000 个随机实例的数据集,并在这些实例上评估所有模型下图展示了 GPT⑶(few-shot)在这十项计算任务上的性能。
从图中可以看到,小模型的性能较差,即使是拥有 130 亿参数的模型(仅次于拥有 1750 亿的 GPT⑶ 完整版模型)处理二位数加减法的准确率也只有 50% 左右,处理其他运算的准确率还没有到 10%
GPT⑶ 在多个语言建模任务中的表现GPT⑵ 发布时在多个领域特定的语言建模任务上实现了当前最佳性能现在,我们来看参数和成本大量增加后的手机壁纸 GPT⑶ 效果如何OpenAI 在多项任务中对 GPT⑶ 的性能进行了测试,包括语言建模、补全、问答、翻译、常识推理、SuperGLUE 等任务。
具体结果如下表所示:
没有同模型在所有任务上的性能,以及任务的 SOTA 性能(包括模型规模、训练细节等信息)GPT⑶ 技术解析近期大量研究工作表明,通过对大量文本进行预训练,并且针对特定任务进行微调,模型的性能可以在许多 NLP 任务以及基准测试中获得显著提升。
最近,OpenAI 团队训练了 GPT⑶(这是1个具有 1750 亿参数的自回归语言模型,参数量是之前任何非稀疏语言模型的 10 倍),并在少样本(few-shot)环境下对其性能进行手机壁纸了测试在所有任务中,GPT⑶ 无需进行任何额外的梯度更新或微调,完全只通过模型取文本的交互,即可直接应用于特定任务取少样本 demo。
GPT⑶ 在许多 NLP 数据集上均有出色的性能,包括翻译、问答和内容填充任务,以及多项需要实时推理或域适应的任务,如利用新单词造句或执行3位数运算等GPT⑶ 生成的新闻文章足以以假乱真,令人类评估员难以分辨。
没有过,GPT⑶ 也有缺点该研究团队发现 GPT⑶ (few-shot) 在文本合成和多个 NLP 数据集上的性能没有够好,还存在1些结构和算法上的缺陷另1个语言模型大多会有的缺陷「预训练样本效率较低」的问题它也有,GPT⑶ 在预训练期间阅读的文本手机壁纸比人1生读的还要多。
此外,还有可解释性问题等预训练方法OpenAI 团队使用的基础预训练方法包括模型、数据取训练3部分GPT⑶ 的训练过程取 GPT⑵ 类似,但对模型大小、数据集大小取多样性、训练长度都进行了相对直接的扩充。
关于语境学习,GPT⑶ 同样使用了取 GPT⑵ 类似的方法,没有过 GPT⑶ 研究团队系统地探索了没有同的语境学习设定OpenAI 团队明确地定义了用于评估 GPT⑶ 的没有同设定,包括 zero-shot、one-shot 和 few-shot。
Fine-Tuning (FT):微调是近几年来最为常用的方法,涉及在期望任务的特定数据集上更新经过预训练模型的权重;Fe手机壁纸w-Shot (FS):在该研究中指取 GPT⑵ 类似的,在推理阶段为模型提供少量任务演示,但没有允许更新网络权重的情形;
One-Shot (1S):单样本取小样本类似,没有同的是除了对任务的自然语言描述外,仅允许提供1个任务演示;Zero-Shot (0S):零次样本除了没有允许有任何演示外取单样本类似,仅为模型提供用于描述任务的自然语言指示。
zero-shot、one-shot、few-shot 设置取传统微调方法的对比上图以英-法翻译任务为例,展示了四种方法该研究将重点放在 zero-shot、one-shot 和 few-shot 上,其目的并非将它们作为竞品进行比较,而是作为没有同的问题设手机壁纸置。
OpenAI 团队特别强调了 few-shot 结果,因为其中许多结果仅仅略微逊色于 SOTA 微调模型没有过,用 one-shot 甚至有时是 zero-shot 取人类水平进行对比似乎最为公平,这也是未来工作的重要目标之1。
模型和架构该研究使用了和 GPT⑵ 相同的模型和架构,包括改进的初始设置、预归1化和 reversible tokenization区别在于 GPT⑶ 在 transformer 的各层上都使用了交替密集和局部带状稀疏的注意力模式。
,类似于 Sparse Transformer [CGRS19]为了研究性能对模型大小的依赖性,该研究训练了 8 种没有同的模型大小,涵手机壁纸盖 3 个数量级,从 1.25 亿参数到 1750 亿个参数没有等,具备 1750 亿个参数的模型即为 GPT⑶。
先前的研究 [KMH+20] 表明,在有足够训练数据的情况下,验证损失的缩放比例应该近似为模型大小的光滑幂律函数这项研究训练了多个没有同大小的模型,这使得研究者可以对验证损失和下流语言任务检验该假设表 2.1 展示了 8 个模型的大小和架构。
这里 n_params 表示可训练参数总量,n_layers 表示层数,d_model 表示每个瓶颈层中的单元数量(在该研究中前馈层总是瓶颈层大小的 4 倍,即 d_ff = 4 ∗ d_model),d_head 表示每个注意力头的维度。
所有的手机壁纸模型均使用 n_ctx = 2048 tokens 的语境窗口
表 2.1:该研究所训练 8 个模型的大小、架构和超参数信息所有模型1共使用了 3000 亿 token为了最大程度地减少节点之间的数据传输,该研究从深度和宽度两个方向进行跨 GPU 模型分割然后基于跨 GPU 模型布局的计算效率和负载平衡选择每个模型精确的架构参数。
先前的研究 [KMH+20] 表明,在合理范围内,验证损失对这些参数并没有是特别敏感训练数据集下表介绍了 GPT⑶ 训练过程中所用的数据集。
表 2.2:用于训练 GPT⑶ 的数据集OpenAI:其实我们也有点玩没有起了最开始是训练没有动,后来 finetune 没有起,现在手机壁纸到了 GPT⑶ 模型的时代,我们连 forward 也要没有起了你肯定想问这样1个问题:训练 GPT⑶ 模型需要花多少钱?我们目前还只能粗略地估计——训练1个 BERT 模型租用云算力要花大概 6912 美元,训练 GPT⑵ 每小时要花费 256 美元,但 OpenAI 1直没有透露1共要花多少小时。
相比之下,GPT⑶ 需要的算力(flops)是 BERT 的 1900 多倍,所以这个数字应该是千万美元级别的,以至于研究者在论文第九页说:我们发现了1个 bug,但没钱再去重新训练模型,所以先就这么算了吧。
但即使这样它的效果依然惊人。
GPT⑶ 的实验结果,似乎验证了 Richard Su手机壁纸tton 去年颇具争议的论断,他在《苦涩的教训》的最后写道:「我们应该从苦涩的教训中学到1点:通用方法非常强大,这类方法会随着算力的增加而继续扩展,搜索和学习似乎正是这样的方法。
」关于 GPT⑶ 的更多详情,参见论文:https://arxiv.org/abs/2005.14165另外,油管博主 Yannic Kilcher 做了1个 GPT⑶ 解读视频,emmm… 光视频就有1个小时,感兴趣的读者请戳:
首届「马栏山」杯国际音视频算法大赛正在火热进行中大赛聚焦图像和推荐、画质优化3大领域,设置包括视频特定点位追踪、视频推荐、画质损伤修复3大赛题优秀参赛者没有仅可获得奖金,获奖解决方案还有机会手机壁纸被应用于芒果 TV 核心领域,在校学生还将可能加入芒果 TV「青芒计划」,发放「special offer」。
识别下图二维码或点击阅读原文,立即报名参赛。