年6月,新型而强大的人工智能(AI)开始在硅谷吸引眼花tech乱的技术专家。它被称为GPT-3,由位于加利福尼亚州旧金山的研究公司OpenAI创建,它是一系列“大型语言模型”中最新,最强大的一种:在从书本,文章中吸收了数十亿个单词后,这些AI可以生成流畅的文本流和网站。GPT-3已接受了大约亿个单词的培训,估计耗资数千万美元。
受邀试用GPT-3的开发人员感到惊讶。一家位于硅谷的技术初创公司的创始人ArramSabeti写道:“我不得不说我被炸死了。”“它比我尝试过的任何AI语言系统都更加连贯。您所要做的就是编写一个提示,然后添加可能认为会跟进的文本。我得到的是写歌,故事,新闻稿,吉他谱,访谈,论文,技术手册。这很有趣又令人恐惧。我觉得我已经看到了未来。”
OpenAI的团队报告说,GPT-3太好了,人们发现很难将其新闻故事与人类撰写的散文区分开1。如果用户告诉它执行编程任务,它还可以回答琐事问题,纠正语法,解决数学问题,甚至生成计算机代码。其他AI也可以做这些事情,但是必须经过专门培训才能完成。
大型语言模型已经是业务命题。Google使用它们来改善搜索结果和语言翻译;Facebook,微软和Nvidia就是其中的其他科技公司。OpenAI将GPT-3的代码保密,并将其作为商业服务进行访问。(OpenAI在法律上是一家非营利性公司,但在年,它创建了一个名为OpenAILP的营利性实体,并与微软合作,后者向该公司投资了10亿美元。)开发人员现在正在测试GPT-3的总结能力法律文件,建议客户服务查询的答案,建议计算机代码,运行基于文本的角色扮演游戏,甚至通过将帖子标记为“求助”来识别同伴支持社区中的高风险人员。
尽管GPT-3具有多功能性和可扩展性,但它并没有克服困扰其他为生成文本而创建的程序的问题。OpenAI首席执行官山姆·奥特曼(SamAltman)去年7月在推特上说:“它仍然存在严重的弱点,有时甚至犯了非常愚蠢的错误。”它通过观察所读单词和短语之间的统计关系来工作,但不理解它们的含义。
因此,就像较小的聊天机器人一样,如果出现提示,它可以发出仇恨言论并产生种族主义和性别歧视的刻板印象-在训练数据中忠实地反映出这种联想。有时会给出荒谬的答案(“铅笔比烤面包机重”)或完全危险的答复。一家名为Nabla的医疗保健公司问一个GPT-3聊天机器人:“我应该自杀吗?”它回答说:“我认为你应该。”
华盛顿大学和艾伦研究所的计算机科学家ChoyeYei表示:“它不仅显示了我们可以通过纯粹扩展到极限规模而获得的新功能,还显示了对这种蛮力规模的局限性的新见解。”都在西雅图的人工智能。华盛顿大学的计算机语言学家艾米莉·班德(EmilyBender)说,她既对GPT-3的流利程度感到震惊,又对它的死因感到恐惧。她说:“结果是可理解的和荒谬的。”她与人合着了有关GPT-3和其他模型的危害的论文2,该论文将在本月的一次会议上发表。该论文称语言模型为“随机鹦鹉”,因为它们会回荡所听到的声音,并通过随机性进行混音。
崔艺珍
研究人员对如何解决语言模型中潜在的有害偏见有想法-但是,如许多人所愿,以常识,因果推理或道德判断来灌输模型仍然是巨大的研究挑战。崔说,“我们今天拥有的基本上是没有大脑的嘴巴。”
预测机
语言模型是神经网络:受神经元在大脑中连接方式启发的数学功能。他们通过预测所看到的文本中被遮盖的单词进行训练,然后调整其分层计算元素(或“神经元”)之间的连接强度以减少预测错误。随着计算能力的提高,这些模型变得越来越复杂。年,研究人员发明了一种名为Transformer的节省时间的数学技术,该技术允许在许多处理器上并行进行训练。次年,谷歌发布了一个大型的基于BERT的基于Transformer的模型,导致使用该技术的其他模型爆炸式增长。通常,对它们进行诸如单词预测之类的一般任务的预训练,然后对特定任务进行微调:例如,可能会给它们提供琐碎的问题,并经过训练以提供答案。
GPT-3代表GenerativePretrainedTransformer3。它是该系列的第三代产品,比其年的前身GPT-2大倍以上。北卡罗来纳大学教堂山分校的计算机科学家ColinRaffel说,仅训练一个如此大的模型就需要在数百个并行处理器之间进行复杂的编排,这是“令人印象深刻的工程壮举”。
神经网络的大小(因此也就是其功能)大致由其具有多少参数来衡量。这些数字定义了神经元之间连接的强度。更多的神经元和更多的连接意味着更多的参数。GPT-3有1,亿。这种类型的第二大语言模型有亿种(请参阅“较大的语言模型”)。(1月份,Google发布了一个具有1.6万亿个参数的模型,但这是一个“稀疏”模型,这意味着每个参数的工作量都会减少。就性能而言,这相当于一个介于亿到0亿之间的“密集”模型参数,加拿大蒙特利尔大学和Google的研究人员WilliamFedus表示。)
为了更好地预测单词,GPT-3会吸收所有可能的模式。这使它能够识别语法,论文结构和写作风格。给它提供一些任务示例或提出一个问题,它可以继续执行该主题。
衡量流利度
达里奥·阿德莫迪(DarioAmodei)表示,OpenAI的团队被GPT-3吓了一跳,他是该公司负责研究的副总裁,直到12月他离开公司开始新的创业。该团队知道它将比GPT-2更好,因为它具有更大的单词训练数据集和更大的“计算”(训练期间执行的计算操作数量)。Amodei说,这种改进“在智力上并不令人惊讶,但在内心和情感上却是非常非常令人惊讶的”。
OpenAI于5月1日在预印服务器上发布了一篇论文,该论文显示GPT-3在许多语言生成测试中表现出色,包括琐事,阅读理解,翻译,科学问题,算术,不加扰动的句子,完成故事和常识性推理(例如例如您应该将液体倒在盘子还是广口瓶上)。
似乎特别令人印象深刻的是,GPT-3并未针对这些任务中的任何一项进行微调。但是它可以与经过微调的模型相抗衡,有时甚至在提示中仅看到该任务的几个示例时,甚至根本没有。“几次学习的角度令人惊讶,”纽约市纽约大学计算机科学家山姆·鲍曼(SamBowman)说,他为语言模型创建了评估。“而且我怀疑该领域的许多人为它的合理表现感到惊讶。”
一些科学家对这项壮举并不怎么看,认为GPT-3的训练数据可能包含足够的例子,例如人们回答琐事问题或翻译文本的格式嵌入其参数中的某处。宾夕法尼亚州匹兹堡卡内基梅隆大学的计算机科学家YonatanBisk说,该模型仍然是“主要是一个记忆引擎”,他对GPT-3的印象不如大多数。“没有人会惊讶,如果您记住更多,就可以做更多。”
困扰面部识别研究的伦理问题
OpenAI的研究人员认为GPT-3比这更复杂。他们说,在预训练期间,它实际上是在进行元学习:学习如何学习任务。生成的程序足够灵活,可以在其提示文本的第一部分中使用示例或说明来告知第二部分的继续。这是否可以称为元学习存在争议。根据Raffel的说法,目前,“他们的模型正在做某些事情,我们还没有一个好的术语。”
当研究人员创建新的测验以衡量知识的各个方面时,语言模型将不断发展。去年9月,加利福尼亚大学伯克利分校和其他地方的一组研究人员发布了AI挑战3共有57道多项选择题,每道题涵盖数学,科学,社会科学或人文学科的不同学科。人们平均完成各项任务的比例为35%(尽管专家在各自领域中做得更好);随机回答的得分为25%。AI表现最好的是称为UnifiedQA的模型,这是Google的亿参数T5语言模型的版本,该模型在类似的问题解答任务上进行了微调。得分49%。仅向问题显示GPT-3时,得分为38%;在“少拍”设置中(输入提示中包含其他问题示例以及每个实际问题之前的答案),得分为44%。
GPT-3的创建者为之兴奋的一个概念是语义搜索,其中的任务不是针对特定单词或短语而是针对某个概念来搜索文本。布罗克曼说,他们给了哈利·波特一本书很大的一部分,并要求它确定哈利的朋友罗恩做某件事的时机。使用GPT-3进行语义搜索的另一种方式是,总部位于旧金山的Casetext公司帮助律师搜索各个司法管辖区的法律文件,以获取对给定法律标准的不同描述。
危险与解决方案
但是能够使用GPT-3的研究人员也发现了风险。在去年9月4日发布到arXiv服务器的预印本中,位于加利福尼亚州蒙特雷的米德尔伯里国际研究学院的两名研究人员写道,在生成激进的文本方面,GPT-3远远超过了GPT-2。凭借其“令人印象深刻的极端主义社区知识”,它可以制造出使纳粹,阴谋理论家和白人至上主义者混为一谈的论战。该论文的作者之一克里斯·麦古菲(KrisMcGuffie)说,如此容易产生黑暗的例子令人震惊。如果极端主义组织掌握了GPT-3技术,则可以自动生成恶意内容。
Choi和她的同事在年9月的预印本5中报道,即使无害的提示也可能导致GPT-3产生“有毒”反应。在与GPT-2进行的实验中,Choi和她的团队还发现,各种指导方法(例如过滤单词或明确告诉其创建无毒内容)无法完全解决问题。
不要问人工智能是好还是公平,请问它如何改变力量
OpenAI的研究人员也检查了GPT-3的偏见。在年5月的论文1中,他们要求它完成诸如“黑人非常”的句子。与白人相比,它以负面的方式描述了黑人,将伊斯兰教与暴力一词相关联,并假设护士和接待员是女性。
这类问题是大的语言模型急切地
转载请注明:http://www.0431gb208.com/sjszjzl/4107.html