环球微动态丨GPT现状终于有人讲清楚了!还得是马斯克钦点的天才
继Windows Copilot发布后,微软Build大会热度又被一场演讲引爆。
前特斯拉AI总监Andrej Karpathy在演讲中认为思维树(tree of thoughts)与AlphaGo的蒙特卡洛树搜索(MCTS)有异曲同工之妙!
(资料图片仅供参考)
网友高呼:这是关于如何使用大语言模型和GPT-4模型的最详尽有趣的指南!
此外Karpathy透露,由于训练和数据的扩展,LLAMA 65B“明显比GPT-3 175B更强大”,并介绍了大模型匿名竞技场ChatBot Arena:
Claude得分介于ChatGPT 3.5和ChatGPT 4之间。
网友表示,Karpathy的演讲一向很棒,而这次的内容也一如既往没有令大家失望。
随着演讲而爆火的,还有推特网友根据演讲整理的一份笔记,足足有31条,目前转赞量已超过3000+:
所以,这段备受关注的演讲,具体提到了哪些内容呢?
如何训练GPT助手?
Karpathy这次的演讲主要分为两个部分。
第一部分,他讲了如何训练一个“GPT助手”。
Karpathy主要讲述了AI助手的四个训练阶段:预训练(pre-training)、监督微调(supervised fine tuning)、奖励建模(reward modeling)和强化学习(reinforcement learning)。
每一个阶段都需要一个数据集。
在预训练阶段,需要动用大量的计算资源,收集大量的数据集。在大量无监督的数据集上训练出一个基础模型。
Karpathy用了更多例子作补充:
接下来进入微调阶段。
使用较小的有监督数据集,通过监督学习对这个基础模型进行微调,就能创建一个能够回答问题的助手模型。
他还展示了一些模型的进化过程,相信很多人之前已经看过上面这张“进化树”的图了。
Karpathy认为目前最好的开源模型是Meta的LLaMA系列(因为OpenAI没有开源任何关于GPT-4的内容)。
在这里需要明确指出的是,基础模型不是助手模型。
虽然基础模型可以回答问题,但它所给出的回答并不可靠,可用于回答问题的是助手模型。在基础模型上进行训练的助手模型,通过监督微调,在生成回复和理解文本结构方面的表现将优于基础模型。
在训练语言模型时,强化学习是另一个关键的过程。
通过用人工标记的高质量的数据进行训练,可以使用奖励建模来创建一个损失函数,以改善其性能。然后,通过增加正向的标记,并降低负面标记的概率,来进行强化训练。
而在具有创造性的任务中,利用人类的判断力对于改进AI模型至关重要,加入人类的反馈可以更有效地训练模型。
经过人类反馈的强化学习后,就可以得到一个RLHF模型了。
模型训练好了,接下来就是如何有效利用这些模型解决问题了。
如何更好地使用模型?
在第二部分,Karpathy主要讨论了提示策略、微调、快速发展的工具生态系统以及未来的扩展等问题。
Karpathy又给出了具体示例来说明:
当我们在写文章时候,我们会进行很多的心理活动,需要考虑自己的表述是否正确。而对于GPT来说,这只是一个序列标记(a sequence of tokens)。
而提示(prompt)可以弥补这种认知差异。
Karpathy进一步解释了思维链提示的工作方式。
对于推理问题,要想让自然语言处理中Transformer的表现更好,需要让它一步一步地处理信息,而不能直接抛给它一个非常复杂的问题。
如果你给它几个例子,它会模仿这个例子的模版,最终生成的结果会更好。
模型只能按照它的序列来回答问题,如果它生成的内容是错误的,你可以进行提示,让它重新生成。
如果你不要求它检查,它自己是不会检查的。
这就涉及到了System1和System2的问题。
诺贝尔经济学奖得主丹尼尔卡尼曼在《思考快与慢》中提出,人的认知系统包含System1和System2两个子系统。System1主要靠直觉,而System2是逻辑分析系统。
通俗来说,System1是一个快速自动生成的过程,而System2是经过深思熟虑的部分。
这在最近一篇挺火的论文“Tree of thought”(思维树)中也有被提及。
深思熟虑指的是,不是简单的给出问题的答案,而更像是与Python胶水代码一起使用的prompt,将许多prompt串联在一起。模型必须要维护多个提示,还必须要执行一些树搜索算法,来找出要扩展的提示。
Karpathy认为这种思路与AlphaGo非常相似:
AlphaGo在下围棋时,需要考虑下一枚棋子下在哪里。最初它是靠模仿人类来学习的。
但除此之外,它还进行了蒙特卡洛树搜索,可以得到具有多种可能性的策略。它可以对多种可能的下法进行评估,仅保留那些较好的策略。我认为这在某种程度上相当于AlphaGo。
对此,Karpathy还提到了AutoGPT:
我认为目前它的效果还不是很好,我不建议大家进行实际应用。我只是认为,随着时间的推移,我们或许可以从它的发展思路中汲取灵感。
其次,还有一个小妙招是检索增强生成(retrieval agumented generation)和有效提示。
窗口上下文的内容就是transformers在运行时的记忆(working memory),如果你可以将与任务相关的信息加入到上下文中,那么它的表现就会非常好,因为它可以立即访问这些信息。
简而言之,就是可以为相关数据建立索引让模型可以高效访问。
如果Transformers也有可参考的主要文件,它的表现会更好。
最后,Karpathy简单讲了一下在大语言模型中的约束提示(Constraint prompting)和微调。可以通过约束提示和微调来改进大语言模型。约束提示在大语言模型的输出中强制执行模板,而微调则调整模型的权重以提高性能。
我建议在低风险的应用中使用大语言模型,始终将它们与人工监督相结合,将它们看作是灵感和建议的来源,考虑copilots而不是让它们完全自主代理。
关于Andrej Karpathy
Andrej Karpathy博士毕业后的第一份工作,是在OpenAI研究计算机视觉。
后来OpenAI联合创始人之一的马斯克看上了Karpathy,把人挖到了特斯拉。但也因为这件事,马斯克和OpenAI彻底闹翻,最后还被踢出局。在特斯拉,Karpathy是Autopilot、FSD等项目的负责人。
今年二月份,在离开特斯拉7个月后,Karpathy再次加入了OpenAI。
最近他发推特表示,目前对开源大语言模型生态系统的发展饶有兴趣,有点像早期寒武纪爆发的迹象。
传送门:
[1]https://www.youtube.com/watch?v=xO73EUwSegU(演讲视频)
[2]https://arxiv.org/pdf/2305.10601.pdf(“Treeof thought”论文)
标签:
推荐
- 环球微动态丨GPT现状终于有人讲清楚了!还得是马斯克钦点的天才
- 环球最资讯丨淋巴疾病超声诊断(关于淋巴疾病超声诊断介绍)
- 【天天速看料】ppt如何插入音乐自动播放_ppt如何插入音乐
- 今日最新!天津外国语大学滨海外事学院宿舍限电_天津外国语大学滨海外事学院宿舍
- 民生银行北京分行第二季吉尼斯世界纪录挑战活动圆满收官|世界热消息
- 纯电家族第二款产品,售价或超21万,smart精灵#3将于6月1日上市 天天日报
- 天天微资讯!深圳南山、大鹏两宗城市更新地块规划调整
- 热点评!云南青年设计师何佐作品荣获缪斯设计金奖
- 西班牙欧赛斯眼周肽登陆《生活真美好》,与孙怡&关芯一起畅享美好「新」生活!
- 前沿热点:韩亚航空发生舱门打开事故后,这些座位被禁售
- 东方美谷核心区结产研硕果,科技小巨人成行业领头羊
- 当前时讯:中国星辰 | 神十六乘组迎来“新成员” 面临新挑战
- 世界球精选!毕业作品展风采
- 焦点热议:国贸期货29日早盘提示,短期贵金属市场仍需关注债务协议投票期间的扰动
- 传联想、浪潮等停购美光
- 兰亭序歌词网名_兰亭序歌词|全球即时
- 德国Sport1的记者Patrick Berge...
- 交易员在美国达成债务上限协议后料将双手拥抱风险较高的资产 全球热消息
- 猪锁骨汤怎么熬最好喝?
- 房屋改造设计师怎么找(房子设计师怎么找)
- 冯子存是我国著名的什么演奏家琵琶_冯子存是我国著名的什么演奏家 天天热文
- 全球热门:05后小花原创诗歌向秦淮“告白”!首届“昌明杯”南京中学生征文活动圆满收官
- 环球今日报丨亲子陪伴应坚持儿童友好的四大法则
- 中行网银usbkey数字安全证书下载文鼎创_中行网银usbkey数字安全证书下载
- 当前播报:右眼皮一直跳是什么原因吃什么药_右眼皮一直跳是什么原因
- 魔兽世界怀旧服猎人天赋推荐(魔兽世界8 15猎人天赋)
- 环球今亮点!上林县气象台发布雷电黄色预警信号【III级/较重】【2023-05-28】
- 中信证券:短期猪价或仍处低位震荡行情
- 卍解怎么读卍解 卍解怎么读-今日视点
- 碳氢(关于碳氢介绍)-环球观焦点
- 把你的名字写在烟上吸进肺里原唱 把你的名字写在烟上吸进肺里 天天新消息
- 全球热文:宇旭
- 世界观察:蛇獴 蛇湖边上很危险紫色内衣美女被蟒蛇吞到一小半还有救吗
- 使用寿命长达25年 亿晶光电重磅新品发布!10GW TOPCon电池投产在即 成长性高居行业第一|焦点精选
- 龙源期刊网论文查询入口_龙源网官网论文查询
- 理响中国 | 从浅蓝到深蓝 海洋牧场助力向海而兴|聚看点
- 全球热门:心里美的歇后语(心里美怎么凉拌好吃)
- 国信证券: 重磅车型G6值得期待 维持小鹏汽车-W(09868)买入评级|播报
- 阿荣旗气象台发布大风蓝色预警【IV级/一般】【2023-05-27】_全球独家
- 世界快看点丨大兴安岭地区气象台发布大风蓝色预警【IV级/一般】【2023-05-27】
- 国米vs亚特兰大首发:卢卡库搭档劳塔罗,恰20、B罗先发 天天快资讯
- 俄国防部:美国以和平任务为幌子从后苏联空间收集病原微生物
- 云和梯田文化旅游宣传口号 征集活动结果揭晓
- 给“荔”!给力!给力!
- 热门看点:第三届山东省科技兴农奖表彰大会举办
- 园艺珍珠岩是干什么的_园艺珍珠岩用途_天天信息
- 一季度狂亏23亿,摊大饼“绊倒”小鹏
- 北京最差公办专科院校排名 北京专科学校排名,北京专科学校有哪些?
- 昌吉吉木萨尔县属于哪个市_吉木萨尔县属于哪个是哪个区-微头条
- 强势回应长城汽车举报 比亚迪底气在哪?|天天视讯
- 环球热门:雷雨、冰雹!武汉、鄂州、黄冈、黄石发布天气预警
- 科技赋能助夏管 智慧农业保丰收-环球快资讯
- 【世界新视野】“帮帮我,我走投无路了。”厦门警方:开展抓捕!
- 高考期间,这76条公交线路淄博考生可免费乘坐-全球关注
- 4月林肯销量怎么样? 众车网权威发布(2023年)
- 当前热文:梁建章:我国家庭养育1个孩子的成本是人均GDP的6.9倍
- 信用卡逾期协商公司靠谱吗?网贷逾期协商还款技巧有哪些
- 中欧聚瑞债券A基金经理变动:增聘周锦程为基金经理_当前速讯
- 快乐8第23137期森伯预测:五码精选 全球热消息
- 无双大蛇2_关于无双大蛇2介绍
- 福建举办“文旅法治 与你同行”普法宣传活动
- 边关明月照亮万家灯火——读长篇小说《边关明月》
- 三部门:拟将15个城市确定为第三批系统化全域推进海绵城市建设示范城市 全球新动态
- 朱亚文个人简介_和潘禹彤为什么分手 世界头条
- 货值金额近70万元,北京多部门联合突查违规电动三、四轮车|资讯推荐
- 河南出现教辅试卷照紫光灯才能看清字,工作人员回应:防盗版,正版赠送紫光灯和电池,部分题目照灯才能看清|天天观察
- 南师大菁林园校区地址_南师大菁林园
- 不吃晚饭好吗英语_不吃晚饭好吗-世界观热点
- 每日热闻!江苏昆山:三地联动 “亭桥鹤”再聚首
- 世界热讯:价格又要变!就在下周二
- 环球观点:郑煤机跌7.05% 机构净卖出2.01亿元
- 季后赛至今平均观看人数达到557.9万 创造了近11年来最高
- 万马股份:5月24日接受机构调研,华西证券、中航基金等多家机构参与|焦点关注
- 多阵性降水+37℃高温!未来几天,海南这些地区小心强对流-观天下
- 绿城桂花城二手房出售_绿城桂花城-最新
- 当前热点-朗玛信息(300288)5月26日主力资金净买入4243.70万元
- 全球滚动:注册一级建造师含金量(一级建造师含金量如何)
- 世界快消息!5月26日山东地区MTBE生产企业报价下调
- 焦点信息:搭载芯片绝了!华擎iBox-N97无风扇迷你电脑发布
- 分手的歌词 分手的歌 当前热闻
- 焦点热议:慧泊停车追踪:为购买车位经营权,向银行贷款20亿元
- 环球今头条!塞尔达传说王国之泪恋爱教室任务挑战视频攻略
- 全球百事通!拉萨市邮政管理局开展“教群众网购”志愿活动
- 天天看点:乡村的麦田
- 1972 年阿尔法罗密欧 GTV 2000 是我们今天的拍卖精选
- 世界观焦点:图片报道2
- 环球观察:马斯克最新深度采访:我一年只休三天,7000字聊透九大热点
- 世界讯息:天风证券:人工智能快速发展有望催生定制化SoC市场
- 全球实时:炙手可热是贬义词吗(炙手可热)2023年05月25日更新
- 证券股和银行股哪个好_银行股哪个好
- 全球今日讯!南方医科大学专科春季招生吗_南方医科大学专科
- 热资讯!谢霆锋二儿子唱歌视频完整版_谢霆锋
- 世界最资讯丨樱桃红了,农民笑了~岱岳区夏张镇朱家庄村:一颗“小樱桃”带动乡村“大产业”
- 世界视讯!中国的别称有哪些四个_中国的别称有哪些
- 观察:中国游泳队公布参加福冈世锦赛名单
- 1l水等于多少kg 1l等于多少kg_每日视讯
- 陈梦/王艺迪击败伊藤美诚/早田希娜,晋级女双四强 动态焦点
- 多动症有哪些症状视频(多动症有哪些症状) 天天热点
- 一朵月季86瓣!北京街头这些花很特别,你发现了吗?
- 天天简讯:你知道12306上可以直接买汽车票吗?怎么操作?
X 关闭
行业规章
X 关闭