大语言模型中的涌现现象是不是伪科学?-世界快播
Datawhale干货作者:平凡@知乎,诺桑比亚大学,在读博士今天晚上,花了一点儿时间看了两篇文章:《Emergent
Datawhale干货
作者:平凡@知乎,诺桑比亚大学,在读博士
今天晚上,花了一点儿时间看了两篇文章:
(资料图片仅供参考)
《Emergent Abilities of Large Language Models》[1]
《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]
这两篇讲的都是emergent behavior,即涌现现象。
大规模神经网络下的涌现现象在机器学习中使用大规模神经网络时,由于增加了参数数量、训练数据或训练步骤等因素,出现了定性上的新能力和性质,这些能力和性质在小规模神经网络中往往是不存在的。
第一篇文章举了这个例子,每个图都可以理解为一个任务,横轴是神经网络的规模,而纵轴是准确率,可以理解为模型的性能。
我们拿图一来看,在10的22次方前,这些模型基本上的性能基本上都很稳定在0附近,而在10的22以后,突然在10的24次方上获得了很大的性能提升,在其他的几个任务上都表现出类似的特征。
意想不到的效果第二篇文章更是有趣,我直接把推特一位博主的评论引用在这里:
作者发现,当我们训练用网络计算同余加法 a+b = ? (mod c) 时,网络在某个时间突然获得了 100% 准确率。分析发现,神经网络实际上“顿悟”了使用傅立叶变换来计算同余加法!这个算法可以证明是正确的, 反人类直觉的。
从这俩例子里面我的感受是,只要数据量足够且真实,且模型没有硬错误的前提下,不断的训练说不定真的能够产生一些意想不到的效果。
还有就是我觉得人类现在积累的知识并不少,但是系统的少,零星的多,如果类似ChatGPT这样的大模型可以拿所有的人类已有知识进行不断学习的话,我觉得有很大概率会让它涌现出意想不到的能力。
甚至可能把人类的生产力解放提前很多。
参考
1.https://arxiv.org/pdf/2206.07682.pdf2.https://arxiv.org/pdf/2301.05217.pdf关键词:
[ 相关文章 ]
Datawhale干货作者:平凡@知乎,诺桑比亚大学,在读博士今天晚上,花了一点儿时间看了两篇文章:《Emergent
活动现场。4月18日,“‘益企行动·点亮星空’湖南省专精特新企业数字化转型峰会”在长沙成功举行,政府
2023年4月17日,第38届陶博会暨Farsight方向黑金之夜主题活动
大众将携手多家企业,打造印尼电动汽车电池生态系统印尼拥有世界上最大的镍储量,该国一直在努力发展镍金属
四川成都灵活就业人员社保缴费档次表2022-2023养老保险缴费档次如何选好?社保网小编介绍成都灵活就业社保
暗魔领主武器怎么觉醒暗魔领主武器觉醒方法介绍,
生猪价格处于低位,后期走势如何?国家发改委回应
格隆汇4月19日丨有投资者通过上证E互动向东威科技提问,“1 根据贵公司发布的年报显示,2022年垂直连续电镀
中国能源新闻网是由国家能源局主管,中国电力报社、中电传媒股份有限公司主办,国务院新闻办公室批准成立的
北京通州妇幼保健院HPV疫苗什么时间接种2023年4月18日通州区妇幼保健院成人疫苗接种门诊正式开诊。每周二、
04:444月18日,2023年一季度经济“成绩单”出炉。GDP同比增长4 5%,比2022年四季度环比增长2 2%;规
国光股份(002749)04月19日在投资者关系平台上答复了投资者关心的问题。
三星电子凭借旗舰产品GalaxyS23的强劲销售,在第一季度(1-3月)重新夺回了全球智能手机市场的第一名。
4月18日,省教育资源保障中心副主任仝志贤巡视我市中招理化生实验操作考试,市教育局党组成员、副局长高伟
搜狐娱乐讯天眼查App显示,4月17日,《口袋妖怪复刻》出品方深圳市阿斯卡德信息技术有限公司新增一则被执行
今天来聊聊关于4399账号修改密码失败,4399账号修改密码的文章,现在就为大家来简单介绍下4399账号修改密码
根据报道,苹果还在为这款头显开发健身应用Fitness+版本,可以让用户在VR中边看教练边锻炼,头显还支持Pag
4月18日,工人在河北省承德市隆化县一化肥生产企业装运化肥。近期,化肥企业加紧生产,保障农资供应,助力
煤炭行业必须加快向生产智能化、管理数字化、煤炭利用清洁化、低碳化转变,煤炭行业转型升级与高质量发展要
河南经济报记者杨磊通讯员尚阿敏为持续推动金融消费者知识普及工作,构建良好的金融环境。近日,睢县联社在
[ 相关新闻 ]
Copyright 2015-2022 欧洲医院网 版权所有 备案号:沪ICP备2022005074号-23 联系邮箱: 58 55 97 3@qq.com