2023年大模型千帆竞发,除此外AI领域还有哪些新突破?
来来来,畅销书《Python机器学习》作者Sebastian Raschka的年末总结已经准备好了。
看完才知道:
RLHF今年虽然爆火,但实打实用到的模型并不多,现在还出现了替代方案,有望从开源界“出圈”;
大模型透明度越来越低,透明度最高的是Llama 2,但得分也仅有54;
开源模型下一步不一定是“更大”,混合专家模型(MoE)可能是个突破点。
……
除了大语言模型,Sebastian Raschka还根据CVPR 2023打包了计算机视觉进展,最后还讲到了AI当前的一些局限性、以及对2024年的技术预测。
走过路过的网友们纷纷表示总结得很到位:
下面我们一起来看看这份年度总结里都有啥。
今年,大模型领域似乎没有出现实质性的创新技术,更多是基于去年的扩展:
但学界业界依旧忙得热火朝天,一些新趋势、新内容总结如下——
首先,是业界研究者在论文中公开的研究细节越来越少。
OpenAI此前在GPT-1、GPT-2、GPT-3、InstructGPT的论文中,还详尽披露了模型架构和训练过程;
但从GPT-4开始,OpenAI完全不提构建过程。
唯一不知真假的GPT-4架构信息,来源于坊间传闻:
GPT-4是由16个子模块构成的混合专家(MoE)模型,每个子模块拥有高达1110亿参数……
Meta亦是如此,在第一篇Llama论文中详细阐述了训练数据集,但Llama 2完全没提相关内容。
即便如此,Llama 2已经是一众大模型中最公开的了。斯坦福大学最近发布了一项关于大模型透明度指数的研究,Llama 2得分54,透明度排第一,GPT-4得分48,排第三。
虽然模型细节算是公司商业机密,但Sebastian Raschka认为这种趋势还是值得关注,因为它似乎会在2024持续。
今年大语言模型的另一个趋势是扩展输入的上下文长度。
此前GPT-4上下文长度还是32k时,竞品Claude 2就将上下文推进到100k tokens,且支持PDF文件输入。
随后GPT-4大更新,新版本GPT-4 Turbo刷新上下文长度纪录,已支持128k tokens。
一些编程工具,如GitHub Copilot,也在不断增加上下文窗口长度。