2023年大模型千帆竞发，除此外AI领域还有哪些新突破？

来来来，畅销书《Python机器学习》作者Sebastian Raschka的年末总结已经准备好了。

看完才知道：

RLHF今年虽然爆火，但实打实用到的模型并不多，现在还出现了替代方案，有望从开源界“出圈”；

大模型透明度越来越低，透明度最高的是Llama 2，但得分也仅有54；

开源模型下一步不一定是“更大”，混合专家模型（MoE）可能是个突破点。

……

除了大语言模型，Sebastian Raschka还根据CVPR 2023打包了计算机视觉进展，最后还讲到了AI当前的一些局限性、以及对2024年的技术预测。

走过路过的网友们纷纷表示总结得很到位：

△机器翻译，仅供参考

下面我们一起来看看这份年度总结里都有啥。

2023 AI爆点：大语言模型

今年，大模型领域似乎没有出现实质性的创新技术，更多是基于去年的扩展：

但学界业界依旧忙得热火朝天，一些新趋势、新内容总结如下——

首先，是业界研究者在论文中公开的研究细节越来越少。

OpenAI此前在GPT-1、GPT-2、GPT-3、InstructGPT的论文中，还详尽披露了模型架构和训练过程；

但从GPT-4开始，OpenAI完全不提构建过程。

唯一不知真假的GPT-4架构信息，来源于坊间传闻：

GPT-4是由16个子模块构成的混合专家（MoE）模型，每个子模块拥有高达1110亿参数……

Meta亦是如此，在第一篇Llama论文中详细阐述了训练数据集，但Llama 2完全没提相关内容。

即便如此，Llama 2已经是一众大模型中最公开的了。斯坦福大学最近发布了一项关于大模型透明度指数的研究，Llama 2得分54，透明度排第一，GPT-4得分48，排第三。

虽然模型细节算是公司商业机密，但Sebastian Raschka认为这种趋势还是值得关注，因为它似乎会在2024持续。

今年大语言模型的另一个趋势是扩展输入的上下文长度。

此前GPT-4上下文长度还是32k时，竞品Claude 2就将上下文推进到100k tokens，且支持PDF文件输入。

随后GPT-4大更新，新版本GPT-4 Turbo刷新上下文长度纪录，已支持128k tokens。

一些编程工具，如GitHub Copilot，也在不断增加上下文窗口长度。