微软的生成式AI战略似乎出现了180度大转变:相比大模型,小模型才是微软的真爱。
在Ignite 2023上,微软董事长兼首席执行官Nadella在主题演讲中表示:“微软喜欢小模型(SLM)”,并宣布了名为Phi-2的Phi小型语言模型(SLM)系列的最新迭代。
Nadella表示,这款由微软研究部在高度专业化的数据集上开发的Phi-2,可以与150倍大的模型相媲美。
重要的是,许多企业伙伴也认为如此,他们认为与大型语言模型(LLM)相比,较小的模型对企业更有用。
今年早些时候,除了发布Phi和Phi 1.5,微软还发布了Ocra,这是一个基于Vicuna的130亿参数的开源模型,可以模仿和学习GPT-4大小的LLM。
今年,6 月,微软发布了一篇题为《Textbooks Are All You Need》的论文,用规模仅为 7B token 的「教科书质量」数据训练了一个 1.3B 参数的模型 ——Phi-1。尽管在数据集和模型大小方面比竞品模型小几个数量级,但 phi-1 在 HumanEval 的 pass@1 上达到了 50.6% 的准确率,在 MBPP 上达到了 55.5%。
Phi-1 证明高质量的「小数据」能够让模型具备良好的性能。9月,微软又发表了论文《Textbooks Are All You Need II: phi-1.5 technical report》,对高质量「小数据」的潜力做了进一步研究。Phi-1.5 的架构与 phi-1 完全相同,有 24 层,上下文长度为 2048,实验结果显示,对于语言理解任务,在多个数据集(包括 PIQA、Hellaswag、OpenbookQA、SQUAD 和 MMLU)上,Phi-1.5 的性能可以媲美 5 倍大的模型,甚至在在更复杂的推理任务(例如小学数学和基础编码任务)上 Phi-1.5 还超越了大多数 LLM,以至于人们开始质疑该模型是不是用了测试集来训练。
图片
据微软官网介绍,Phi-2是一款具有27亿参数的Transformer,与Phi-1-5相比,它在推理能力和安全措施方面有了显著改进,与常识、语言理解和逻辑推理等基准测试参数相比,表现出了最先进的性能。
与行业中的其他Transformer相比,它体积更轻更小。通过正确的微调和定制,这些小模型对于云和边缘应用程序来说都是非常强大的工具。
在过去一年左右的时间里,大模型吸引了全球的注意力,从GPT3.5、GPT-4、PaLM-2到Falcon和LLaMA等开源模型。然而,种种迹象表明,小模型如今越来越受到重视。
首先,当Meta发布LLaMA时,它有四种变体——70亿、130亿、330亿和650亿,至少在某种意义上预示着小模型的发展。它促使人们认识到,参数较少的小型模型可以表现得令人钦佩。
如今微软公开表示“喜欢”小模型,更是佐证了这一趋势。
考虑到LLM的训练成本高昂,这是采用LLM的主要障碍之一。与GPT-3.5和GPT-4相比,较小的型号显著节省了成本。LLaMA 2有三种变体——70亿、130亿和700亿——生成段落摘要的费用大约是GPT-4的30倍,同时保持了同等的准确性。较小的模型不仅具有成本效益,而且在准确性方面也很出色。与在庞大多样的数据集上训练的大型模型不同,小型模型专注于根据特定业务用例量身定制的经过仔细审查的数据,以确保准确性和相关性。