|
|
MOSS大模型负责人邱锡鹏:大模型不仅仅是工程问题 |
|
·“很多人认为大模型是工程问题,但事实上并不是。大模型里存在很多app问题,比如智能涌现、复杂推理、知识融合以及学习策略等等。”
·“大模型的平民化”,即最终要让应用大模型的每个人都觉得成本可以接受,包括微调、预训练、推理部署。
复旦大学计算机app技术学院教授、MOSS大模型负责人邱锡鹏在外滩大会见解论坛。
“现在的大模型比较耗资源,但总体而言它的资源消耗都集中在预训练阶段。除了算力需求大之外,很多人认为大模型是工程问题,但事实上并不是。大模型里存在很多app问题,比如智能涌现、复杂推理、知识融合以及学习策略等等。”
9月7日,复旦大学计算机app技术学院教授、MOSS大模型负责人邱锡鹏在外滩大会见解论坛“大语言模型消除人机鸿沟:人类主体性是强化还是弱化”上发表主旨演讲,演讲题目为“大型语言模型的app挑战”。
“自然语言处理已经进入大模型时代。由早期的专家系统到深度学习,再到现在参数量上千亿或万亿的大模型,总体上进入参数量和训练数据都大规模发展的状态。但这些千亿模型或百亿模型不是最近才出现的,可能两年前就有了。”邱锡鹏说。
这自然引出一个疑问,为什么两年前不叫大模型?
邱锡鹏解释道,之所以现在叫“大模型”,关键因素在于其内涵和使用方式发生了变化。以前是把一个语言模型作为基座,运用到不同任务中,每个任务要微调(fine tuning)一个自己的模型。而现在大语言模型有了新的内涵,即一个模型能够解决所有问题。
在ChatGPT出现后,大语言模型变得更加流行,邱锡鹏认为这是因为其泛化能力非常好,只需要少量学习人类的一些指令,就能够泛化到很多其他的、甚至没有见过的指令上,“这就是大语言模型带来的涌现效应。”
据邱锡鹏介绍,现在做大模型研发有3个非常重要的准则,也叫“HHH准则”。
第一是有用性(Helpful),“我们跟GPT-4还是有非常大的差异,虽然都可以用来完成日常的对话聊天,但这个差异在于能不能用其完成非常复杂的任务。这是非常重要的一点。”邱锡鹏说。
其次是诚实性(Honest),邱锡鹏解释道,也就是说大模型知道的要说,不知道的不说,这就涉及到现在广泛提及的“幻觉”问题(指模型生成不正确、无意义或不真实的文本),这也是非常难,非常有挑战性的问题。
第三是无害性(Harmless),“因为语言模型在训练时见过非常多的数据,其中包含好的与不好的,要让它对齐(alignment,使系统的目标和人类价值观一致),不要产生具有冒犯性、歧视性、有害的内容。”邱锡鹏表示,“这3个准则就是新的时代我们做大语言模型时主要考虑的3个目标。不过这3个是比较宽泛的原则,具体又可以细化出非常多的研究点。”
今年2月20日晚,邱锡鹏领导的团队发布国内首个类ChatGPT的对话式大型语言模型MOSS,邀请公众参与内测,一经发布就引起极高参与热情。
在论坛上,邱锡鹏也谈到MOSS的发布,“它是国内第一个发布的类ChatGPT模型,我们也是最早提出开源的插件增强版本,比OpenAI的发布都更早。”邱锡鹏的团队当时意识到,语言模型不只是用来对话,最重要的是它作为使用工具和外部世界相连接时对人的赋能。“我们现在也在不断提高,会有些更新的结果,在原来的能力基础上取得大幅提升。”
邱锡鹏所提及的正在进行的工作,一个值得注意的方向是“大模型的平民化”,即最终要让应用大模型的每个人都觉得成本可以接受,包括微调、预训练、推理部署。“像现在买一台英伟达A100服务器的成本,不是所有单位都能方便采用的,非常重要的就是如何去低成本优化这些模型”。
邱锡鹏也提到一些具体方法,如高效的参数微调方法,“但这些方法都有一定缺陷,总体上来讲调的参数量越小,模型能力就会越差。”能不能参数量不变,但把成本降下来?
邱锡鹏团队提出一个名为LOMO的优化器,将它称为低内存的优化。它可以做到什么程度呢?“比如一个非常大的,如650亿参数的开源模型,全量微调原来需要10台8卡的英伟达A100,那现在用一台8卡的英伟达RTX3090就可以微调它了。这样的话成本就会非常低,并且是全量参数,微调并没有损失它的性能,这样没有太多资源的人也都可以去优化这些大模型。”
“最近OpenAI的一位创始人公布了他们的整个流程,包括大概的花费。在整个大模型的训练阶段,可以看到第一阶段需要高算力,但在其他阶段的算力投入并不是很大,这里面有非常多的研究空间。之前大家总以为做大模型就需要买好多张显卡,确实需要一定的卡,但不是需要特别多。如果细分到后面的几个步骤,可能就需要几十张卡,几周时间就可以完成。”邱锡鹏表示。
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。