FLM 系列大模型
FLM 是北京智源人工智能研究院认知模型团队(Cofe-AI) 联合清华大学、中科院计算所、南洋理工大学和电子科技大学等单位共同研制的语言大模型。项目目标是研制低成本的全面开源、效果优秀的大模型。FLM 系列目前已经演化到第二代 FLM-2 (Tele-FLM)。
1. Tele-FLM (aka FLM-2)
Tele-FLM(aka FLM-2),是智源和电信联合研发的全球首个低碳、高性能的开源多语言大模型,4月27日在中关村论坛年会未来人工智能先锋论坛上正式发布。FLM 系列大模型解决了大模型超参敏感、成本极高的关键问题,实现大模型训练零调整,是全球首个实现了低碳预训练的大模型。Tele-FLM 在基础模型评测中取得了领先的效果,BPB loss 指标在英文上优于Llama2-70B和 Llama3-8B,在中文上优于Qwen1.5-72B;对话模型 Tele-FLM-Chat 性能已经超过GPT-3.5。为促进大模型社区的发展,Tele-FLM 的模型权重、核心技术和训练细节等已全面开源。
- 技术报告: https://arxiv.org/abs/2404.16645
- 模型参数: https://huggingface.co/CofeAI/Tele-FLM
- 核心技术-生长技术: https://github.com/cofe-ai/MSG
- 核心技术-损失预测: https://github.com/cofe-ai/Mu-scaling
2. FLM-101B
FLM-101B 继承了FreeLM 的语言结构,并采用了生长策略(Growth Strategy,算法名称为MSG)将成本降低了超过70%,同时采用损失预测技术确定最优超参。FLM-101B 是一重要里程碑,其不仅确定了各个子技术的可行性,更在系统层面上将其成功实现。关于FLM-101B 和 MSG的关系,我们认为是 GPT-3 和 Transformer的关系,不是简单的扩大规模,而是一种系统层面的首次成功实现。
详细资料可参考知乎专栏-FLM-101B: 如何用10万美元预算训练一个千亿模型
3. FreeLM
FreeLM 为第0代,其目标为确定将相关的知识学习阶段融合到语言模型训练阶段的可行性验证。
详细资料可参考知乎专栏-大模型训练新范式:免微调生成式语言大模型
4. 大模型研发理念
关于大模型研发。团队的理念是:
- 系统能力和科研能力缺一不可。
- 没有系统能力,就无法研发大模型,否则无法控制成本。
- 没有科研能力,只能亦步亦趋,在大模型领跑者选择闭源的情况下,无法进一步突破。
欢迎系统能力和科研能力都强的研究者联系我!