介绍
- 书生·浦语大模型实战营旨在提供大模型开发和应用技能的学习,帮助学员掌握相关技能,从而获得丰富经验。
- 大模型在学术界和工业界都备受关注,尤其是自ChatGPT发布后,成为研究的热门方向。
- 公司如OpenAI也投入了持续的研究力量,从GPT1到GPT3,甚至发布ChatGPT后,受到广泛关注。
大模型的重要性
- 大模型是发展通用人工智能的重要途径,AI研究逐渐从专用模型转向通用模型。
- 在过去的几十年里,专用模型解决特定任务,但近年来趋势是采用一个模型解决多种任务和模态。
- 模型如ChatGPT涵盖多种任务,从文本到情感识别、QA等,甚至模态从语言扩展到视觉,提高了模型的通用性。
上海人工智能实验室的工作
- 上海人工程实验室致力于大语言模型的研究和开源工作。
- 发布了InternLM的千亿参数预训练模型,并在世界人工智能大会上对其进行升级。
- 同时推出了InternLM-7B的全面开源、免费商用的大模型,并升级了工具链,提供不同大小的模型系列。
模型性能和应用
- InternLM-20B模型在综合学科考试、阅读理解、推理编程等方面表现出色,性能优异。
- 但将大模型应用于实际场景并不简单,需要一系列工作和工具的辅助。
- 典型应用包括智能客服、个人助手以及一些行业应用,但需填补模型和最终应用之间的差距。
模型应用的步骤
- 模型选型:根据模型的能力和业务场景需求进行评估和选择。
- 业务场景评估:评估业务场景复杂度,可能需要模型微调或构建智能体。
- 模型微调:根据需求微调模型,可能需要全参数微调或部分参数微调。
- 业务应用试用:模型在业务场景中试用,并进行评测。
- 模型部署:解决模型部署的问题,提升应用吞吐量。
书生·浦语全链条开源体系
模型部署与评测工具
- LMDeploy: 开源的部署工具,支持全链路部署流程,在性能方面领先。
- OpenCompass: 开源评测工具,为大模型研发提供全方位的评测能力,提供公开的性能排行榜。
- 应用层开源项目:
- Legend & Agent Lego: 提供轻量级智能体搭建框架和丰富的大模型工具箱。
- 书生·浦语开放体系:
数据集和预训练工具
- 数据集和工具: 提供开放数据平台,支持浏览、下载和智能标注。
- InterLM-Train: 高可拓展的预训练工具,支持不同规格的语言模型训练,具备极致性能优化和兼容性。
- 微调框架 X Tuner: 适配多种生态,包括微调算法和硬件兼容性,实现在8GB显存下进行7B模型的微调。
大规模语言模型评测体系
- 评测体系概述: 介绍国内外评测体系的现状,提出了 Open Compass 开源评测体系,提供全面评测维度和工具支持。
- 现有评测体系不足: 目前的评测体系无法全面满足大规模语言模型的发展需求。
- OpenCompass 特点: 全球领先的开源评测体系,六大维度,80+数据集,40万+评测题目。
不同评测体系对比
- 各评测体系对比: 分析主观和客观评测集的特点,如HELM、MMLU、FlagEval、CLUE、Hugging Face等。
- OpenCompass的全面性: 提供丰富的模型支持、不同能力的评测方法和工具,支持多种数据集和算法优化。
模型评测与分布式支持
- OpenCompass提供了全方位模型评测支持,包括各种商用API和大型模型的评估。
- 分布式评测能力使其能够对参数规模庞大的模型进行多数据集、大规模评测。
- 支持用户快速添加自定义数据集,方便针对特定模型能力或评测研究的需求。
- 每周更新大型模型的能力榜单,吸引了国内外企业和科研机构使用。
模型部署优化
- 大型语言模型的特点包括巨大的内存开销和自回归方式,带来推理挑战。
- 为了解决部署挑战,需要考虑内存管理、加速token生成、动态shape等问题。
- LMDeploy是一个高效的推理框架,提供全流程解决方案,包括模型轻量化和服务模块。
- 提供静态和动态推理性能的评估,展示LMDeploy在吞吐和实时场景中的优势。
智能体应用与智能体框架
- 大型语言模型具有局限性,智能体框架用于利用这些模型驱动更复杂应用。
- 智能体框架涉及规划、推理和执行等步骤,支持不同类型的智能体能力和调用流程。
- Legent是一个轻量级智能体框架,支持定制化的智能体流程实现。
- AgentLego聚焦于为大型模型提供工具集,作为可调用的工具集合。