LLMs 收藏！大型语言模型大盘点，含源码及Demo地址（附链接）( 三 ) _lora

利用该项目，即便是有限的计算资源，也能让使用者针对专有领域支持个性化训练。例如LLaMA-7B，一张3090耗时 5 个小时即可完成训练，成本大幅降低。该项目还开放了网页端即刻体验问答服务 () 。的出现和开源使得普通资源可以训练问答、陪伴、写作、翻译、专家领域咨询等各种任务。目前很多研究者们正在尝试用该项目训练650亿甚至更高参数量的大模型。
链接：
该项目号称开源的最大规模模型，高达1.5万亿，且是多模态的模型。其能力域包括自然语言理解、机器翻译、智能问答、情感分析和图文匹配等。
其开源地址为：
是一个对标GPT-4、支持大型多模态模型训练和评估的框架，由非盈利机构LAION重磅开源发布，其是对的模型的复现。目前开源的是其基于LLaMA的 -9B模型。模型在包含交错文本和图像的大规模网络语料库上进行训练，具备上下文少样本学习能力。实现了原始中提出的相同架构，在一个新的多模态C4数据集的5M样本和LAION-2B的10M样本上训练而来。
该项目的开源地址：
Baize白泽
该项目提出了一个自动收集对话的方法，让自我对话，批量生成高质量多轮对话数据集，分别收集了5万条左右Quora、和MedQA的高质量问答语料，并已经全部开源。同时其改进了LLama模型，效果还不错。白泽同样采用目前低成本的LoRA微调方案，获得白泽-7B、13B 和30B三种不同尺度，以及一个医疗垂直领域的模型。遗憾的是中文名字起的不错，但目前仍然不支持中文，中文的白泽模型据悉在计划中，未来发布。
其开源地址：
Koala考拉
基于LLama的平替继续发酵，UC伯克利的伯克利发布了一个可以在消费级GPU上运行的对话模型Koala，参数达到13B 。Koala 的训练数据集包括如下几个部分：数据和开源数据（Open(OIG)、斯坦福模型使用的数据集、 HH、、）。Koala模型在中使用JAX/Flax实现，用了8 个A100 GPU，完成2轮迭代需要6个小时。评测效果优于，达到 50%的性能。
开源地址：
随着斯坦福的出现，一大堆基于LLama的羊驼家族和扩展动物家族开始出现，终于 Face研究人员近期发布了一篇博客：用RLHF训练LLaMA的实践指南。同时也发布了一个70亿参数的模型—— 。这是一个通过人类反馈强化学习在LLaMA-7B微调而来的