LLMs 收藏!大型语言模型大盘点,含源码及Demo地址(附链接)( 三 )


利用该项目,即便是有限的计算资源,也能让使用者针对专有领域支持个性化训练 。例如LLaMA-7B,一张3090耗时 5 个小时即可完成训练,成本大幅降低 。该项目还开放了网页端即刻体验问答服务 () 。的出现和开源使得普通资源可以训练问答、陪伴、写作、翻译、专家领域咨询等各种任务 。目前很多研究者们正在尝试用该项目训练650亿甚至更高参数量的大模型 。
链接:
该项目号称开源的最大规模模型,高达1.5万亿,且是多模态的模型 。其能力域包括自然语言理解、机器翻译、智能问答、情感分析和图文匹配等 。
其开源地址为:
是一个对标GPT-4、支持大型多模态模型训练和评估的框架,由非盈利机构LAION重磅开源发布,其是对的模型的复现 。目前开源的是其基于LLaMA的 -9B模型 。模型在包含交错文本和图像的大规模网络语料库上进行训练,具备上下文少样本学习能力 。实现了原始中提出的相同架构,在一个新的多模态C4数据集的5M样本和LAION-2B的10M样本上训练而来 。
该项目的开源地址:
Baize白泽
该项目提出了一个自动收集对话的方法,让自我对话,批量生成高质量多轮对话数据集,分别收集了5万条左右Quora、和MedQA的高质量问答语料,并已经全部开源 。同时其改进了LLama模型,效果还不错 。白泽同样采用目前低成本的LoRA微调方案,获得白泽-7B、13B 和30B三种不同尺度,以及一个医疗垂直领域的模型 。遗憾的是中文名字起的不错,但目前仍然不支持中文,中文的白泽模型据悉在计划中,未来发布 。
其开源地址:
Koala考拉
基于LLama的平替继续发酵,UC伯克利的伯克利发布了一个可以在消费级GPU上运行的对话模型Koala,参数达到13B 。Koala 的训练数据集包括如下几个部分:数据和开源数据(Open(OIG)、斯坦福模型使用的数据集、 HH、 、 ) 。Koala模型在中使用JAX/Flax实现,用了8 个A100 GPU,完成2轮迭代需要6个小时 。评测效果优于,达到 50%的性能 。
开源地址:
随着斯坦福的出现,一大堆基于LLama的羊驼家族和扩展动物家族开始出现,终于 Face研究人员近期发布了一篇博客:用RLHF训练LLaMA的实践指南 。同时也发布了一个70亿参数的模型—— 。这是一个通过人类反馈强化学习在LLaMA-7B微调而来的