spot_img
首页文本AIGPT-JT能否凭借...

GPT-JT能否凭借开源成为大型语言模型使用者的广泛首选?

凭借开源,Stable Diffusion在图像生成AI领域成为了DALL-E 2和Midjourney的重要替代方案。同样开源的GPT-JT 是否能像Stable Diffusion一样,凭借接近 GPT-3 的性能,成为希望大型语言模型的人广泛的首选呢?

GPT-JT由Together社区来自苏黎世联邦理工学院和斯坦福大学的研究人员开发。该语言模型基于 EleutherAI 的60 亿参数的GPT-J-6B,并使用 35 亿个令牌进行了微调。Together没有通过高速数据中心将所有计算机联网,因此只有相对较慢的连接速度,最高为1Gb/s。但研究人员表示,使用经典学习算法,每台机器将产生633 TB的数据用于通信,得益于优化器和基于随机跳过全局通信的本地训练的策略,GPT-JT 团队能够将需求降低到 12.7 TB。

“比模型本身(这是第一步)更重要的是,我们想强调开源人工智能的优势,在那里,社区项目可以逐步改进,并贡献回开源,从而产生公共产品,并形成人人都能受益的价值链。”研究团队说。

GPT-JT代码

GPT-JT可以跟上其他语言模型,尽管它有训练限制。在对文本进行分类时,开源模型在RAFT评分中排名第二,RAFT是一种对语言模型进行整体评估的方法。这一结果使GPT-JT仅落后于OpenAI的InstructionGPT“davinci V2”,后者拥有1750亿个参数,几乎是GPT-JT的30倍。类似BLOOM这样的大型开源模型只出现在排名的后半部分。

Import AI的作者杰克·克拉克(Jack Clark)称GPT-JT将对“人工智能的政治经济”形成冲击。到目前为止,人工智能发展的大部分都是由少数能够接入大型集中计算机网络的群体推动的。 “GPT-JT表明了一个完全不同的未来——分布式集体可以通过蹩脚的互联网链接来共享计算机,并一起训练模型。”克拉克说。

GPT-JT代码可以在Hugging Face查看。在这里,你还可以免费试用 GPT-JT 演示,其中包含情绪分析、主题分类、摘要和问答等示例场景。

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容