spot_img
首页文本AI瑞典国家图书馆利用5...

瑞典国家图书馆利用500年来的瑞典语数据训练AI模型

瑞典国家图书馆的综合研究部门KBLab希望将过去500年来几乎所有的瑞典语著作合并到一个数据集中,用于训练 AI 模型。该数据集目前已达16 PB,并且每月以 50 TB 的速度增长。自2019年成立以来,KBLab已经训练了20多个AI模型。

创建数据集旨在使研究人员能够进行以数据为导向的研究。基于该数据集,研究人员将能够快速创建高度专业化的数据集,例如,调出每一张描绘教堂的瑞典明信片,每一篇以特定风格写成的文本,或者每一篇提到历史人物的书籍、报纸文章和电视广播。

KBLab的第一个模型最初使用了20GB的数据,现在使用的数据已达约70GB,很快将能处理TB级的瑞典文本。据介绍,除瑞典语外,该数据集还将补充荷兰语、挪威语和德语内容,以提高 AI 模型的性能。

除了重点开发理解、处理瑞典文本的模型外,KBLab还开发了一个将音频转换为文本的AI工具,可用来转录图书馆内容广泛的无线电广播资料,以便研究人员可以在音频中搜索特定内容。

KBLab还在开发生成文本的AI模型,以自动创建视频内容的描述。目前,KBLab还正与哥德堡大学和瑞典学院的研究人员一起研发支持词典现代化的工具。

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容