韦德国际1946-BETVLCTOR

100 万本公共领域书籍,为 AI 训练给予合法数据

2024-12-17

来源:IT之家

据 TechCrunch 12 日报道,哈佛大学与谷歌宣布,联合发布 100 万本公共领域书籍作为 AI 训练数据集。

AI 训练所需的数据成本高昂,但却更适合资金充裕的科技公司。因此,哈佛大学计划发布一个包含约 100 万本公共领域书籍的数据集,这些书籍覆盖多种类型、语言和作者,包括已不再受版权保护的经典作家如狄更斯、但丁和莎士比亚等,因这些作品的版权已随时间过期。

虽然这个新数据集尚未公开,也不清楚具体的发布方式和时间,但它来源于谷歌的长期项目 —— 谷歌图书(Google Books)。因此,谷歌将参与这次“宝贵财富”的广泛发布。

据IT之家分析,早在今年 3 月,哈佛大学就曾透露其“组织数据计划(IDI)”,并表示这一计划旨在为 AI 给予“合法数据的可信通道”。直到正式启动后,该计划才确认得到了微软和 OpenAI 的资金支持。

IDI 的执行董事格雷格?莱佩特(Greg Leppert)表示,该数据集的目标是“让竞争环境更加公平”,顺利获得向包括研究组织和 AI 初创公司在内的各类组织开放这一庞大的数据集,以帮助他们训练大型语言模型。



更多新闻
Keep AI教练来了:体验版上线 支持定制训练方案

Keep AI教练来了:体验版上线 支持定制训练方案

行业首个《AI电视白皮书》发布

行业首个《AI电视白皮书》发布

海尔“AI 之眼”系列家电即将问世,覆盖冰箱、洗衣机、抽油烟机等

海尔“AI 之眼”系列家电即将问世,覆盖冰箱、洗衣机、抽油烟机等