ChatGPT、Bard和Dolly 2.0确实是根据盗版书籍的文本进行训练吗?

像ChatGPT、Bard甚至开源版本这样的大型语言模型(LLM)是在公共互联网内容上接受培训的。但也有迹象表明,流行的人工智能也可能在从盗版书籍创建的数据集上接受培训。
Dolly 2.0是受过盗版内容的训练吗?
Dolly 2.0是最近发布的开源人工智能。Dolly背后的意图是将人工智能民主化,让每个想用它创造东西的人都能使用人工智能,甚至是商业产品。
但将人工智能技术集中在三家大公司手中,并将私人数据托付给他们,也存在隐私问题。
如果有选择的话,许多企业宁愿不将私人数据移交给谷歌、OpenAI和Meta等第三方。
即使是开源浏览器和应用程序公司Mozilla,也在投资发展开源人工智能生态系统。
开源人工智能背后的意图无疑是好的。
但用于训练这些大型语言模型的数据存在问题,因为其中一些由盗版内容组成。
开源ChatGPT克隆,Dolly 2.0,由一家名为DataBricks的公司创建(了解有关Dolly 2.0的更多信息)
Dolly 2.0基于一个名为Pythia的开源大语言模型(LLM)(由一个名为EleutherAI的开源组创建)。
EleutherAI在Pythia LLM家族中创建了八个不同大小的LLM版本。
Pythia的一个版本是120亿参数版本,是DataBricks用于创建Dolly 2.0的版本,以及DataBricks自己创建的数据集(用于训练Dolly 2.0 AI接受指令的问题和答案数据集)
EleutherAI Pythia LLM的问题在于,它是使用名为Pile的数据集进行训练的。
Pile数据集由多组英语文本组成,其中一组是名为Books3的数据集。Books3数据集包含盗版并托管在名为bibliotik的盗版网站的书籍文本。
这就是DataBricksannouncement所说的:
“Dolly 2.0是一个基于EleutherAI pythia模型系列的12B参数语言模型,专门在数据集之后的新的高质量人类生成指令上进行微调,这些数据集在Databricks员工中众包。”
Pythia LLM是使用桩数据集创建的
EleutherAI的Pythia研究论文提到Pythia是使用Pile数据集训练的。
这是Pythia研究论文的引文:
“我们在堆……和重复数据删除后的堆上各训练了8个模型尺寸,提供了2份可以比较的套件副本。”
重复数据删除意味着他们删除了冗余数据,这是一个创建更干净数据集的过程。
那么,Pile里有什么?有一篇Pile研究论文解释了该数据集中的内容。
以下是Pile研究论文中的一段话,其中说他们使用Books3数据集:
“此外,我们还合并了几个现有的高质量数据集:Books3(Presser,2020)……”
Pile数据集研究论文链接到Shawn Presser的一条推文,其中说Books3数据集中的内容:
“假设你想训练一个世界级的GPT模型,就像OpenAI一样。如何?你没有数据。
现在你做到了。现在每个人都做到了。
展示“books3”,又名“所有图书馆”
– 196,640本书
– 简明的.txt
–可靠,直接下载,多年:https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz”所以……上面的引文清楚地表明,Pile数据集被用来训练Pythia LLM,而Pythia LLM又是Dolly 2.0开源人工智能的基础。
Google Bard是否接受过盗版内容培训?
《华盛顿邮报》最近发表了一篇关于谷歌Colossal Clean Crawled Corpus数据集(也称为C4 -PDF研究论文)的评论,其中他们发现谷歌的数据集也包含盗版内容。
C4数据集很重要,因为它是用于训练谷歌LaMDA LLM的数据集之一,Bard是基于这个版本。
实际数据集称为Infiniset,C4数据集约占用于训练LaMDA的总文本的12.5%。关于Bard的这些事实的陈述可以在这里找到。
《华盛顿邮报》新闻文章发表:
“三个最大的网站是 patents.google.com No. 1,其中包含世界各地发行的专利文本;wikipedia.org No. 2,免费在线百科全书;以及scribd.com No. 3,一个仅限订阅的数字图书馆。
也是榜首:b-ok.org No. 190,一个臭名昭著的盗版电子书市场,后来被美国没收。司法部。
数据集中至少有27个被美国政府确定为盗版和假冒市场的其他网站。”
《华盛顿邮报》分析的缺陷在于,他们正在查看C4的版本,但不一定是LaMDA接受培训的版本。
C4数据集的研究论文于2020年7月发表。在发表后的一年内,发表了另一篇研究论文,发现C4数据集偏向于有色人种和LGBT社区。
这篇研究论文的标题是《Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus》(PDF研究论文在这里)。
研究人员发现,该数据集包含对阿拉伯身份的人的负面情绪,并排除了与黑人、西班牙裔有关的文件以及提及性取向的文件。
研究人员写道:
“我们对被排除的数据的审查表明,与黑人和西班牙裔作者相关的文件以及提及性取向的文件更有可能被C4排除在外。EN的黑名单过滤,以及许多被排除的文件包含非冒犯性或非性内容(例如,关于同性婚姻、科学和医学内容的立法讨论)。
这种排斥是一种分配伤害……并加剧了现有的(基于语言的)种族不平等以及对LGBTQ+身份的污名化……
此外,从用于训练语言模型的数据集中删除此类文本的一个直接后果是,当应用于来自少数族裔身份的人的文本时,这些模型将表现不佳,有效地将他们排除在机器翻译或搜索等技术的好处之外。”
得出的结论是,过滤“坏话”和其他“清理”数据集的尝试过于简单化,需要更细致入微的方法。
这些结论很重要,因为它们表明,众所周知,C4数据集存在缺陷。
LaMDA于2022年开发(在C4数据集两年后),相关的LaMDA研究论文称,它是用C4训练的。
但那只是一篇研究论文。生产模型上现实生活中发生的事情可能与研究论文中发生的事情大不相同。
在讨论研究论文时,重要的是要记住,谷歌一直说,专利或研究论文中的内容不一定是谷歌算法中使用的内容。
谷歌很可能会意识到这些结论,假设谷歌为生产模型开发了新版本的C4并非不合理,这不仅是为了解决数据集中的不平等,也是为了更新数据集。
谷歌没有说他们的算法中有什么,这是一个黑匣子。因此,我们不能肯定地说,Google Bard背后的技术是在盗版内容上接受培训的。
为了更清楚,Bard于2023年发布,使用了轻量级版本的LaMDA。谷歌尚未定义什么是LaMDA的轻量级版本。
因此,无法知道用于训练为Bard提供动力的轻量级LaMDA的数据集中包含哪些内容。
人们只能推测哪些内容用于训练巴德。
GPT-4是否使用盗版内容?
OpenAI对用于训练GPT-4的数据集非常私密。OpenAI最后一次提到数据集是在2020年发布的GPT-3的PDF研究论文中,即使在那里,数据集中的内容也有些模糊和不准确。
TowardsDataScience网站在2021年发布了对可用信息的有趣评论,其中他们得出结论,一些盗版内容确实被用来训练GPT的早期版本。
他们写道:
“……我们发现有证据表明,BookCorpus直接违反了数百本不应该通过免费数据集重新分发的书籍的版权限制。
例如,BookCorpus中的200多本书明确声明,它们“不得出于商业或非商业目的复制、复制和分发。”
很难断定GPT-4是否使用了任何盗版内容。
使用盗版内容有问题吗?
人们会认为,使用盗版内容来训练大型语言模型并从使用该内容中获利可能是不道德的。
但法律实际上可能允许这种使用。
我问了Kenton J。Hutcherson,Hutcherson Law的互联网律师,他对在培训大型语言模型的背景下使用盗版内容的看法。
具体来说,我问是否有人使用Dolly 2.0(可能部分使用盗版书籍创建),使用Dolly 2.0创建应用程序的商业实体是否会面临版权侵权索赔?
Kenton回答:
“盗版书籍的版权所有者对版权侵权的索赔可能会因为合理使用而失败。
合理使用保护受版权保护的作品的变革性使用。
在这里,盗版书籍不是用作人们阅读的书籍,而是作为人工智能训练数据集的输入。
在搜索结果页面上使用缩略图时,也出现了一个类似的例子。缩略图不是来替换他们预览的网页。它们具有完全不同的功能——它们预览页面。
那是变革性的使用。”
凯伦·J伯恩斯坦IP的伯恩斯坦也提出了类似的观点。
“使用盗版内容是合理使用吗?在这些情况下,合理使用是一种常用的防御。
合理使用防御的概念只存在于美国版权法下。
合理使用是在最高法院在1994年一个具有里程碑意义的案件中提出的多因素分析下进行的。
在这种情况下,将存在以下问题:有多少盗版内容是从书籍中获取的,以及对内容做了什么(是否具有“变革性”),以及此类内容是否正在使市场远离版权创作者。”
人工智能技术正在以前所未有的速度向前发展,似乎每周都在不断发展。也许在竞争和成功带来的意外之财的反映,谷歌和OpenAI在如何训练他们的人工智能模型方面变得越来越私密。
他们应该对此类信息持更开放态度吗?他们可以相信他们的数据集是公平和无偏见的吗?
使用盗版内容来创建这些人工智能模型可能会作为合理使用受到法律保护,但仅仅因为一个人可以,这是否意味着一个人应该这样做?