人工智能需要大量数据,而大数据项目对存储基础架构有极高的要求。因此,存储AI数据对比其他数据存储,有更多需要特别注意的点,如海量数据集需要一个体量更大的存储平台、读多写少意味着对读取速度的要求更高、小文件数量众多因此需要一个更完善的检索体系等等。
构建有用且具有包容性的AI工具最需要考虑的因素之一,是它们所依赖的数据集。今天,许多AI模型的建立都需要依赖由政府、企业和学术机构收集的大型机器学习数据集。随着这些数据集的增长和演变,人工智能的输出也会发生变化。
Austin Carson是SeedAI的创始人,这是一个非营利、无党派的倡导组织,旨在帮助全国社区开发AI资源。他和团队的工作主要是将公共和私人服务聚集在一起,以开发AI模型计划、推动政策并促进投资,同样,他们还会对服务不足的社区进行特别关注。
随着人工智能行业的发展,Austin一直在思考如何为后代保留数据集,这与Filecoin的愿景不谋而合。接下来,我们一起了解一下去中心化存储AI数据集的相关知识。
规模奠定基础
机器学习应用程序需要多少数据才能成功?
人工智能的成功需要依赖大型数据集。尽管有一些正在努力减少人工智能的数据需求的例外情况,但总的来说,输入这些系统的数据越真实可靠,输出就越值得信赖。
在数据类型和训练成本方面,用于训练机器学习模型的数据集差异很大,这主要具体取决于团队正在构建的系统类型,及其适用的范围。
数据集的类型五花八门,其大小也有千差万别。可以简单了解一下这两个公开可用的数据集:它们分别为ImageNet及The Pile,前者有1400万张图像和共计150GB的数据集大小,可用于创建通用图像识别系统;The Pile则是一个大小为825G的语言示例集,可用于制作通用自然语言处理系统。
当今最复杂的AI系统之一是OpenAI的GPT3,它在45T的私有数据集上进行训练——训练成本为1200万美元。
除此之外,还有许多应用程序可以在10或100兆字节的数据上进行训练,以完成更小型的任务,例如检测特定类型的视觉数据(如一个对象、一个异常)。迷你数据集也被用来微调像GPT3这样的系统,利用GPT3的一般语言能力并为特定任务(例如营销、讲故事等)添加更专业化的内容。
这些数据集掌握在谁手上?
它们通常如何存储在当今的网络上?
简单来说,数据集可以由政府、学术机构、私人组织和个人管理、拥有。
地方、州和联邦政府收集了大量数据,但这些数据集通常不是通用的机器可读格式,或者可能包含选民的个人隐私数据。因此,政府几乎不可能将这些数据发布给公众或研究界。由于数据量非常庞大,近年来,联邦政府在该领域取得了重大进展。
学术机构通常会编译或生成数据集,其中许多成为公共资源,例如Berkeley DeepDrive数据,这个数据集包含超过十万段驾驶视频,海量真实街景等。
此外,私营企业也会从他们的业务运营中收集数据并编译其他数据集,虽然大部分是私有的,但他们也会经常向公众或他们认为有益于社区的研究人员选择性地公开部分数据集。
Kaggle、GitHub和Google数据库搜索是搜索数据集的良好起点。其他大型云存储提供商 (cloud storage providers,简称CSP)、学术机构和政府机构(例如 NASA)也会提供公开数据集用于AI培训。
在存储方面,数据集过去通常托管在亚马逊AWS或微软Azure等传统的大型CSP上。但现在有了改善——一些公共数据集(例如NYC Open Data)被加载到Filecoin网络上,使这些数据得以被冗余且分布的存储起来,它们的安全性也得到了更好的保障。
为什么归档这些大型数据集很重要?
数据集直接作用于人工智能系统,因此数据集的演变,将导致人工智能模型的演变。新技术也被应用于现有数据集,但革命性的新技术自身也需要建立在海量且通常是专有数据集之上。
这些大模型在其他数据集上针对更专业的任务进行了调整,随着模型的进一步调整,这些模型很可能在未来得到更广泛的使用,而无需记录数据集/数据集。
按常理来说,随着AI更容易被普通人使用,开源工具也会变得更加广泛可用,出现的系统依赖项的数量将会增加。但对于目前的AI而言,现实确是这样的:
漫画解释:技术架构通常由堆栈图说明,其中较高级别的矩形表示依赖于较低级别组件的组件。这幅漫画中的堆叠与物理砌块塔有着惊人的相似之处,这表明当移除关键部分(即靠近底部的小块),塔将失去平衡的危险。
当前的图书馆和开源开发模式在很大程度上依赖于无偿爱好者的免费和持续奉献,许多较小的项目又被较大的项目重用,这些小项目可能只能由一个人维护,要么是创始人,要么是接手火炬的人。
维护这些数据集的记录很重要的另一个原因,是关于州和地方AI审计要求。这些审计要求在许多地方已经被加入法律,例如纽约市去年12月通过的一项关于雇主如何在招聘、面试和招聘过程中使用人工智能的要求。
这些新法律通常要求对数据集和算法进行审计,目的是发现偏见和负面影响。在这之前,消除偏见这类工作往往只会在项目启动前进行,但近来越来越多人工智能专家指出,审计虽然不必持续,但必须定期进行,因为潜在的危害及负面影响会随着数据和技术环境的变化而变化。
出于这个原因,从逻辑上讲,负责任的政府和私营部门的人工智能用户将越来越需要保留和保存这些数据集。
Filecoin如何来保存这些数据集
Filecoin Slingshot计划是Web3社区团结起来保护和访问大型数据集的一个很好的例子。团队越鼓励维护,并负责任地公开AI数据集,其效果就越好——尤其是现在模型和数据集的数量正在加速增长的现在。
Slingshot是面向存储客户和开发人员安排的社区竞赛,它鼓励人们向Filecoin网络添加真实、有价值和可用的数据。当然,更重要的是,在Slingshot中竞争的团体都支持嵌入Filecoin社区的总体理念,即“保护人类在Filecoin网络上最重要的数据集”。
此类项目有助于使世界上任何人都可以访问和探索重要的数据集——用于研究、教育和发现。SEED AI团队也希望未来有更多的人工智能研究人员转向像Slingshot这样的项目,以帮助他们开展机器学习工作。