关于人工智能中数据质量和数量的影响的知识
信不信由你,有“好数据”和“坏数据”之类的东西——尤其是在人工智能方面。更具体地说,仅拥有可用数据是不够的:在“有用”和“不那么有用”的数据之间有一个值得区分的地方。有时,由于收集数据的方式或地点、不准确或伪造的迹象以及其他危险信号,数据必须立即丢弃。其他时候,可以先处理数据,然后将其传递给人工智能开发。
仔细观察这个过程会发现我们收集和处理数据的能力与我们构建更智能的人工智能的能力之间存在共生关系。数据和机器学习都为人工智能提供动力,而人工智能反过来又提供了更复杂的机器学习工具。这是一个完美的系统,对各种类型和规模的企业都有影响,更不用说统计学家和科学家了。
为什么存在“坏数据”而数量还不够
为什么在人工智能数据方面甚至存在质量问题?访问大量数据还不够吗?答案是否定的——这还不够。这是因为以下因素:
- 来自多个渠道的海量数据
- 数据收集地点的地理意义
- 多种文件类型以及结构化和非结构化数据
- 基于区域隐私限制的不可接受的数据
- 在市场上购买的潜在伪造数据
机器学习是开发人工智能过程中使用的一种工具。外行对机器学习的描述涉及收集大量结构化数据并使用它来“训练”人工智能以根据已知参数观察和识别模式。在机器学习之前,我们大多数人都认为真正的人工智能只能通过预先预见到每一个潜在可能性的艰苦的逐行编码来实现。我们现在看到这是一个错误,原因有很多。
它让我们回到了这样一个想法,即不是每一种数据,也不是每一个数据源,对于推动人工智能开发的机器学习算法都是有用的或具有足够高质量的——无论该人工智能应用程序的最终目的是什么。毕竟,当涉及到数据量时,您很快就会达到收益递减:一个数据集只需要足够大,就可以真正代表整体。但是首先弄清楚“整体”是什么,这才是机器学习的目的——依赖大量重复或不准确的数据是构建上下文和理解的糟糕方法。
根据专家的说法,编译一个大小相等且有用的数据存储需要大量的手动工作。来自数据科学领域的其他见解表明,糟糕的数据质量是导致 IT 部门投资浪费的主要原因,也是导致企业级管理工具失去信任的重要来源,这些工具为业务决策提供信息。
所以赌注很高。让我们更详细地了解为什么人工智能和高数据质量齐头并进。
数据质量与人工智能之间的关系是共生的
几乎所有产品类型的用户都比以往任何时候都对这些产品的制造方式产生了浓厚的兴趣。对于自动化软件、商业智能平台、路线规划、地图和任何其他面向业务的人工智能应用程序的用户来说,情况大致相同。用户对如何产生这些东西有一定的期望——也就是说,支持这些工具和洞察力的数据不是:
- 复制、伪造或被盗
- 不完整
- 损坏或损坏
- 不一致或难以理解
换句话说,如果你不能信任汽车中包含不合格材料的组件,你就不能依赖人工智能承诺的分析、分析和洞察力。
因此,在现实世界条件下提供有意义和可操作的见解的人工智能平台的开发需要高质量的数据。好消息是,随着时间的推移,人工智能反过来帮助我们收集和存储更多有用的数据。
首先,想想我们现在作为一个全球商业社区共同交易的所有不同类型的数据。您自己的公司可能会进行以下一项或多项交易:
- 有关实物资产状况和位置的数据
- 来自生产车间或其他设施传感器的数据
- 历史和实时销售数据
- 有关客户人口统计和社会趋势的数据
- 来自现场调查和客户研究的地理空间和地理数据
- 来自订单跟踪、重新订购和监控供应水平的数据
关键是,现代商业需要几乎荒谬的数据量。如果还没有,您所在行业的竞争力很快将取决于您运用更高技术并帮助您从上面列出的数据类型中获得意义、意图、方向和洞察力的能力。
因此,我们回到了您的数据质量。如果告知您已经做出的业务决策,那么它还必须告知您在更精简和更全球化的经济中竞争所需的分析、自动化和人工智能工具。
带回家的例子
一项案例研究证明了为什么数据质量对于全球零售市场的机器学习算法至关重要。
这家零售公司的最终目标是通过更好地管理整个产品和库存数据来降低成本并提高效率。但在此之前,他们需要知道他们所依赖的数据是否适合他们的需求。因此,他们使用机器学习来寻找错误、遗漏、重复和异常值。机器学习算法最终使他们大约 30% 的数据更准确,因此更可操作和更有用,只需进行小的修正。
科学和学术界的一些人工智能工具也受益于更高质量的数据。在统计学中,梳理数据集的错误是一个巨大、昂贵和劳动密集型的过程。但是机器学习在“清理”大量数据以消除错误或不完整性方面已经证明了比人类统计学家更好的结果。
换句话说,不仅仅是企业和商业从机器学习通过更好的数据和改进的数据处理技术为人工智能开发提供动力的方式中受益。科学、社会和人口调查领域也应该及时发现自己拥有更好的工具,这一切都归功于更高质量的数据。