沃卡惠移动端logo

沃卡惠  行业资讯

资讯详情

数据科学如何融入云支出方程式

2022-08-24 10:31:384636

代表数据科学的青色和黑色抽象图像

数据科学团队的工作可以与云计算和其他技术资产交织在一起,这可以使它们成为有关云计算支出的预算问题的一部分。这只是数据科学家扩展的方式之一,超出了他们所做的工作和他们所利用的资产的一些旧预期。如果不采取措施理清这些资源的使用方式,组织可能会看到数据科学对成本的贡献大于回报。

Kion产品管理总监Shane Quinlan与InformationWeek谈到了数据科学是如何发展的,以及数据科学家可以有效地使用云的方式。

与人们对他们的期望相比,数据科学家是否在跳出框框工作?他们采取哪些不同的角度来履行职责?

当我开始从事技术工作时,数据科学并不是我真正关注的事情。嗡嗡声始于2015-2018年,当时数据科学成为主流。新职位开始创建,我们开始获得DataOps和MLOps之类的东西。大数据——如果你把它打给任何公司,那就是金矿。

大约在同一时间框架内,我从我工作的工作(主要支持联邦和执法部门的客户)跳槽到医疗保健领域。从Web和端点解决方案切换到分析。那是我第一次涉足数据科学。

现在我从不同的角度看待它,因为我们的产品重点更多地放在平台和基础设施管理上。我是从云看数据科学,而不是从数据科学看云。

影响数据科学家采用的方法的影响因素和因素有哪些?随着数据科学家利用云,他们需要更加注意什么?

我看到了两个趋势。一是围绕技术和可用性的变化。早期,它有点像狂野的西部。有大量的新服务产品、技术堆栈和技能组合确实存在差异,并且开始变得更容易获得。

数据科学就是这个大世界。您拥有从字面上使用Microsoft Excel的Excel数据科学家到您可以编写能够执行数据功能并提供不同输出的Java应用程序的一切。你有数学家、统计学家、软件开发人员,还有更多担任商业智能分析师角色的人,他们都在同一个领域,试图找到不同的方法来满足他们的期望。

那时您看到了对更好用户界面的推动,从而减少了对开发方面的要求。这就是您引入Jupyter和Zeppelin等笔记本及其衍生产品的地方,以使其更容易一些。您拥有与塑造数据的方式类似的人类可解释代码和非代码接口。在幕后,我认为塑造它的方式也出现了巨大的爆炸式增长。您拥有像DBT这样的技术,它使数据转换变得更加容易。以Apache Hadoop生态系统为中心的技术现在已经转变、变形并移动到各地,使其更加便携。Apache Spark现在可以在各种不同的上下文中运行。

人们一直在朝着更加以用户为中心的数据科学模型迈进。更人性化,更多用户界面,更易于解释。您可以使用Excel或BI工具或SQL等常用技能集,并充分利用这些技能来发挥作用。

另一方面是以开发为中心的方法,作为开发人员,与要求数学家学习成为开发人员相比,它使数据科学更加平易近人。

另一部分是围绕规模的紧张局势以及需要多少数据才能创建提供业务价值所需的各种见解。Landing AI的首席执行官[Andrew Ng]大力推动“大数据集是愚蠢的”。[大数据集]在浪费钱,在浪费时间。更干净、更小的数据集实际上更具影响力。[Ng说过你并不总是需要“大数据”,而是需要“好数据”。]你会看到“获取所有数据并尽可能多地从中学习”的传统方法与更清洁的方法之间的张力,更小更便宜,更高效的数据集提供了这种洞察力。

其中一些又回到了人们试图用他们所拥有的东西做魔术的人身上。与我交谈过的太多人就像,“我们拥有所有这些数据;我们需要对它做点什么。”

好的。伟大的。什么?

他们会说,“好吧,我们需要运行一些机器学习,这样我们才能看到我们能找到什么。”

它不是那样工作的。你必须带着一种实际的科学思维来理解你正在使用这些模型测试什么假设。它需要一种非常具体的心态才能拥有如此多的纪律以及通过数据科学技术解决问题和创造价值的方式,而不是“我有数据;请做事。

当IT预算受到使用云的数据科学家的审查时,可以做些什么来理清他们组织的需求?

云的伟大之处在于您可以在需要时使用它。显然,您在需要时为使用它付费,但数据科学应用程序,尤其是那些在大型数据集上运行的应用程序,通常不会连续运行,或者不需要以连续运行的方式进行结构化。因此,您说的是在很短的时间内非常集中的支出。购买硬件来做到这一点意味着您的硬件处于闲置状态,除非您非常积极地确保随着时间的推移在利用该资源方面非常有效。

云的最大优势之一是它可以根据需要运行和扩展。因此,即使是很小的人也可以运行大量计算并在需要时运行它,而不是始终如一地运行。

当然,这增加了挑战。“我周五把这个东西关掉了,我周一回来,它还在运行,这个周末我不小心花了6000美元。哎呀。”这种情况一直在发生,其中很大一部分是在弄清楚如何建立护栏。

有时数据科学会被视为“你知道,他们会做任何他们需要做的事情”。

在开发世界中,我们已经开始使用语言来应对这种冒险的、实验性的“不要惩罚失败,我们从失败中学习”。我们已经能够引入这种语言,但我们忽略了数据科学。

是否有一些最佳实践来平衡和管理数据科学家可能想要利用的创新?

如果您的数据科学部门既年轻又小,云优先听起来很可怕,但会让您在未来取得成功。如果你想在硬件投资上做出这些选择,那么你可以在适当的时候做出它们,而不是认为你需要先购买硬件,然后再去云端,这非常困难。

护栏不一定是火箭科学。它们可以很简单。简单可以非常有效。