管理/治理数据的10个可行技巧
如果您相信营销炒作,您会认为数据管理和治理是轻而易举的事。一个简单的,自动化到刀柄,设置它和忘记它,在严肃工作的准备结束的小清理任务:数据分析。
但今天,它更像是绘制雷区地图,同时尽量不踩到众多伪装的危险之一。如果你把这部分搞砸了,后果会更加混乱。
简而言之:如果数据错误或不完整,分析将介于无用和危险之间。如果数据在不经意间溜走,您的公司可能面临巨额罚款和处罚的风险。
让我们跳过炒作,开始讨论在实践和流程方面最有效的方法。以下是您可以做的 10 件事的快速浏览,以帮助您从最实际的意义上管理和管理您的数据。
1.检查隐藏的约束
人们很自然地倾向于考虑工作限制,但忽略其他一切。
“我们倾向于关注工作的所有方面:数据所有权、访问、安全性、质量等,”图形数据库管理系统生产商 Neo4j 的开发人员关系高级总监 David Allen 说。“然而,所有这些事情都受到他们所在的公司环境的限制,例如数据所有者,他们是具有激励、压力、挑战、限制等的组织参与者。”
那么,您还应该在哪里寻找限制您管理和治理数据的努力?
“简而言之,对框架和技术给予一些但不要过多的关注——永远不要忽视人力和组织因素。从业者的工作是在真实的环境中尽其所能,这几乎总是与教科书所说的不同,”艾伦补充道。
2.平衡冲突
管理和管理数据很少是一项简单的、不受阻碍的工作。它通常是由业务需求内部和业务需求之间的冲突构成的纠缠网格。
“消费者同时要求个性化和隐私,这就是为什么企业现在更加重视他们自己的客户数据,”SoundHound 的首席执行官 Keyvan Mohajer 说,SoundHound 是一家开发语音识别、自然语言理解、声音的音频和语音识别公司。识别和搜索技术。“第一方数据使品牌能够创造出色的体验,但在数据透明度和隐私方面,它也让品牌处于控制之中。”
当您失去对数据的完全控制时,数据管理和治理会变得更加棘手。
“希望使用语音人工智能的品牌越来越意识到将这种数据控制权交给大型科技语音助手提供商的风险。拥有中介不仅会阻碍企业对有价值的用户反馈的看法,而且还会阻止他们向客户保证他们的数据用于什么 - 并允许他们选择退出,”Mohajer 补充道。
3. 跟踪数据沿袭
鉴于深度伪造攻击和不断增加的监管要求,最好了解每个数据集的来源和踪迹,如果不是每个数据点的话。如果没有清晰且未损坏的数据跟踪,您将永远不会知道数据是否值得信赖——审计师、网络安全专家或监管机构也不会。
“只有不到三分之一的公司能够将他们的数据追踪到源头,并确保只有授权方可以看到这些数据。在规模上,这需要‘护栏’,基本上是强化机制,以对抗和防止监管失误,同时仍然使您能够使用人工智能来提高工作流程的效率,”IBM 全球首席人工智能官 Seth Dobrin 说。
“这些不是微不足道的挑战,解决它们需要五个关键技术构建块来帮助简化我们如何集成和改进数据管理和治理:人工智能增强的数据编目、自动化元数据生成、自动化治理、数据虚拟化以及报告和审计,”他补充说。
4.考虑“产品管理”方法
将数据组织成每个域使用的安全和可服务部分可能是一种有效管理数据的实用方法。
“数据管理越来越成为一种‘产品管理’实践——由来自应用程序和业务领域的多个数据源构建的精选数据集成为受益于正式需求收集、路线图规划、质量保证、构建的数据域。自动化,以及与更传统的产品开发实践相关的持续变更管理,”拥有 100 多年历史的全球航运和邮寄公司 Pitney Bowes 的首席创新官James Fairweather说。
“例如,Pitney Bowes 已经开始使用与数据结构和数据虚拟化相关的概念构建数据域,以提供精心策划的数据产品,用于分析、数据科学建模和报告。”Fairweather 表示,他的公司使用“SelectStar等工具进行数据治理,并使用MonteCarlo通过提高我们管道中的数据可观察性来检测异常情况。”
5. 非常了解你的数据
是的,数据是巨大的并且越来越大。是的,它从越来越多的来源涌入。即便如此,你也必须对它有充分的了解,真正了解你的公司有哪些信息。
Deloitte Consulting 的云 AI/ML 产品负责人 Chida Sadayappan 说:“企业管理和治理数据的最佳方式就是密切了解他们的数据。”“了解数据的创建、处理、使用和保留将帮助他们找到合适的工具和流程来很好地管理和管理他们的数据。”
6.不要忘记从另一边传来的数据
公司倾向于考虑管理要摄取和分析的数据。但从分析中得出的数据也必须得到管理和治理,并清楚地记录其谱系。换句话说,确保您正在管理所有数据——而不仅仅是其中的一部分。不幸的是,这可能是一个很大的挑战。
“确保您花时间定期参与并准确了解您的用户当前如何访问和使用您的数据,”卡内基梅隆大学亨氏学院的服务教授 Christopher Goranson 说。“了解他们在访问数据后如何处理数据——他们会进一步汇总数据吗?他们是否将其与其他数据集结合起来?他们能理解数据代表什么,以及基于您现有文档的任何限制吗?如果您的组织提供可公开访问的数据集,这些数据集是如何使用的?他们试图回答什么问题?”
“这些通常是您可以用来提高您管理的数据对您的组织的价值的线索,”Goranson 解释说。
7.连接片段
遵守数据隐私法规可以打破解决紧迫问题所需的知识链。考虑使用可以保护隐私的技术,而不会分散集体胜利所需的共享数据链。
隐私增强技术 (PET) 提供商 Duality Technologies 的首席商务官 Michael Hughes 表示:“数据治理中的一个基本问题是跨多个孤岛的数据的碎片化性质——无论是内部跨边界还是公司之间的外部。”“这给需要共享和协作处理这些数据以获得洞察力的企业带来了挑战,”
“例如,银行依靠合作来打击欺诈、网络犯罪和洗钱,因为数据存在于供应商和司法管辖区。医疗保健研究还依赖于临床和基因组数据的共享以推进治疗。问题是,他们只有在能够保护隐私和机密性的情况下才能共享数据,同时在日益复杂的监管环境中保持合规性,而许多现有方法都达不到要求,”Hughes 补充道。
8. 总是为问题命名
俗话说,除非你能管理它,否则你无法管理它。然而,你也不能测量它,除非你能命名它。换句话说,犯错就是含糊不清。命名它就是定义它。
“等式中最简单的部分是为治理流程和数据管理政策的创建提供资金,”位于纽约的房地产数据和分析平台 Cherre 的首席工程官 Stefan Thorpe 说。“真正的挑战来自执行数据管理策略,尤其是在企业结构相对复杂的情况下。如果流程没有明确定义,即使是定义和监控关键绩效指标等简单任务也会变得复杂。”
9.去掉眼罩,带来更多的眼睛
人工智能可以做很多事情,但它不能完全取代人类工人。至少现在还没有。
“数据治理对于任何组织的数据蓝图都至关重要,”主数据管理 (MDM) 平台 Reltio 的创始人兼首席技术官 Manish Sood 说。“确保更好治理的方法之一是找到将数据交到更多用户手中的方法,但要通过与组织一起扩展并在团队之间建立一致性的流程来做到这一点。道理很简单:关注数据越多,质量越好,治理越彻底。或者用更简单的术语来说,你不能修复你看不到的东西。”
10. 向停尸房发送更多数据
好吧,不完全是停尸房,但肯定是更便宜的冷藏。换句话说,数据是热的,直到它不是,当它很好冷却时,没有理由将它保持在温暖的环境中。
“积极剔除不需要的数据。此外,尽量减少存储在昂贵的“热”或“温”存储中的数据量。尽快将需要保存的东西转移到廉价的‘冷’存储中,”人工智能驱动的网络安全平台 MixMode AI 的联邦负责人马特·谢伊 (Matt Shea) 说。