释放非结构化数据力量的八个技巧
充分利用企业数据是当今IT领导者最关心的问题。随着企业寻求在业务决策中更多地以数据为导向,IT领导者必须制定数据战略,以便从数据中创造价值,无论数据位于何处或以何种形式存在。
对于许多企业来说,文本、视频、音频、社交媒体、图像、传感器和其他格式的非结构化数据仍然是难以捉摸和未开发的。根据Foundry的研究,虽然行业研究估计高达90%的企业数据是非结构化的,但61%的IT领导者表示,管理非结构化数据对其企业来说是一个问题,另有24%的人甚至不将非结构化数据包括在他们的数据和分析候选列表中。
非结构化数据资源对于获得业务洞察和解决问题非常有价值,关键是弄清楚如何创造这种价值。熟练利用这些海量信息资源的企业可以在向关键业务流程提供可操作的洞察方面获得显著优势。
以下是当今创造性企业如何将非结构化数据转化为业务价值,以及如何将非结构化数据应用于你的企业的一些提示。
加强创意过程
移动游戏开发公司RetroStyle Games的数据分析师伊万·科诺瓦尔表示,在该公司,非结构化数据已被证明是一座“金矿”,直接为业务增长和游戏改进做出了贡献。
在RetroSyle Games使用非结构化数据的众多方式中,可能影响最大的是概念艺术收集和音频数据。
“我们的游戏开发者的创作过程往往始于素描、意境板或概念艺术,”科诺瓦尔说“这些作品虽然不是结构化的,但抓住了我们想要在游戏中表达的精髓。为了确保这些作品不会在其他作品中丢失,并在未来制作游戏续集时很容易找到,我们使用了先进的图像识别工具。”
这些工具对艺术品的各种元素进行分类和标记,无论是角色、风景还是其他元素。科诺瓦尔说:“这使我们的艺术家和开发人员能够快速找到相关的艺术品,从而提供设计一致性,并加快开发进程。此外,这个系统还允许我们存储有关公司艺术品发展的信息,这在培训新员工时非常有用。”
关于音频数据,语音表演在玩家在游戏世界中的体验中扮演着关键角色,科诺瓦尔说。“我们从游戏中的对话、背景声音和玩家语音聊天中收集了大量数据,”他说,“使用语音识别和声音分析,我们可以提取情绪和情绪等细微差别。”
例如,如果某个对话框导致玩家始终兴奋地输入语音聊天,开发人员会注意到这一点,类似地,识别并处理与环境不匹配的异常情况,例如背景噪音。
科诺瓦尔说:“从这些音频数据中得出的见解直接有助于改善游戏的音频体验,确保玩家不断地在游戏中投入情感,并与环境互动。”
科诺瓦尔说,游戏是动态的,它们产生的数据也是动态的。游戏中聊天情绪分析等功能需要实时处理,以过滤玩家的不当行为。“我们已经通过利用像阿帕奇·卡夫卡这样的流处理框架解决了这个问题,”他说,“这使得我们的游戏主持人可以对任何新出现的模式和问题做出实时回应。”
科诺瓦尔说,随着游戏的每一次发布和更新,处理的非结构化数据量都会呈指数级增长。“海量的数据在存储和高效处理方面构成了严峻的挑战。”他说。
为了解决这个问题,RetroStyle Games投资了数据湖。科诺瓦尔说:“这不仅使我们能够存储大量的非结构化数据,还能高效地对其进行查询和分析,为我们的数据科学家和开发人员提供对所需信息的即时访问。”
为GenAI提供动力
分析和执行总监杰西·哈里奥特表示,员工识别和体验软件提供商WorkHuman正在其基于云的平台上以多种方式利用非结构化数据。
哈里奥特说:“非结构化数据是最普遍的数据形式,但也是最难有效使用的。”
工作人员云包含来自世界各地员工的数百万条认可信息,分享对同事的积极反馈。
哈里奥特说:“他们用自己的话做这件事,所以每个识别时刻都是独一无二的。我们使用这些数据来支持人工智能模型,帮助公司更好地定义员工如何在他们的企业中协作,哪些话题在消息中出现得最频繁,以及整个企业的表彰奖励是否公平。”
该公司还使用大型语言模型来总结随着时间的推移的识别趋势,并为有效的识别消息建议语言。
哈里奥特说:“我特别自豪的一项倡议是我们的工具包含顾问,这是一个基于即时人工智能的指导工具,它在将奖项语言发送给获奖者之前,识别并建议对无意识偏见的纠正。”
从非结构化数据中获取价值的最大挑战之一是,对于企业关注的业务用例,对可靠有效的培训数据的访问受到限制。
“你可以拥有大量的非结构化数据,但如果没有有效的训练数据来创建和验证模型,进度和质量将受到影响,”哈里奥特说,“利用LLM当然可以在这方面有所帮助,但现有LLM无法有效地捕获许多业务用例。”
此外,哈里奥特说:“在LLM中,培训数据中仍然可能存在偏见的问题。”WorkHuman有一个语言团队,负责数据注释、增强和验证,以处理其中的一些问题。“我们还与我们的大型跨国客户合作,以确保模型产生有意义和有用的结果。”哈里奥特说。
将非结构化数据转化为价值的一些提示
Harriott、Konoval和其他数据专家就如何在处理非结构化数据时确保成功提供了建议。
将计划与业务成果联系起来。Harriott说,IT领导者应该确保利用非结构化数据的计划与业务需求紧密结合,并得到高管的支持。
哈里奥特说:“通常情况下,一个团队可能对非结构化数据有一个创造性的用例,但与关键业务结果的联系对其他人来说并不明显,可能会失去支持。领导者有责任让企业了解为什么用例很重要,以及它如何直接或间接地推动业务利益。”
认清这段旅程。此外,数据领导者应该在达到计划里程碑时设置并庆祝它们,特别是考虑到使用非结构化数据创造价值的挑战是多么困难。
哈里奥特说:“让非结构化数据具有可操作性可能需要比企业预期更多的时间和精力。通过承认里程碑,领导者让其他利益相关者了解正在取得的进展,并确保他们的团队成员对他们为使非结构化数据可操作所做的努力感到赞赏。”
质量是第一要务,成功的另一个关键是确定数据质量的优先顺序。
科诺瓦尔说:“谚语‘垃圾进来,垃圾出来’再合适不过了。 “在没有确保数据质量的情况下进行分析可能会适得其反,我们一直采取这样的做法:清理数据,删除不必要的数据,并确保其符合质量标准。”
科诺瓦尔说,在游戏行业,“错误的决策可能会导致昂贵的功能开发,玩家可能不会与之产生共鸣,更糟糕的是,错误可能会玷污我们的声誉。我们严格的数据治理框架确保了我们的分析基础坚如磐石。”
将可行动的与信息性的分开。确定业务用户可以对其采取行动的数据的优先顺序也至关重要。主机托管和数据服务提供商数据库的首席运营官乔·米纳里克表示:“重要的是数据量,并能够分析哪些是可操作的,哪些是有用的。”
为了强调这一点的重要性,米纳里克举了一个使用非结构化数据进行系统监控的例子。他说:“必须优先考虑和迅速解决可行的方面。由于系统的许多方面都受到监视,因此单个问题可能会从下游设备生成警报和信息,从而导致需要筛选过多的警报、警报和信息,以确定真正需要解决的单个方面。”
充分利用人工智能。继续他的例子,米纳里克指出了人工智能和机器学习在分析随时间推移的非结构化数据流方面所发挥的宝贵作用。“它可以帮助你建立系统关联,”他说,“这让你可以放下杂音,立即解决问题的根源。”
例如,企业可以部署命名实体识别(NER),这是自然语言处理(NLP)的一个组件,它侧重于识别非结构化文本中的命名实体并对其进行分类,并使用诸如“Person”、“Organization”或“Location”等标签。
米纳里克说:“实际上,实体识别在众多应用中扮演着至关重要的角色。”其中包括索引和企业内容的信息检索系统、在文本中定位答案的问答系统,以及根据识别的实体对内容进行个性化的内容推荐引擎。
“通过识别和分类命名实体,NER使数据分析师和系统工程师能够从收集的海量数据中获得有价值的见解。”米纳里克说。
通过可视化确保价值。米纳里克说,使非结构化数据可用的过程不会随着分析而结束,它的最终结果是报告和传达调查结果。
米纳里克说:“报告通常包括对关键发现、方法和分析的影响的结构化陈述。可视化,如图表、图形和仪表板,有助于以可理解的格式传达复杂的数据。可视化表示不仅有助于理解,还使利益相关者更容易识别趋势、离群值和关键洞察力,确保及时做出数据驱动的决策。”
边走边监控。米纳里克说,另一个有时被忽视的关键做法是需要持续监测和维护。他说:“现实生活中的数据是动态的、不断演变的。持续监控和维护对于确保数据在一段时间内保持可用至关重要。”
米纳里克说,关键是定期清理和进行质量检查,以保持数据的准确性和可靠性。必须及时识别和纠正数据异常、不一致和重复,以防止歪曲或错误的分析。
保持团队技能的敏锐性。最后,投资于正确技能的开发是一个很好的实践——考虑到底层工具的不断发展,这一努力必须持续下去。
“数据分析的世界是动态的,尤其是围绕非结构化数据,”科诺瓦尔说,“最小的优势,比如一支精通最新图像识别技术和分析概念艺术的团队,可能是一款游戏成功或失败的区别。我们已经看到了先进技术的结果如何影响了我们游戏的故事讲述和设计,从而产生了积极的反馈,增加了玩家的参与度。”