大数据5V的云成本影响
作者:青云计算机    更新时间:2019-07-25 09:28:47

企业将大数据分析迁移到云端为用户打开了许多大门,但前提是他们要控制成本,并了解大数据的5V。

1542706363947.jpg领先的IT基础设施领导厂商,卓越的系统解决方案服务商。

企业越来越多地将云平台用于大数据分析。这些平台提供了可扩展的替代方案,与内部部署系统相比可以节省更多的资金,但前提是使用得当。

成本控制对于各种规模和经验水平的企业来说都是一个问题,即使那些精通云计算的企业也是如此。这就是用户必须了解云计算分析和大数据的规模、多样性、速度、准确性、价值这五个V的原因。这些用户必须学会明智地消费,以最大化投资回报率。

5V和云计算分析

将数据和分析纳入云端为用户提供了新的选项来处理分析,如果它符合大数据的五个V的话:

1.规模(Volume)

顾名思义,大数据就是巨大的数据量。云端提供了几乎无限的存储容量,这就是它随着数据量不断增长而成为吸引企业和政府机构有力选择的一个原因。

将数据和分析转移到云端在管理规模(Volume)方面发挥了很好的作用,因为它为用户提供了灵活性和可扩展性,以满足峰值需求。然而,在云存储方面,企业仍应谨慎行事,不应丢失数据包。如果用户在可能的情况下不使用低成本存储层,或者在云中放置过多不必要的数据,那么成本会迅速增加。

2.多样性(Variety)

作为数据科学术语,多样性(Variety)指的是异构来源,例如结构化数据、半结构化数据、非结构化数据。

例如,IT部门可能需要分析来自其后台和SaaS应用程序的半结构化数据,而会计部门则希望以报告的形式分析结构化数据。同时,营销部门希望分析图片、视频、短信和其他不符合传统数据库行和列的数据。

企业可以使用基于云计算的数据湖来容纳所有这些分析类型等。

3.速度(Velocity)

与云中的大数据相关,速度(Velocity)是来自SaaS应用程序、云平台、物联网设备、社交网络和任何其他与业务相关的数据点的高速信息积累。当组织试图增加足够的处理能力来处理正在生成的大量且连续的数据流时,速度(Velocity)变得更加复杂。

随着组织系统的发展,云平台可以扩展以满足对可操作数据的需求。

4.准确性(Veracity)

无论数据驻留在何处,组织的数据始终存在不一致和不确定性。但是,云计算可以为用户提供更多的空间并变得凌乱,并进一步损害信息的质量和准确性。

如果没有对内部数据准备、治理和管理流程进行审核和潜在改革,就无法实现云分析。

5. 价值(Value)

组织收集的大部分数据几乎没有任何价值,除非IT团队能够将其变为可操作的数据,并为其业务提供优势。

借助基于云计算的自助服务分析,企业的数据科学家可以专注于更具战略性的项目,而业务用户可以获得仪表板、报告以及与数据本身交互所需的用户界面。

云存储的成本影响

当然,如果组织不控制成本,那么所有商业价值都可以很快被否定。但是,由于存储和分析的云计算成本优化与传统的云计算成本优化实践不一致,因此很难获得成功。云计算分析和消费模型可能无法预测,用户通常缺乏他们所需资源的参考框架。此外,云计算管理工具在管理分析的能力方面仍然是一项正在进行的工作。

云计算服务提供商有摄取模型和按使用付费模式这两种主要的定价模式可供最终用户使用。摄取模型计算存储在服务中的数据量。其示例包括Azure Stream Analytics、Google BigQuery。通过Azure Data Lake Analytics、Amazon Kinesis Data Analytics等按使用付费服务,云计算服务提供商根据应用程序运行流处理所需的处理单元数按小时收费。应该注意,容量需求可能会增加,具体取决于正在运行的查询的复杂性。有关模型的具体详细信息(例如,有效和长期使用的潜在定价折扣)取决于所选的云计算服务提供商。应该预期存储与分析之间的成本与性能之间的权衡。

Amazon S3为例,它具有大规模可扩展性,是数据湖泊的理想选择。但是,当用户将数据移动到性能更高且更昂贵的存储(例如Amazon Elastic Block Store)时,则必须忍受较慢的访问速度。IT团队应审核并遵循其提供商的文档,以估算分析工作的经济性。然后,创建一个财务模型来预测使用情况并防止发生意外。在将分析迁移到云端之前,IT团队还应该了解他们的支出历史和成本管理实践。用户了解他们的历史数据和基线数据越多,他们就越能追踪超支情况。虽然自助服务分析对于组织来说是一种吸引力,但如果用户过度放纵和限制不到位,它可能会导致更多的意外账单。云原生和第三方工具可用于监控工作负载的推出。