加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_扬州站长网 (https://www.0514zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据存储平台方案

发布时间:2023-01-13 18:31:53 所属栏目:大数据 来源:网络
导读: 白皮书IBM:一流的大数据存储平台作者:**分析师NikRouda、MarkPeters2015ESG白皮书受IBM委托制作,由ESG特许发布。EnterpriseStrategyGroup,Inc.2015版权所有。保留所有权利。白皮书:IBM

白皮书IBM:一流的大数据存储平台作者:**分析师NikRouda、MarkPeters2015ESG白皮书受IBM委托制作,由ESG特许发布。EnterpriseStrategyGroup,Inc.2015版权所有。保留所有权利。白皮书:IBM:一流的大数据存储平台EnterpriseStrategyGroup,Inc.2015版权所有。保留所有权利。目录大数据需要大存储IBMSpectrumScale的优势EnterpriseStrategyGroup(ESG)认可的来源获得,但ESG不就此提供任何保证。本出版物可能包含ESG的观点,ESG可不时予以更新。本出版物的版权归属于EnterpriseStrategyGroup,Inc。在未取得EnterpriseStrategyGroup,Inc.明确同意的情况下,对本出版物全部或部分内容的任何复制或再发布,无论其采取硬拷贝形式、电子方式或是提供给未获授权的个人,都应视为违反美国版权法,可能会受到民事赔偿起诉以及适当的刑事检控。如有任何问题,请随时联系ESG客户关系部门。电话:***.***.***8。白皮书:IBM:一流的大数据存储平台EnterpriseStrategyGroup,Inc.2015版权所有。

保留所有权利。大数据需要大存储将大数据集成到业务活动中针对大数据的潜能存在大量宣传。这种宣传源自对潜在应用真真切切的热忱。组织机构希望借助大数据与分析来推动对其客户及其自己业务运营更具体的洞察力,从而实现产品与服务的创新。他们希望决策不是由“企业内部职位最高的人”所决定,而是由“最了解局势的人”所决定。对于许多企业而言,这个目标需要成功地进行文化革新与技术革开支计划调查(2015SpendingIntentionsSurvey)探讨了个方面的投资重点,结果显示:大数据、商务智能与分析的综合领域是增速最快的部分之一。与声称该论断不具持续性的悲观主义者相反,企业与终端市场受访者均表明他们会继续专注于分析,同时计划增加该方面支出的公司比率较去年也在增长。图2014对比2015针对业务智能、分析或大数据技术解决方案的总体年度支出变化,2014vs.2015。(受访者百分比)0%20%30%40%50%60%70%来源:EnterpriseStrategyGroup,2015NoSQL数据库等更新的数据平台;高级分析;直观的可视化和报告工具。增长的大部分投资都流向了需要用来支持各种分析方法的基础架构。

有趣的是,正如在软件的多种选择上存在诸多争论一样,在如何构建理想的底层存储环境方面也未达成共识。当今,在架构模型与组件方面存在广泛的选择,包括商品或专门构建、企业预置型或云方案、开源型或专有型、专用型或共享型。所有选择对该综合解决方案的整体功能均有极大的不同影响。正如许多客户现在开始意识到的那样,大数据的绝对范围正在推动着需求日益增长。对于许多客户而言,如今大数据正在接近传统高性能计算(HPC)空间的极限,而这在过去常常只是资金充足的高级研究实验室和政府数据中心的专利。在这些极端环境中所获得的许多教训将运用至更广泛的大数据世界。大型企业发现他们如要实现目标,急需大规模分析功能。来源:ESG研究报告,《2015消费意愿调查(2015SpendingIntentionsSurvey)》,2015BI/分析支出将增加BI/分析支出将保持平稳BI/分析支出将减少7%7%33%45%48%60%2015(N=175)2014(N=187)白皮书:IBM:一流的大数据存储平台EnterpriseStrategyGroup,Inc.2015版权所有。保留所有权利。此类新需求的主题是高效托管数据的能力。

数据结构的堆栈_大数据堆栈_堆栈的数据访问规则

大数据技术堆栈的基础是存储层。尽管普遍认为智能软件可高效管理分配在许多“廉价”商品服务器上的存储,但存储的实际特征及其上构建的应用最终还是取决于硬件基础架构。性能、可扩展性、可靠性、可用性、可接入性和可管理性都是基本的运营需求,但是就获取大数据解决方案最佳结果存在哪些要求,常常存在错误的假设。令人困惑的领域之一是企业数据库、数据中心或数据档案中所收集的数据量与一般分析工作所需的实际数据量的对比。尽管针对大数据易于理解的第一用例,尤其Hadoop平台,是用于后期分析的所有企业数据的集聚,但事实是一项任务平均只使用了小部分的该信息。未使用数据可能不如活动数据有价值,但是仍值得最终保存。图表明,尽管数据湖可能会囊括拍字节,但受访者指出大部分分析任务仅使用不到25太字节。这暗示了客户需要一个知识库,既可交付具有成本效益的档案,又可访问针对任何指定用途最相关的数据集。在典型的BI/分析练习中处理的数据量平均看来,总共约有多少数据作为典型BI/分析练习的部分而进行处理?(受访者百分比,N=370)40%35%30%25%20%5%0%500GB到999GB26TB50TB多于50TB未知除了正在构建的相关数据规模外,查看来自不同位置的各种数据来源也非常重要。

但并非总是如此。在过去,大部分分析是针对结构良好的数据库和数据仓库而进行的,但如今,则期待更多的可变性。图表明了这种变动范围。尽管在任何指定分析工作中通常只使用了种数据源,但必须要支持所有来源,才能确保在不依赖来源的情况下共同使用。尽管从未表明来自企业应用的结构化数据会消失,且来自网站、社交平台、传感器的信息输入可能会排名更低,但这些结构化程度较低的外部数据源是针对大数据融合增长最快、最引人注目的领域。该趋势表明托管数据的传统方法可能无法满足现代企业的需求。来源:ESG研究报告,《企业大数据,商务智能和分析趋势(EnterpriseBigData,BusinessIntelligence,AnalyticsTrends)》,2015出处同上。4%35%23%5%0%3TB11TB25TB少于500GB来源:EnterpriseStrategyGroup,2015EnterpriseStrategyGroup,Inc.2015版权所有。保留所有权利。企业为实现BI/分析目标而使用或计划使用的数据源贵企业为实现BI/分析目标会使用或计划使用以下哪种数据源?(受访者百分比,N=370,接受多份问卷调查)来自企业应用的结构化数据来自内容管理系统的数据0%5%20%25%30%35%来源:EnterpriseStrategyGroup,2015针对大数据存储的推荐选择标准需要用于分析的景观数据正在迅速发展,因此架构师如何着手为其所有数据选择一流的存储基石?好消息是,容易理解的传统企业运营需求没有变化,只有可向他们交付的技术存在变化。

最重要的一些需求包括:很明显,追求大数据计划的大部分客户将要存储大量数据。存储平台的任何内在规模限制都应仔细考虑,并着眼于满足未来增长。扩展的成本效益几乎与任何物理限制同等重要。 拥有大量可用数据并非很有帮助,除非可对这些数据进行及时处理与分析。实时流分析的趋势使该问题日益严重,而创造性索引、柱状格式及内存数据的技巧还远远不够。存储的实际能力仍将显 露出来。闪存可能适合提升正在分析中使用活跃的数据。 通常,所需的规模与性能是可实现的,但一直使用最快速介质的成本极其高昂。一个完备的存储平台应能够无缝转移数据,以满足业务需求并提供不同质量的数据。 针对大数据多样性的多协议可接入性-尽管已做标注,但不同的数据源会拥有不同的用例。不同应用可能需要 使用相同的数据集, 且执行大量的数据移动与连接操作将增加开销与延迟。如果单个中心存储库在本质上可 用于多个目的,则管理便会更经济、更容易。 自定义应用数据 来自特定行业应用的结构化数据 来非结构化数据 第三方数据 服务器日志 地理数据 传感器和/或机器数据 情感和/或社交网络数据 Web 和/或点击流数据 31% 28% 27% 27% 25% 24% 23% 22% 21% 21% 19% 白皮书:IBM:一流的大数据存储平台 EnterpriseStrategy Group, Inc. 2015 版权所有。

数据结构的堆栈_大数据堆栈_堆栈的数据访问规则

保留所有权利。 在特殊的大数据环境中,评估存储平台如何交付这些需求将会充满困惑,尤其是在供应商营销信息的情境中。关于新 平台宣传如何驱动令人误解的架构假设,Hadoop 便是一个极好的例子。 虽然共同的前提是大数据分析部署应采用预 置的专用型嵌入式商品服务器,但这未必是同时满足您所有运营需求的最佳方法。大数据架构师应考虑更广泛的存储 平台选择,包括 SAN、NAS,甚至云 IaaS。所有的模型都是可行的,但还将展示其独特的结果概要。 IBM Spectrum Scale 的优势 一个考虑因素是许多大数据技术堆栈中相对不成熟的存储功能,而这并非总是足够强大。与许多传统的企业存储方法 相比,Hadoop 并没有长期发展,其大部分工作更多地面向于分析功能,而非改进存储功能。随着大数据与 HPC 间的界限变得模糊起来,在存储平台功能中可学到一些相关的教训,以便在极端环境中进行工作。公司在企业存储与 HPC 中充分利用其长期体验,从而提供更成熟的存储大数据的方法,IBM 便是一个极好的例子。 IBMSpectrum Scale 存储平台是从 GPFS 发展而来,于 1998 年进入市场。显然,IBM 已在重点发展这种成熟 平台。

Spectrum Scale 可处理大数据存储的关键需求。 因为大数据环境无疑只会变得更大大数据堆栈,了解基础存储会应对未来数据增长是至关重要的。Spectrum Scale 能够避免在独立、冗余的存储环境中进行拷贝,从而极大地降低了激增数据所使用的 容量。此外,如今该文件系统可扩展至大量艾字节和数万亿的不同对象。 作为分布式、嵌入服务器存储的备选产品,该单个全球命名空间可对数据首次登陆位置进行分析,不需要在大数据分析集群上的 HDFS 中填入另一组相同数据,也无需为长期数据存储、ETL 处理、 Hadoop 数据存储创建独立环境。这具备减少分析开始之前加载数据所需时间的附加优势。 不同用户可利用数据及其所需的应用,无需在开始时移动这些数据或应用,或预先决定其使用方式。该数据的统一副本可同时用于多个 MapReduce、YARN 和许多其他的 Hadoop 生态系统 工具,通过本地兼容 POSIX 的文件系统和 NFS,该数据仍可进行具有多协议访问的非大数据分析应用。 借助本地缓存数据集,无需牺牲性能便可支持分布式数据。在本地或云端,对于原始应用或消费者有益地方均支持数据。 SpectrumScale 存储平台中提出了额外的强大功能。

File Placement Optimizer (FPO) 与分布式文件系统协作,在大部分适合节点智能使用本地磁盘。分层存储管理 解决了热、暖、冷数据的平衡问题,并放置于最适合的存储层。借助 IBM Spectrum Protect TivoliStorage Manager),磁带或其他介质可作为近线存储层的杠杆。快照可提供数据保护、版本控制和最新的 一致性数据拷贝,以实现测试与发展目标。尤其是,管理整个数据生命周期并实现管理自动化与简化,这些功 能将会极具价值。 白皮书:IBM:一流的大数据存储平台 EnterpriseStrategy Group, Inc. 2015 版权所有。保留所有权利。 更重要的真相 大数据计划是由数据科学家与应用开发者启动的,他们会很自然地更专注于高级分析功能,而非满足企业 运营需求。Hadoop 存储的默认方法通常效果很好,但当基础架构和运营团队需要针对更广泛的客户群确保大规模关键资源的交 付可靠性时,该默认方法可能会导致问题。通常,由于在更小的原型环境中未预见的问题,项目会延迟或取消。企业 应重新思考其大数据存储选择的架构影响,因为这将是获得最终成功的决定性因素。

如今,许多企业发现采用 Hadoop 的方法极具优势,IBM 等领先企业正在挑战如何能够以最佳的方式在大数据空间中 托管数据。客户发现成熟强大的共享存储平台可更好地执行任务,更具扩展性,且能满足生产环境更复杂的需求。很 明显,存在多种有效的存储方法,但必须确保满足环境所需的灵活性与敏捷性。 应该指出的是,IBM 凭借大量解决方案极大地推动了大数据与分析空间,这些方案包括 BigInsights (Hadoop)、 Watson(认知)、PureData(数据仓库)、DB2 BluAcceleration(内存数据库)、Informix(IoT 数据库)、 Cloudant(数据库即服务)以及更多的数据管理产品。因此 Spectrum Scale 存储平台只是广泛技术组合的一部分, 在许多情况下,整合产品具有优势。事实上,IBM 最近宣布了一项针对 IBM Spectrum Storage 解决方案软件定义存 10亿美元的投资,包括旨在巩固其在软件定义存储方面领导力的 Spectrum Scale。由于具备领域认可的企业服 务、咨询、支持,许多客户相信当其需要帮助获取结果时,他们可依靠 IBM。 DCL12403-USEN-00 20 Asylum Street Milford,MA 01757 电话:508.482.0188传真:508.482.0218

(编辑:应用网_扬州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!