Amazon EMR 助你轻松实现大数据分析,0330 SA Immersion Day 线上培训回顾
2021-04-09




图片

3月30日下午,由上海-亚马逊云科技联合创新中心主办的的亚马逊云科技 SA Immersion Day (Workshop) SA Hours 技术培训会于线上会议平台如期举行。本次培训共分为两个部分:亚马逊云科技基础服务介绍,以及基于 Serverless 服务 —— Amazon EMR 的大数据分析。







 自 2006 年初起,亚马逊开始在云中为各种规模的企业机构——包括增长最快速的初创公司、最大型企业和主要的政府机构提供技术服务平台。利用亚马逊云科技服务,软件开发人员可以轻松购买计算、存储、数据库和其他基于 Internet 的服务来支持其应用程序。开发人员能够灵活选择任何开发平台或编程环境,以便于其尝试解决问题。由于开发人员只需按使用量付费,无需前期资本支出,亚马逊云科技服务是向最终用户交付计算资源、保存的数据和其他应用程序的一种最经济划算的方式。

亚马逊云科技服务的优势


  • 没有前期投资

    建立本地基础设施费耗时长、成本高,而且涉及订购、付款、安装和配置昂贵的硬件和软件,而所有这些工作都需要在实际使用之前提前完成。使用亚马逊云科技,开发人员和企业再也不必花费时间和资金完成上述活动;相反,他们只需在需要时为所消耗的资源支付费用即可,且支付的金额因所消耗资源量和种类而异。

  • 低成本

    亚马逊云科技服务可在多方面帮助降低 IT 总成本。我们的规模化经济效益和效率提高使我们能够不断降低价格。多种定价模式让客户针对变化和稳定的工作负载优化成本。此外,亚马逊云科技服务还能降低前期 IT 人力成本和持续 IT 人力成本,客户只需投入相当于传统基础设施成本几分之一的成本就能使用广泛分布、功能全面的平台。

  • 灵活的容量

    很难预测用户会如何采用新的应用程序。开发人员要在部署应用程序之前决定容量大小,其结果通常有两种,要么是大量昂贵资源被闲置,要么是容量受限,最终导致最终用户体验不佳,这要到资源限制问题得到解决才能结束。使用亚马逊云科技服务,这种问题不复存在。开发人员可以在需要时调配所需的资源量。如果需要更多,他们可以轻松扩展资源量。如果不再需要,则只需关掉它们并停止付费。

  • 速度和灵敏性

    利用传统技术服务,需要花数周时间才能采购、交付并运行资源。这么长的时间期扼杀了创新。使用亚马逊云科技服务,开发人员可以在几分钟内部署数百、甚至数千个计算节点,而无需任何繁琐的流程。这种自助服务环境改变了开发人员创建和部署应用程序的速度,使软件开发团队能够更快、更频繁的进行创新。

  • 应用而非运营

    亚马逊云科技服务为客户节省了数据中心投资和运营所需的资源,并将其转投向创新项目。稀缺的 IT 资源和研发资源可以集中用于帮助企业发展的项目上,而不是用在重要但是无法使企业脱颖而出的 IT 基础设施上。

  • 覆盖全球

    无论使用亚马逊云科技服务的是大型的全球化公司还是小型的初创公司,都有可能在全球拥有潜在最终用户。传统基础设施很难为分布广泛的用户提供最佳性能,且大多数公司为了节省成本和时间,往往只能关注一个地理区域。利用亚马逊云科技服务,情况则大不一样:开发人员可以使用在全球不同地点运作的相同亚马逊云科技服务技术轻松部署应用程序,以覆盖多个地理区域的最终用户。








培训的第二部分,讲师先向大家详细讲解如何利用 Serverless 服务 —— Amazon EMR 来进行大数据分析,然后通过动手实操,让同学们对于 EMR 的实际应用有了更为深刻的印象。


Amazon EMR 是行业领先的云大数据平台,可使用多种开放源代码工具处理大量数据,例如 Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi 和 Presto。Amazon EMR 通过自动执行耗时的任务(例如,预置容量和调优集群),可以轻松地设置、操作和扩展大数据环境。借助 EMR,您可以用不到传统本地解决方案一半的成本运行 PB 级分析,并且其速度比标准 Apache Spark 快 3 倍以上。您可以使用 Outposts 上的 EMR 在 Amazon EC2 实例上、在 Amazon Elastic Kubernetes Service (EKS) 集群上或在本地运行工作负载。

Amazon EMR 的优势


  • 易于使用

    分析师、数据工程师和数据科学家可以使用 EMR Notebooks来进行协作、交互式探索,以及处理和直观呈现数据。可以简单地指定 EMR 应用程序的版本和要使用的计算类型。EMR 负责预置、配置和优化集群,以便您可以专注于运行分析。

  • 成本低廉

    EMR 的定价简单且可预测:您按每个实例费率为使用的每秒时间付费,最低按一分钟收取。您可以按低至每小时 0.15 USD 的价格启动一个 10 节点 EMR 集群。通过为临时工作负载选择 Amazon EC2 Spot、为长期工作负载选择预留实例,可以将实例成本节省 50-80%。您还可以使用 Savings Plans。

  • 高弹性

    与本地集群要求严格的基础设施不同,EMR 可以将计算和存储分离,使您能够独立扩展每层并利用 Amazon S3 的分层存储。利用 EMR,您可以预置一个、数百个甚至数千个计算实例或容器来处理任何规模的数据。可以借助 Auto Scaling(Auto Scaling 根据使用率管理集群大小)自动增加或减少实例的数量,并且您只需要按实际使用量付费。

  • 可靠

    用于优化和监控集群的时间将会更少。EMR 针对云进行了优化,它还会持续监控您的集群,重新尝试失败的任务,并自动替换性能不佳的实例。集群高度可用,并且可以在节点发生故障时自动进行故障转移。EMR 提供最新的稳定开源软件版本,因此您无需管理更新和修复错误,这可以减少问题并让您轻松维护环境。

  • 安全

    EMR 会自动配置 EC2 防火墙设置以控制实例的网络访问权限,并且您可以在 Amazon Virtual Private Cloud (VPC) 中启动集群。服务器端加密或客户端加密可与 Key Management Service 或您自己的客户管理的密钥一起使用。EMR 可以轻松启用其他加密选项(如传输中加密、静态加密和 Kerberos 强身份验证)。您可以使用 Lake Formation 或 Apache Ranger 对数据库、表和列应用精细数据访问控制。

  • 灵活

    您可以完全控制您的 EMR 集群和单个 EMR 作业。您可以使用自定义 Amazon Linux AMI 启动 EMR 集群,并使用脚本轻松配置集群以安装其他第三方软件包。EMR 使您能够在运行中的集群上实时重新配置应用程序,而无需重新启动集群。此外,您可以通过在 Docker 容器中指定库和运行时依赖项来自定义各个作业的执行环境,并将其与作业一起提交。





图片



图片

讲师条理清晰的讲解加深了新入驻企业对于亚马逊云科技基础服务的认知,并对于如何使用 Amazon EMR 进行大数据分析深入了解。此次线上培训的圆满举办,将入驻企业与亚马逊云科技、创新中心之间的联系变得更为紧密。


依托亚马逊云科技的全球品牌影响力和世界领先的云计算技术,2021年,上海-亚马逊云科技联合创新中心将持续为入驻企业提供更多的亚马逊云科技技术培训会,帮助企业培育高素质技术人才,助推创业企业以创新驱动发展。敬请期待!