如何在云端更好地使用 Apache Spark,1029 SA Immersion Day 线上培训回顾
2020-11-19




10月29日上午,由上海-亚马逊 AWS 联合创新中心举办的亚马逊 AWS SA Immersion Day (Workshop) SA Hours 线上技术培训会圆满结课。数家入驻企业报名参加了本次培训,两名 AWS 的方案架构师担任讲师,为学员们带来 AWS 云上基础服务介绍、如何利用 AWS 服务更好地使用 Apache Spark,并带领学员们进行了一项动手实验:在AWS 上构建一个无服务器数据处理解决方案。







参加本次培训的学员多数来自于科创企业,先前对于 AWS 的了解并不深入,第一位讲师先就大家所关心的 AWS 基础服务内容做了详细讲解。AWS 全球云基础设施是最安全、扩展性和可靠性最高的云平台,可提供来自全球数据中心的 175 多种功能全面的服务。无论是需要通过一键单击在全球部署应用程序工作负载,还是想要构建和部署更接近最终用户的特定应用程序,使其延迟达到个位数毫秒级,AWS 都能在企业需要的位置和时间为其提供云基础设施。数百万客户(包括增长最快速的初创公司、最大型企业和主要的政府机构)都在使用 AWS 来降低成本、提高敏捷性并加速创新。


在所有云服务提供商中,AWS 拥有最丰富的大规模运营经验。在超过 14 年的时间中,AWS 一直在为运行各种用例的全球数百万客户提供云服务AWS 具有无与伦比的经验、成熟度、可靠性、安全性和性能,企业可以将其用于最重要的应用程序。并且,借助 AWS,企业可以利用最新技术更快地进行实验和创新。AWS 将不断加快创新步伐,以发明企业可用于转变业务的全新技术。


AWS 云计算优势
  • 最多的功能

  • 最大的客户和合作伙伴社区

  • 最安全

  • 最快的创新速度

  • 最成熟的运营专业能力






第二位讲师带来的培训主题为“碰撞出不一样的火花——如何在云端更好地使用 Apache Spark”。Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。它提供使用 Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。您会发现各行业的众多组织都使用它,其中包括 FINRA、Yelp、Zillow、DataXu、Urban Institute 和 CrowdStrike。Apache Spark 已经成为最受欢迎的大数据分布式处理框架之一。


Apache Spark 是理想的云端工作负载,因为在云中能够实现性能、可扩展性、可靠性、可用性以及大型规模经济。ESG 研究发现,43% 的调查对象认为云是他们部署 Spark 的主要原因。客户将云视为 Spark 的优点之一的主要原因是更好的安全性、更快的部署、更好的可用性、更频繁的特性/功能更新、更具弹性、更广的地理覆盖范围以及与实际利用率相关的成本。


在 Amazon Web Services 的云中构建您的 Apache Spark 集群

Amazon EMR 是在云中部署 Apache Spark 的最佳位置,因为它既具备商用 Hadoop 和 Spark 分配的集成和测试严谨性,又有云的规模、简单性和成本效益。它让您可以在几分钟内启动 Spark 集群,而无需执行节点预置、集群设置、Spark 配置或集群优化。EMR 让您可以在短短几分钟内预置一个、上百个或成千上万个计算实例。您可以使用 Auto Scaling,让 EMR 自动扩展您的 Spark 集群来处理任何规模的数据,并在作业结束时再次缩减,以避免为未使用的容量付费。您可以通过 Amazon EC2 预留实例承诺使用一段固定的时间,实现最多 75% 的节省,或使用 EC2 Spot 在备用的 AWS 计算容量上运行您的集群,实现最多 90% 的节省,从而降低您的账单金额。







培训最后是动手实验环节。在导师的带领下,在线的学员们根据步骤进行动手操作,踏出使用 AWS 构建大数据应用的第一步:在 AWS 云端构建一个无服务器数据处理解决方案。




共有多家入驻企业参与了由此次线上培训会,现场气氛热烈,讲师与学员间互动频繁。经过此次培训和交流,学员们也对 AWS 的产品、服务、技术,及初创企业如何使用 AWS 构建大数据应用有了更进一步地认识和了解,加强了入驻企业与 AWS 之间的联系。上海-亚马逊 AWS 联合创新中心依托 AWS 的全球品牌影响力和国际化的应用创新成果,将持续为入驻企业提供更多的 AWS 技术培训会,敬请期待!