从存储中提取数据后，Spark 将其读入内存进行处理

barikulislam015 · โพสต์ 2023-11-22 18:09:09

完成后，Spark 将需要一个位置来存储和/或传递结果（因为它不是数据库）。这可以返回到 S3，然后从那里进入 Redshift（看看这个答案去哪里了？）。您需要知道如何编写代码来使用 Spark（这就是“编写应用程序”部分的用武之地）。这意味着使用 Spark 的人通常是开发人员。火花流 - 火花和红移 - 混合来源： Spark Streaming – Spark 2.1.1 文档。您需要知道如何编写代码来使用 Spark（“编写应用程序”部分）。所以使用 Spark 的人通常是开发人员。红移 Amazon Redshift 是一个分析数据库。借助 Redshift，您可以：构建一个统一多个来源数据的中央数据仓库。使用 SQL 对所述数据运行大型、复杂的分析查询。

报告并将结果传递到仪表板或其他应用程序 Redshift 是 Amazon 提供的托管服务。原始数据流入 Redshift（通过称为“ ETL”的过程），在那里以常规节奏（“转换”或“聚合”）或临时基础（“临时查询”）进行 电子邮件营销列表 转换和转换。加载和转换过程的另一个术语是“数据管道”。 amazon-redshift-architecture - Spark 和 Redshift - 混合资料来源：亚马逊网络服务人们对 Redshift 感到兴奋有以下三个原因： Redshift 之所以速度快，是因为其大规模并行处理 (MPP) 架构可以分发和并行化查询。Redshift 允许高查询并发性，并且还在内存中处理查询。 Redshift 很简单，因为它可以摄取高达 PB 或更多的结构化、半结构化和非结构化数据集（通过 Amazon S3 或 DynamoDB），然后使用 SQL 以您能想象的任何方式对数据进行切片和切块。 Redshift 很便宜，因为您可以以数据仓库领域基本上闻所未闻的价格存储数据。

例如，如果您预付费用三年，则可以花费 2,465 美元租用容量为 5 TB 的dc2.large 节点。简而言之，Amazon Redshift 的承诺是让数据仓库变得更便宜、更快、更容易。您可以分析比以往更大、更复杂的数据集，并且有一个丰富的可与 Redshift 配合使用的工具生态系统。关于 Redshift 还有一些值得注意的点： Redshift 自称为“完全托管服务”。“托管服务”部分绝对是正确的 — Redshift 从硬件层向下进行全面管理。然而，“完全”部分可能有点误导——如果您想从 Redshift 中获得最大性能，需要调整很多旋钮。默认情况下，您的 Redshift 为空。但是，有大量的数据集成/ETL 工具可让您快速填充集群并开始分析和报告数据以进行商业智能和分析。

		จำสถานะนี้ไว้ในครั้งหน้า	ลืมรหัสผ่าน
รหัสผ่าน			ลงทะเบียน