DEEPZONE

 ลืมรหัสผ่าน
 ลงทะเบียน
ค้นหา
ดู: 865|ตอบกลับ: 0

从存储中提取数据后,Spark 将其读入内存进行处理

[คัดลอกลิงก์]

1

กระทู้

1

โพสต์

5

เครดิต

Newbie

เครดิต
5
完成后,Spark 将需要一个位置来存储和/或传递结果(因为它不是数据库)。这可以返回到 S3,然后从那里进入 Redshift(看看这个答案去哪里了?)。 您需要知道如何编写代码来使用 Spark(这就是“编写应用程序”部分的用武之地)。这意味着使用 Spark 的人通常是开发人员。 火花流 - 火花和红移 - 混合 来源:  Spark Streaming – Spark 2.1.1 文档。 您需要知道如何编写代码来使用 Spark(“编写应用程序”部分)。所以使用 Spark 的人通常是开发人员。 红移 Amazon Redshift 是一个分析数据库。借助 Redshift,您可以: 构建一个统一多个来源数据的中央数据仓库。 使用 SQL 对所述数据运行大型、复杂的分析查询。


报告并将结果传递到仪表板或其他应用程序 Redshift 是 Amazon 提供的托管服务。原始数据流入 Redshift(通过称为“ ETL”的过程),在那里以常规节奏(“转换”或“聚合”)或临时基础(“临时查询”)进行 电子邮件营销列表 转换和转换。加载和转换过程的另一个术语是“数据管道”。 amazon-redshift-architecture - Spark 和 Redshift - 混合 资料来源:亚马逊网络服务 人们对 Redshift 感到兴奋有以下三个原因: Redshift 之所以速度快,是 因为其大规模并行处理 (MPP) 架构可以分发和并行化查询。Redshift 允许高查询并发性,并且还在内存中处理查询。 Redshift 很简单,因为它可以摄取高达 PB 或更多的结构化、半结构化和非结构化数据集(通过 Amazon S3 或 DynamoDB),然后使用 SQL 以您能想象的任何方式对数据进行切片和切块。 Redshift 很便宜 ,因为您可以以数据仓库领域基本上闻所未闻的价格存储数据。



例如,如果您预付费用三年,则可以 花费 2,465 美元租用容量为 5 TB 的dc2.large 节点。 简而言之,Amazon Redshift 的承诺是让数据仓库变得更便宜、更快、更容易。您可以分析比以往更大、更复杂的数据集,并且有一个 丰富的 可与 Redshift 配合使用的工具生态系统。 关于 Redshift 还有一些值得注意的点: Redshift 自称为“完全托管服务”。“托管服务”部分绝对是正确的 — Redshift 从硬件层向下进行全面管理。然而,“完全”部分可能有点误导——如果您想从 Redshift 中获得最大性能,需要调整很多旋钮。 默认情况下,您的 Redshift 为空。但是,有大量的 数据集成/ETL 工具 可让您快速填充集群并开始分析和报告数据以进行商业智能和分析。

ขออภัย! คุณไม่ได้รับสิทธิ์ในการดำเนินการในส่วนนี้ กรุณาเลือกอย่างใดอย่างหนึ่ง ลงชื่อเข้าใช้ | ลงทะเบียน

รายละเอียดเครดิต

ข้อความล้วน|อุปกรณ์พกพา|ประวัติการแบน|DEEPZONE

GMT+7, 2024-9-17 03:29 , Processed in 0.040373 second(s), 18 queries .

Powered by Discuz! X3.5, Rev.3

Copyright © 2001-2021 Tencent Cloud.

ตอบกระทู้ ขึ้นไปด้านบน ไปที่หน้ารายการกระทู้