批量加载数据

barikulislam016 · 发表于 2023-12-7 12:21:41

Redshift 支持海量数据集，因此请通过批量加载数据来利用这一点。通过这样做，您将充分利用 Redshift 的无限可扩展性（由 Amazon S3 支持），从而更轻松地将大量数据快速复制到 Redshift 控制台。

为了正确执行此操作，在将大型数据集复制到 Redshift 之前，将其全部累积到 S3 存储桶中，并在转换之前使用临时暂存表将其保留在那里。这将允许您对累积的所有数据执行批量复制操作，此时临时暂存表 电子邮件营销列表 将被删除（但不会被删除，因此请记住上面的步骤）。

使用 Amazon Redshift 工作负载管理 (WLM) 进行 ETL
如果您打算尝试为 Amazon Redshift 构建自己的 ETL 解决方案，您最终可能会使用工作负载管理引擎 (WLM)。由于 Redshift 本身主要针对读取查询进行了优化，因此 Redshift 建议将 ETL 等进程发送到 WLM 队列。

您的 WLM 配置需要为您的 ETL 流程运行时定义一个单独的队列。通常，您将其配置为使用最多 5 个插槽数运行，同时声明特定队列可用的额外内存，并利用动态参数来设置和控制内存使用量。

相对而言，单独的查询槽（或“查询组”）可以实现快速查询，但使用 WLM 引擎有很大的缺点。Redshift 独特的架构使得任何人在不熟悉 Redshift 内部工作原理的情况下都很难建立高效的 ETL 流程。在决定如何继续之前，了解 Redshift 默认 ETL 选项的缺点非常重要。

		自动登录	找回密码
密码			立即注册