|
Redshift 支持海量数据集,因此请通过批量加载数据来利用这一点。通过这样做,您将充分利用 Redshift 的无限可扩展性(由 Amazon S3 支持),从而更轻松地将大量数据快速复制到 Redshift 控制台。
为了正确执行此操作,在将大型数据集复制到 Redshift 之前,将其全部累积到 S3 存储桶中,并在转换之前使用临时暂存表将其保留在那里。这将允许您对累积的所有数据执行批量复制操作,此时临时暂存表 电子邮件营销列表 将被删除(但不会被删除,因此请记住上面的步骤)。
使用 Amazon Redshift 工作负载管理 (WLM) 进行 ETL
如果您打算尝试为 Amazon Redshift 构建自己的 ETL 解决方案,您最终可能会使用工作负载管理引擎 (WLM)。由于 Redshift 本身主要针对读取查询进行了优化,因此 Redshift 建议将 ETL 等进程发送到 WLM 队列。
您的 WLM 配置需要为您的 ETL 流程运行时定义一个单独的队列。通常,您将其配置为使用最多 5 个插槽数运行,同时声明特定队列可用的额外内存,并利用动态参数来设置和控制内存使用量。
相对而言,单独的查询槽(或“查询组”)可以实现快速查询,但使用 WLM 引擎有很大的缺点。Redshift 独特的架构使得任何人在不熟悉 Redshift 内部工作原理的情况下都很难建立高效的 ETL 流程。在决定如何继续之前,了解 Redshift 默认 ETL 选项的缺点非常重要。
|
|