找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 678|回复: 0

批量加载数据

[复制链接]

1

主题

0

回帖

5

积分

新手上路

积分
5
发表于 2023-12-7 12:21:41 | 显示全部楼层 |阅读模式
Redshift 支持海量数据集,因此请通过批量加载数据来利用这一点。通过这样做,您将充分利用 Redshift 的无限可扩展性(由 Amazon S3 支持),从而更轻松地将大量数据快速复制到 Redshift 控制台。


为了正确执行此操作,在将大型数据集复制到 Redshift 之前,将其全部累积到 S3 存储桶中,并在转换之前使用临时暂存表将其保留在那里。这将允许您对累积的所有数据执行批量复制操作,此时临时暂存表 电子邮件营销列表 将被删除(但不会被删除,因此请记住上面的步骤)。

使用 Amazon Redshift 工作负载管理 (WLM) 进行 ETL
如果您打算尝试为 Amazon Redshift 构建自己的 ETL 解决方案,您最终可能会使用工作负载管理引擎 (WLM)。由于 Redshift 本身主要针对读取查询进行了优化,因此 Redshift 建议将 ETL 等进程发送到 WLM 队列。



您的 WLM 配置需要为您的 ETL 流程运行时定义一个单独的队列。通常,您将其配置为使用最多 5 个插槽数运行,同时声明特定队列可用的额外内存,并利用动态参数来设置和控制内存使用量。

相对而言,单独的查询槽(或“查询组”)可以实现快速查询,但使用 WLM 引擎有很大的缺点。Redshift 独特的架构使得任何人在不熟悉 Redshift 内部工作原理的情况下都很难建立高效的 ETL 流程。在决定如何继续之前,了解 Redshift 默认 ETL 选项的缺点非常重要。  

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表