1、数据产出的企业级要求:
2、DataWorks任务常见问题
A、任务无产出且日志显示等待gateway资源
- B、同步任务日志出现大量Speed为零的情况,导致大批量任务一直处于运行中状态
3、DataWorks任务资源使用机制、问题及解决
DataWorks以两次计算资源,按照用户预期(依赖关系、定时时间)运行用户
A、默认共享资源组使用机制
如下图,为2月13号凌晨2点开始调度的5个任务(三个计算任务、两个同步任务)。任务通过1(调度资源组)后,其中计算任务下发到2(计算引擎),同步任务下发到3(同步资源组)
B、默认共享资源组所带来的问题
a、无法消化代码(排队,等待GateWay…)
b、(排队,等待GateWay…)
原因:资源共享,在业务高峰期,每个企业任务能拿到的资源是不同的,会导致任务可能无法准时调度、分配不到同步任务线程。
C、解决方法--独享资源组
优点:独享资源组机器专属于自己的阿里云主账号,资源不会发生外界的资源抢占问题。
- 成本计算
A、调度资源组:
公共调度资源组收费策略
独享调度资源组收费策略
购买建议:
每日调度实例>500时,多数情况下独享资源比共享资源组更省钱(预估期望每天8h完成任务,每个任务运行5min)(产出时间越宽裕越省、任务平均运行时间越低越省、并发要求越低越省)
可先购买较少数量的资源,先承载上游核心调度任务,后期不够扩容。
- 数据集成资源组
此类任务由于共享资源组收费较低,故大部分情况下费用会低于独享数据集成资源组(收费情况同调度资源组)
公共数据集成资源组收费策略:
- 注意事项
- 选择正确的Region(资源组目前不可跨Region使用)
- 建议购买2台及其以上资源组,以便实现高可用
- 测试后再上线任务
- 独享数据集成资源组相关注意事项:
需要与数据源绑定在同一个VPC交换机(vswitch)下,绑定后也仅支持访问该交换机下的数据源
暂不支持经典网络数据同步
如数据源跨vswitch,则需提交工单打通路由
如数据源跨VPC,则用户先自行打通高速通道,再提交工单打通路由。
如果数据源在IDC,则用户拉通云上物理专线,再提交工单打通路由。