最近在优化公司的数据仓库项目中ETL部分,发现有一处明显可以改进的地方,发出来和大家分享一下。
在数据仓库中一个一个超级大维度表(1亿左右的记录),更新这个维度表的时候,采取的策略是最简单的1类渐变维度,即存在则更新,不存在则插入。
原先的方式是在ETL过程中先查找这个大表本身,如果存在就打上update标记,不存在就打上insert标记,最后通过分支来分别插入和更新数据记录。每次执行这个job的时候,都要耗去相当多的时间,以前也没有想过去优化。
研究了一下,这个维度表中含有创建时间和最近更新时间这两个字段,发现我只要通过判断这两个时间是否在同一天就可以判断是该插入还是该更新(这里说明一下,我们的数据仓库数据一天更新一次,增量更新的是前一天数据),这样就省去了大量的查找表操作,要知道到这么大一个表里面去频繁做lookup是非常低效的。
action,修改了程序,发现该job执行效率提升了60%,oh yeah。
这里前提是维度表中有创建时间和最近更新时间这两个字段,其实如果没有最近更新时间也是可以做到的,那么就需要另外存放一个值,每天跑这个job的时候,把这个值更新为数据所属的日期,那么这个日期就可以当成上面的最近更新时间来用。