个推大数据降本提效实战分享-相关技术问答

个推透明存储实践

列式存储（Column-oriented Storage）是大数据场景中面向分析型数据的主流存储方式。与行式存储相比，列式存储只提取部分数据列、同列同质数据，具有更优的编码及压缩方式。目前，个推的核心数据正逐步切换为Parquet等新型数据格式存储以获得更高的I/O性能和更低的存储成本。

个推数据部降本提效团队资深数据研发工程师筱得围绕透明存储概念、文件读取流程、透明存储实现方式等，为大家详细解读了个推透明存储优化的全过程。

分享过程中的相关问答：

Q1：如何量化和评估透明存储的收益？

A：量化维度分两方面，首先是从提效方面来衡量，即使用效率是否提升，比如用户（数据分析师）处理业务需求时的数据使用效率提升情况。目前我们结合多个类型的任务综合来看，透明存储能够使跑数时间缩短30%；其次是降本方面，即资源消耗是否有减少，可以通过CPU核的使用时长以及内存使用时长进行量化评估。

Q2：透明存储如何实现历史工程对数据格式的兼容和切换？

A：在兼容方面，我们是通过扩展Hadoop的读写API，来增加存储格式自动识别和切换能力；在切换方面，我们先对Hadoop、Spark的提交命令进行了扩展，增加hook，并引入了切换数据格式的黑白名单，从而让任务启动时能够获取要变更的信息；通过以上方式，最终实现了对历史工程的数据格式无感知切换。

个推依托海量数据资源和强大的建模能力，形成3,000余种数据标签，构建了丰富、立体、多维的画像标签体系，从而为行业客户提供数据洞察相关服务，比如APP精细化运营、广告投放人群定向等。

由于业务方的标签组合复杂多样，所以在对大规模数据进行计算和标签构建的过程中，如何加速标签计算，实现秒级人群圈选和洞察便成为我们需要攻克的难题。

个推每日治数平台团队高级数据研发工程师之昂基于每日治数平台DIOS的开发实践，深度剖析了有效提升标签存算以及人群圈选效率的核心技术手段。

分享过程中的相关问答：

Q1：Spark的shuffle和Hadoop的shuffle（MapReduce)有什么区别？

A：MapReduce的shuffle和Spark的shuffle在功能上是几乎没有区别的，都是对Map端的数据进行分区（有聚合排序和不聚合排序两种方式），然后在Reduce端或者下一个调度阶段拉取数据，从而完成Map端到Reduce端的数据传输功能。

Q2：直播中讲到ClickHouse不支持高并发，原因是什么？对于集群的ClickHouse写入，有哪些需要注意的地方？

A：ClickHouse之所以快是因为底层采用了并行处理机制，默认单次查询使用的CPU核数是服务器核数的一半，所以对高并发的使用场景支持得不是很好。如果一定要支持高并发，建议在查询层增加限流。

降低企业IT成本的一个有效手段是大幅提升IT资源的利用效率。麦肯锡的一份研究报告显示，全球服务器的平均每日利用率通常低于10％，Flexera的一份报告也显示，企业上云后平均浪费了30%的云支出，云成本优化是企业在2021年最想做的事情。那么如何提升IT资源效率，降低IT总投入？

来自贝联珠贯的杨少华博士为大家分享了大数据任务优化、在/离线混部等能够有效提升IT资源效率的核心技术手段。

分享过程中的相关问答：

Q1：一般如何实现在/离线混部？

A：不同公司的实现方式可能不一样。我们是这样做的：Step1. 将离线任务通过k8s调度到在线机器上；Step2. 使用Agent动态调节在/离线资源的配额；Step3. 利用内核的一些隔离技术进行隔离，在必要时进行干预，例如在紧急情况下限制离线任务的资源，这种方式会对机器内核版本有一些要求。