Spark 访问 OSS 透明缓存加速

2021-12-18 23:50:00

开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲：Spark 访问 OSS 透明缓存加速】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：

https://developer.aliyun.com/learning/course/833/detail/13972

内容介绍

一、 JindoFS 缓存简介

二、 Spark 访问 OSS 的缓存加速

三、缓存效果

1. Jindo Namespace Service

2. Jindo Storage Service

3. Jindo SDK

1. 部署缓存服务

1) 下载最新 Release 包 b2smartdata-x.x.x.tar.gz，解压并部署到集群所有节点上；

2) 修改配置文件 conf/bigboot.cfg。

代码

[bi gboot-Storage]

storage.rpc.port=6101

storage.datadirs=/mnt/hskl/bigboot,/mnt/disk2/bigboot,/mnt/disk3/bigboot./mnt/disk4/bigboot

storage.data-dirs.capacities -$27371075584,527371075584,527371075584

，527371075584

storage.namespace.rpc.address=emr-header-1:8101

storage.watermark.high.ratio=0.4

storage.watermark.low.ratio=0.2

[bigboot-namespace]

namespace.rpc.port=8101

namespace.meta-dir /mnt/disk1/bigboot

3) 修改 sbin/nodes，配置所有 storage service 的节点列表

4) 启动所有服务 /sbin/start-service.sh

5) 详细文档可参考：https//github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache _mode_deploy_md

2. 部署 Jindo SDK

1) 安装 jar 包：下载最新的 jar 包 jindofs-sdk-xx.xjar，将 sdk 包安装到 Spark 的classpath下。

cp jindofs-sdk-$(version)jar $SPARK_HOME/jars/

2) 配置JindoFS 实现类：将 JindoFS 实现类配置到 Hadoop 的 core-site.xml中。

fs.AbstractFileSystem.oss.impl

com.aliyun.emr.fs.oss.0SS

fs.oss.impl

欢迎大家来现看直项

com.aliyun.emr.fs.oss.Jindo0ssFileSystem Spark

访问 OSS 透

3. 配置客户端连接缓存服务

客户端通过环境变量 B2SDK_CONF_DIR 定位并加载配置文件 bigboot.cfg

1) 设置环境变量指定配置目录

export B2SDK_CONF_DIR=/path/to/sdk/conf

2) 在配置目录下添加bigboot.cfg配置文件

client.storage.rpc.port = 6101

client.namespace.rpc.address=:8101

jfs.cache.data-cache.enable = true

[bigboot-client]

client.namespace.rpc.address= emr-header-1:8101

4. Spark 访问 OSS 透明缓存加速

1) 完成以上配置之后，启动的 Spark 任务即可访问 OSS；

2) 任务读取 OSS 上的数据后，会自动缓存到 JindoFS 缓存系统中，后续访问相同的数据就能够命中缓存。

l 缓存性能对比

TPC-DS，选择8个具有 IO 相对较高的 SQL 查询进行测试

详见《JindoFS 缓存系统(Cache模式)性能比较》

https://qithub.com/aliyun/alibabacloudjindofs/blob/master/docs/comparisons/jindofs_cache_vs_no_cache.md

Spark 访问 OSS 透明缓存加速 | 学习笔记

Spark 访问 OSS 透明缓存加速

继续阅读

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

sqlServer根据经纬查距离

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method