Spark-SparkSql

2016-05-08 23:50:00

SparkSql

允许spark执行sql语句，hivesql,scala的描述的基于关系的查询。其实是封装了新的RDD-SchemaRDD，由行对象组成，有一个模式描述每列的数据类型。SchemaRDD与关系型数据库的表很相似，可以通过存在的RDD/Parquet文件/Json文件/用Hive中的数据HiveSql创建。其中相关功能入口是SQLContext()及其子类。

如HiveContext可以用HiveQL分析器查询访问HiveUDFs的能力、从Hive中读取数据。SparkSQL的数据源相关操作可以通过SchemaRDD接口来操作，可以是被当作一般的RDD，也可以注册成临时表，在上面进行sql查询。

有两种创建SchemaRDD的方式，一是已经知道了模式，基于反射推断。二是不知道模式，采取实现接口方法，构造一个模式。

或者

对于SparkSql的性能调优可以通过缓存数据和打开一些设置选项来调优。

如cacheTable缓存柱状格式的表spark会只浏览需要的列并且自动的去压缩数据减少内存的使用以及垃圾回收的压力。uncacheTable（）可以删除临时表，spark.sql.inMemoryColumarStorage.compressed 基于数据的统计信息每列自动的选择一个压缩算法，

spark.sql.inMemoryColumarStorage.batchSize柱状缓存的批数据大小，越大的数据可以提高内存的利用率和压缩效率，但是OOM是个问题啊，据说spark 2.0的钨丝计划会解决spark申请内存的管理问题。

2. 实例

Spark-SparkSql

继续阅读

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

sqlServer根据经纬查距离

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method