首页 1 2 3 4 5 6 7

Spark学习之SparkSQL

一、认识SparkSQL

1.1 什么是SparkSQL

spark SQL是spark的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。

1.2 SparkSQL的作用

提供一个编程抽象（DataFrame）并且作为分布式 SQL 查询引擎

1.3 运行原理

将 Spark SQL 转化为 RDD，然后提交到集群执行

1.4 特点

（1）容易整合
（2）统一的数据访问方式
（3）兼容 Hive
（4）标准的数据连接

1.5 SparkSession

SparkSession封装了SparkConf、SparkContext和SQLContext

1.6 DataFrames

DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格，DataFrame所表示的二维表数据集的每一列都带有名称和类型。RDD，由于无从得知所存数据元素的具体内部结构，Spark Core只能在stage层面进行简单、通用的流水线优化。
DataFrame：它可以根据很多源进行构建，包括：结构化的数据文件，hive中的表，外部的关系型数据库，以及RDD

二、RDD转换成为DataFrame

方式一：通过 RDD转换 DataFrames
方式二：通过 structType 或者 case class 创建 DataFrames（编程接口）
方式三：通过数据源文件创建 DataFrames

三、RDD vs DataFrames vs DataSet

3.1 RDD

RDD是一个懒执行的不可变并行数据集合。

3.2 DataFrames

DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息。
Spark框架本身不了解数据集的内部结构，而DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame多了数据的结构信息的schema。

3.3 Dataset

1、Dataframe是Dataset的特列
2、样例类被用来在Dataset中定义数据的结构信息，样例类中每个属性的名称直接映射到DataSet中的字段名称
3、DataFrame只是知道字段，但是不知道字段的类型，DataSet不仅仅知道字段，而且知道字段类型

四、Spark SQL 的运行原理

Spark SQL对SQL语句的处理和关系型数据库类似，即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树，然后使用规则(Rule)对Tree进行绑定、优化等处理过程。

Spark学习之路（十八）SparkSQL简单使用
 Spark SQL概述

Spark SQL的底层执行流程

java.lang.NumberFormatException: For input string:

java.lang.NumberFormatException: For input string: 今天在测试环境做测试时发现一个异常：做类型转换将String转为Integer类型报了个NumberF

elementui form组件出现英文提示

今天让解决一个bug，是表单组件提示词会出现英文。问题情景如下：

ICMP 攻击（ICMP Attacks）

　　ICMP 被 IP 层用于向一台主机发送单向的告知性消息。在 ICMP 中没有验证机制，这就导致了使用 ICMP 可以造成服务拒绝的攻击，或者可以支持攻击者截取数据包。下面列出了几种与 I

习惯很大程度上影响你是否成为合格程序猿

1、遇到不懂的自己在哪里瞎搞，而不是搜索答案。 2、经常粗心大意，一个小小的错误卡住，可能会花几天时间解决。比如大小写不对，某个字母写错，顺序搞错。 3、遇到问题就猜，觉得是那种问题就极力往那个方向靠，事实上不靠谱。出了问题还是要看log，针对性找问题，对症下药。

Hadoop的HDFS介绍和操作

一、HDFS概述 HDFS（Hadoop Distributed File System）：分布式文件系统二、操作HDFS 1、通过Web Console：50070、50090

解决ImportError: cannot import name ‘imread‘ from ‘scipy.misc‘问题

重新安装以下两个包即可 pip install pillow==5.2

jquery写出移入移出事件

<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <meta name="vi

c语言编程比赛题,百度之星编程比赛的题目，大家来做做！

该楼层疑似违规已被系统折叠隐藏此楼查看此楼对7帖做一更正:删除 if(iCount*iCount==2*liDate) break; 这一句,不然程序会认为18,50,72之类的数无解. 改正后的程序如下:

Hadoop HA集群搭建

一、集群服务器准备工作 1.修改主机名 vi /etc/sysconfig/network；

rabbitmq的优先级队列

在我们系统中有一个订单催付的场景，我们的客户在天猫下的订单 , 淘宝会及时将订单推送给我们，如果在用户设定