首页 > 大数据 > Spark

关于 “Spark” 的内容如下:

  • 好程序员大数据教程分享Spark快速入门(72集视频+源码+笔记)

    好程序员大数据教程分享Spark快速入门(72集视频+源码+笔记)1、什么是Spark?Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是—

    好程序员IT Spark 404 2019-11-23 14:53
  • 实时数仓一(Phoenix+Hbase)

    Phoenix操作Hbase1.编译ApachePhoenixpass 2. Phoenix安装部署2.1 上传将编译好的phoenix-4.10.0-cdh5.12.0.tar.gz 包上传至服务器中;解压缩 2.2 分发phoenix-4.10.0-cdh5.12.0-server.jar 至Hbase中需要将 phoenix-4.10.0-cdh5.12.0-server.jar 包拷贝

    JustDoDT Spark 348 2019-11-10 10:30
  • 宝付:30分钟理解Spark的基本原理

    1Spark优势特点作为大数据计算框架 MapReduce 的继任者,Spark 具备以下优势特性。01高效性不同于 MapReduce 将中间计算结果放入磁盘中,Spark 采用内存存储中间计算结果,减少了迭代运算的磁盘 IO,并通过并行计算 DAG 图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapReduce 快 100 倍。02易用性不同于 MapR

    一流涌进 Spark 381 2019-09-27 17:50
  • SparkStreaming 的使用与总结

    一.DStream 整合RDD1.官网算子 2.使用案例生产中使用多的是一个文件中有很多域名,另一个中是黑名单,要进行剔除 数据一:日志信息 DStream domain,traffic xinlang.com xinlang.com baidu.com 数据二:已有的文件 黑名单 RDD domain baidu.c

    yunqiublog Spark 494 2019-08-21 14:27
  • 好程序员大数据学习路线分享spark之Scala

    好程序员大数据学习路线分享spark之Scala,基本语法:变量变量的定义:不可变:val a = 2  或者 val a : Int = 2 (指定了数据类型)  lazy val a : Int =2可变:var a = 2   或者 var a : Int = 2(指定了数据类型)def  a = 2定义变量不能1.以数字

    好程序员IT Spark 402 2019-08-16 16:09
  • 好程序员大数据学习路线分享SparkSQl

      好程序员大数据学习路线分享SparkSQl,Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。SparkSql中返回的数据类型是DataFrame1.1.1.   为什么要学习Spark SQL我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群

    好程序员IT Spark 420 2019-08-14 17:20
  • Spark SQL外部数据源与实现机制

    一.数据解释与杂项1.External Data Source API 外部数据源2.json也有些弊端例如你第一次读的是 id:1,name:xxx 第二次 id:1,name:xxx,session:222 这样代码就要改 还有数据类型如果你是 id:"xxx" 根本不行 3.常用外部数据源FileSystem:HDFS,Hbase,S3,OSS 等 HDFS 与 mysq

    yunqiublog Spark 512 2019-08-14 10:48
  • Spark SQL中的RDD与DataFrame转换

    一.第一种方式RDD转化为DataFrame1.官网 2.解释把schema信息全部定义在case class 类里面 3.代码package core import org.apache.spark.sql.SparkSession import org.apache.spark.sql.types.StructType object Test { def main(ar

    yunqiublog Spark 674 2019-08-12 14:18
  • Spark SQL的官网解释

    一.官网位置1.位置 2.解释官网位置 DataSet1.6出现的 SchemaRDD < 1.3 1.3版本前叫 SchemaRDD 1.3以后 叫DataFrame DataSet支持 Scala , JAVA 不支持python DataFrame 支持四种 JAVA,Scala.Python,R DataFrame:并不是spark sql独创的,原来就有的,从

    yunqiublog Spark 441 2019-08-09 13:25
  • 大数据平台是什么?有哪些功能?如何搭建大数据平台?

    大数据平台是为了满足企业对于数据的各种要求而产生的。大数据平台:是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。既可以采用开源平台,也可以采用华为、星环等商业级解决方案,既可以部署在私有云上,也可以部署在公有云上。大数据平台的功能:1、容纳海量数据利用计算机群集的存储和计算能

    大数据学习 Spark 421 2019-08-08 15:27
  • SparkSQL基础知识总结

    一.SparkSQL架构1.架构 2.解释一个sql 过来 解析成unresolved,只拿出来字段名和表名 但是不知道字段名和表名在哪个位置 需要通过Schema 确定表的位置等信息, 生成逻辑执行计划,Logical,知道数据从哪里来了 通过一些列优化过滤生成物理执行计划Physical 最后把物理执行计划放到spark集群上运行 3.样例 二.SparkSQL的几点误区Spa

    yunqiublog Spark 611 2019-07-29 17:24
  • SparkRDD的总结

    一.添加jar包运行1.官网位置点击步骤: Spark Programming Guide Linking with Spark 版本要对应和集群上 2.idea 引入cdh可能报红线 3.原因idea 引入cdh版的hadoop等包可能报红线, 因为默认idea引的仓库是apache的所以有红线 4.解决: 5.上传本地文件公司中是用rz ftp工具不用因为中间有跳板机,f

    yunqiublog Spark 354 2019-07-26 11:20
  • spark的宽窄依赖和持久化

    一.持久化官网1.官网位置截图 2.cache 源码cache底层调用的是persisit ,默认参数是StorageLevel.MEMORY_ONLY cache 用完最好手动干掉 3.StorageLevel源码 4.StorageLevel 解释是否使用磁盘 是否使用内存 不管 反序列化 副本 5.persisit 可以传的参数 6.官网:怎么选择缓存? 7.上图

    yunqiublog Spark 410 2019-07-26 10:19
  • SparkCore的组件

    一.组件Components1.官网位置体现 2.术语位置 3.数据解释与注意事项Application:SparkContext a driver program + executors Spark-shell 是一个 Application 一个程序里面只能有一个SparkContext Driver program 主要理解为main方法 The process

    yunqiublog Spark 409 2019-07-26 10:03
  • spark性能优化几点注意

    一.优化方向,序列化1.官网位置 2.解释:默认用的是java序列化,但是会很慢,第二种很快,但是不一定能实现所有序列化 第二种,有些自定义类你需要在代码中注册(Kryo) 3.StorageLevel.MEMORY_ONLY) 方式存储代码 def main(args: Array[String]) { val sparkConf = new SparkConf().setMa

    yunqiublog Spark 511 2019-07-25 17:46
  • spark的计算器与广播变量

    一.计算器1.官网 2.解释计数器只支持加,计算器字task里面 3.测试 4.结果截图WEBUI 4.应用场景数据很多有的数据挂了,做数据质量监控用

    yunqiublog Spark 420 2019-07-25 15:35
  • spark的官网原生监控整理

    一.官网解析1.官网位置截图Monitoring2.解释 对于默认的webui 你访问完就不可以在看到了 这样你不可能知道之前发生什么事情 你可以通过配置在界面上显示 3.spark.eventLog.enabled 打开 你要把spark.eventLog.enabled to true before starting the application. 这个打开 这个配置在spar

    yunqiublog Spark 441 2019-07-24 16:09
  • spark的基本算子使用和源码解析

    一.coalesce1.coalesce源码2.coalesce解释是窄依赖由多变少shuffer默认是false,要注意3.coalesce应用场景解决小文件,例如你如果开始有200个文件对应20分区,你极端情况下你过滤变长一个文件,你不能还用200个分区去装吧用coalesce解决,主要就是把前面的压缩一下,但是过滤完后你要用coalesce必须实现做预估4.上述的极端情况你如果是xxx.oa

    yunqiublog Spark 342 2019-07-23 21:54
  • spark 与 yarn 结合

    一.yarn 架构 二.yarn在spark官网的位置1.Delpoying 的 yarn2.官网位置截图 二.spark -submit 提交到yarn1.官网提交实例2.自己测试提交改进官网实例 spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ /soft/spark/

    yunqiublog Spark 424 2019-07-23 16:34
  • spark的基础知识整理

    一 .基础整理 服务器本身不存储数据,数据本身放在HDFS中的,服务器只做功能的进行查,删改等功能 Hive hbase mysql 区别 {% asset_img 各种数据库之间的差别比较.png 这是一个新的博客的图片的说明 %} 服务器本身不存储数据,数据本身放在HDFS中的,服务器只做功能的进行查,删改等功能 Hbase特性 16010 对外访问端口 HBASE是一

    yunqiublog Spark 358 2019-07-22 18:09
点击加载更多下一页