博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark的误解-不仅spark是内存计算,hadoop也是内存计算
阅读量:6641 次
发布时间:2019-06-25

本文共 487 字,大约阅读时间需要 1 分钟。

市面上有一些初学者的误解,他们拿spark和hadoop比较时就会说,Spark是内存计算,内存计算是spark的特性。请问在计算机领域,mysql,redis,ssh框架等等他们不是内存计算吗?依据冯诺依曼体系结构,有什么技术的程序不是在内存中运行,需要数据从硬盘中拉取,然后供cpu进行执行?所有说sprk的特点是内存计算相当于什么都没有说。那么spark的真正特点是什么?抛开spark的执行模型的方式,它的特点无非就是多个任务之间数据通信不需要借助硬盘而是通过内存,大大提高了程序的执行效率。而hadoop由于本身的模型特点,多个任务之间数据通信是必须借助硬盘落地的。那么spark的特点就是数据交互不会走硬盘。只能说多个任务的数据交互不走硬盘,但是sprk的shuffle过程和hadoop一样仍然必须走硬盘的。

本文是翻译的出处 https://0x0fff.com/spark-misconceptions/。

      本文转自zsdnr  51CTO博客,原文链接:http://blog.51cto.com/12942149/1949730,如需转载请自行联系原作者
你可能感兴趣的文章
ABBYY PDF Transformer+的安装方法
查看>>
Python之禅
查看>>
重逢Windows从powerShell开始
查看>>
JAVA 的异常那些事
查看>>
磁饱和
查看>>
Android Studio中如何打JAR包
查看>>
IDEA 快捷键 (OSX)
查看>>
Linux下单独编译安装php且支持mysql扩展
查看>>
转转数据平台部诚招 Java、大数据工程师、架构师
查看>>
LoadRunner的Socket脚本关联小技巧
查看>>
Qt学习(002-1)
查看>>
那些都是我们必须要经历的
查看>>
SAN系统拓扑
查看>>
如何调整Linux系统为正确时区
查看>>
mysql更新数据库中所有相同的某个字段的值
查看>>
生成图片缩略图
查看>>
hibernate查询数据库6种方法
查看>>
Centos6.3利用iptables配置网关防火墙
查看>>
SpringAOP 调研过程
查看>>
镜像源汇总1
查看>>