1. 梦飞科技 > 中国IDC > 大数据 > 大数据技术 >
  2. Spark SQL允许开发人员将SQL查询和由RDDs通过Python、Java和Scala支持的数据编程操作混合进一个单一的应用中(2)

Spark SQL允许开发人员将SQL查询和由RDDs通过Python、Java和Scala支持的数据编程操作混合进一个单一的应用中(2)

什么是Apache Spark?

对工程师而言,Spark提供了一个简单的方式在集群之间并行化这些应用,隐藏了分布式系统、网络通信和容错处理的复杂性。系统使得工程师在实现任务的同时,有充足的权限监控、检查和调整应用。API的模块特性使得重用已有工作和本地测试变得简单。

给大家分享一下Spark是什么?如何用Spark进行数据分析,对大数据感兴趣的小伙伴就随着小编一起来了解一下吧。

Spark被设计的高度易访问,用Python、Java、Scala和SQL提供简单的API,而且提供丰富的内建库。Spark也与其他大数据工具进行了集成。特别地,Spark可以运行在Hadoop的集群上,可以访问任何Hadoop的数据源,包括Cassandra。

Spark用户使用Spark作为其数据处理应用,因为他提供了丰富的功能,易于学习和使用,而且成熟可靠。如果你已经做好准备,那么就立即开始行动吧!

MLlibSpark包含一个叫做MLlib的关于机器学习的库。MLlib提供多种类型的机器学习算法,包括分类、回归、聚类和协同过滤,并支持模型评估和数据导入功能。MLlib也提供一个低层的机器学习原语,包括一个通用的梯度下降优化算法。所有这些方法都可以应用到一个集群上。

Spark通过若干组件支持不同的数据科学任务。Spark shell使得用Python或Scala进行交互式数据分析变得简单。Spark SQL也有一个独立的SQL shell,可以用SQL进行数据分析,也可以在Spark程序中或Spark shell中使用Spark SQL。MLlib库支持机器学习数据分析。而且,支持调用外部的MATLAB或R语言编写的程序。Spark使得数据科学家可以用R或Pandas等工具处理包含大量数据的问题。

(来源:网络)

本站所有文章和图片均由根据搜索引擎转码而来,只为让更多读者欣赏,本站不保存图片及数据,仅作学习展示。遵循互联网避风港原则,如有网站内容疑问,请通知站长

扫描二维码

关注梦飞科技最新资讯