如何在spark SQL中使用MLlib
How to use MLlib in spark SQL

最近,我一直在学习spark sql,我想知道,有什么方法可以在spark sql中使用mllib,比如:从tablename中选择mllib_methodname(某些列); 在这里,“......

登录Spark
Logging on Spark

我正在使用Spark来分发当前未分发的作业。 许多类生成有用的日志记录(log4j),这些类不应该是特定于Spark的(它们实现过滤...

Spark / Hadoop / Yarn集群通信需要外部ip吗?
Spark/Hadoop/Yarn cluster communication requires external ip?

我使用bdutil在Hadoop(2.6)集群上部署了带有yarn-client的Spark(1.3.1),默认情况下,使用Ephemeral外部ips创建实例,到目前为止spark工作正常。 有一些安全......

控制Spark中任务的分配
Control the distribution of the tasks in Spark

我正在Spark集群上分发一些下载任务。 输入来自一个源,它不能总是用Spark的常规方法(如parallelize或textFile等)并行化。 相反,......

加入Spark输出错误的结果,而map-side join是正确的
join in Spark outputs wrong result whereas map-side join is correct

我的火花版本是1.2.0,这是场景:有两个RDD,即RDD_A和RDD_B,其数据结构都是RDD [(spid,the_same_spid)]。 RDD_A有20,000行,而RDD_B 3,000,000,...

Spark的分布式存储
Distributed storage for Spark

官方指南说:如果在本地文件系统上使用路径,则该文件也必须可以在工作节点上的相同路径上访问。 将文件复制到所有工作人员或使用网络安装...

如何将数据帧传递给Function类以存储为转换使用的成员?
How do I pass a dataframe to a Function class to store as a member for transformation use?

我有一个转换类,someFunction(Dataframe df),我想用另一个数据帧。 但是当我在转换过程中尝试访问它时,数据帧中的所有内容都为空(...

如何使用Hadoop将CQL Collection对象保存到Cassandra?
How to save CQL Collection objects to Cassandra with Hadoop?

我正在使用Spark Hadoop API从Cassandra获取数据并将结果保存到Cassandra。 对于行值,如果列类型很长,这是使用...将数据发送到Cassandra的方法。

使用spark-cassandra连接器在cassandra中写入时间
write times in cassandra using spark-cassandra connector

我有这个用例,我需要不断地听一个kafka主题并根据Spark流应用程序的列值写入2000列系列(每列15列......时间序列数据)。 ...

Spark中RDD内部的不同列表,而不是整个RDD
Distinct Lists inside of RDD in Spark, not the whole RDD

我有这样的RDD:[(1,1,2),(2,2,3)]我想要:[1,2,2,3]提示:中间步骤:(1,2),(2, 3)我的代码:suchRDD.flatMap(lambda k:k).distinct()..将产生:[1,2,3]这不是我想要的。 (...

如何删除长度小于3个字的行?
How to remove lines with length less than 3 words?

我有一个包含数百万个文档的语料库,我想删除长度小于3个字的行(在Scala和Spark中),我该怎么做?

迭代JavaPairRDD - 根据某些条件返回
Iterate JavaPairRDD - return based on some condition

我有一个JavaPaidRDD,我试图迭代并根据某些条件返回元素,而不是JavaPaidRDD中的所有记录。 请参阅以下代码我想要实现的目标。 一世 ...

优化RDD内的RDD的spark(收集)和转换
Optimization in spark (collect) & transformations of RDD inside an RDD

我在Spark中有以下几行代码 - var y = f.join(varietyFrac).map {case(name,(frac,varietyFrac))=>(name,pow((frac.toDouble * varietyFrac.toDouble),0.01 )/0.01)} var num = y.values ....

Spark处理Python对象列表的问题
Problems on Spark dealing with list of Python object

我正在学习Spark,当我使用Spark处理Python对象列表时,我遇到了一个问题。 以下是我的代码:从pyspark import SparkConf,SparkContext ###中导入numpy as np ...

Scala和Spark中的OutOfMemoryError
OutOfMemoryError in Scala and Spark

我使用此代码从文本文件中提取bigrams:import org.apache.spark。{SparkContext,SparkConf} object DS_E6 {def main(args:Array [String]):Unit = {case class Bigram(first:...

python mapreduce将文本转换为数组
python mapreduce convert text into array

我有一个这样的文件:0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 ,0,0,0,0,0,0,0,0,0,0,0,0,0,0 1,1,1,1,0,0,1,1,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 2 ,1,1,1,0,0,0,1,0,0,0,0,...

模式匹配Apache Spark的reduceByKey()中的Scala(key,Tuple2)值
Pattern matching Scala (key, Tuple2) values in reduceByKey() for Apache Spark

我有一个包含(stockName,stockValue)元组的RDD。 许多股票都是重复的,并且具有不同的价值。 例如(“ARM”,200.6)(“GOOG”,4000.4)(“ARM”,3998.23)(“ARM”,4002.45)等......

spark:如何在build / sbt compile中包含依赖项
spark: how to include dependencies with build/sbt compile

我是新手,但我正在尝试做一些开发。 我正在关注spark开发者页面中的“减少构建时间”说明。 创建正常的程序集后,我写了一些类...

如何在本地构建和运行Scala Spark
How to build and run Scala Spark locally

我正在尝试在本地构建Apache Spark。 原因是调试像reduce这样的Spark方法。 特别是我对Spark如何实现和分发Map Reduce感兴趣...

为什么提交作业失败了“NoSuchMethodError:scala.runtime.VolatileObjectRef.zero()Lscala / runtime / VolatileObjectRef;”?
Why does submitting a job fail with "NoSuchMethodError: scala.runtime.VolatileObjectRef.zero()Lscala/runtime/VolatileObjectRef;"?

我正在尝试提交一个spark作业它以这样开始:import javax.xml.parsers。{SAXParser,SAXParserFactory} import org.apache.spark import org.apache.spark.graphx。{Graph,Edge,VertexId} import org ....

写作时间的卡桑德拉行火花
writetime of cassandra row in spark

我正在使用带有cassandra的spark,我想从我的cassandra表中选择我的行的writeTime。 这是我的要求:val lines = sc.cassandraTable [(String,String,String,Long)](...

Spark:在scala 2.11中运行hello world示例时出现ClassNotFoundException
Spark: ClassNotFoundException when running hello world example in scala 2.11

我有一个子项目的sbt项目。 所有这些都使用Scala 2.11.4。 在其中一个子项目(sparktest)中,我添加了spark-core name:=“”“sparktest”“”version:=“1.0-SNAPSHOT”scalaVersion:=“2 ....

找出分区号/ id
Find out the partition no/id

是否有一种方法(A方法)在Spark中找出Parition ID / No这里的例子val input1 = sc.parallelize(List(8,9,10),3)val res = input1.reduce {(x, y)=> println(“内部分区...

Spark / Scala:展开(List [String],String)元组的列表
Spark/Scala: Expand a list of (List[String], String) tuples

基本上这个问题只适用于Scala。 如果RDD具有表单元素(List [String],String)=>(String,String),例如([A,B,C],X)([C,D,E],我该如何进行以下转换? ,Y)......

启动Spark 1.4.0 EC2不起作用
Launching of Spark 1.4.0 EC2 doesn't work

在使用Debian启动t2.micro实例并导入我的AWS密钥之后,我尝试使用以下命令在Frankfurt服务器上启动Spark集群:spark-1.4.0-bin-hadoop2.6 / ec2 / spark-ec2 -k .. 。

想要解析文件并重新格式化以通过Scala在Spark中创建pairRDD
Want to parse a file and reformat it to create a pairRDD in Spark through Scala

我有一个文件格式的数据集:1:1664968 2:3 747213 1664968 1691047 4095634 5535664 3:9 77935 79583 84707 564578 594898 681805 681886 835470 880698 4:145 5:8 57544 58089 60048 65880 ...

如何使用Java在Spark SQL中加入多列以在DataFrame中进行过滤
How to Join Mutiple Columns in Spark SQL using Java for filtering in DataFrame

DataFrame a =包含列x,y,z,k DataFrame b =包含列x,y,a a.join(b,<在java中使用的条件使用x,y>)??? 我尝试使用a.join(b,a.col(“x”)。equalTo(b.col(“x”))&& ...

通过SparkLauncher传入Kerberos keytab / principal
Passing in Kerberos keytab/principal via SparkLauncher

spark-submit允许我们通过--keytab和--principal选项传递Kerberos凭据。 如果我尝试通过addSparkArg(“ - keytab”,keytab)添加这些,我得到一个'--keytab'不期望值...

将OneHotEncoder应用于SparkMlib中的多个分类列
apply OneHotEncoder for several categorical columns in SparkMlib

我有几个分类功能,并希望使用OneHotEncoder将它们全部转换。 但是,当我尝试应用StringIndexer时,我得到一个错误:stringIndexer = StringIndexer(...

复制Spark Row N次
Replicate Spark Row N-times

我想在DataFrame中复制一行,我该怎么做? 例如,我有一个由1行组成的DataFrame,我想创建一个具有100个相同行的DataFrame。 我想出了以下......

如何从Pyspark RDD中删除空行
How to remove empty rows from an Pyspark RDD

我想在RDD中删除几行空行。 我该怎么做? 我尝试了以下但它不起作用。 我仍然得到空行json_cp_rdd = xform_rdd.map(lambda(key,...

关于如何使用Scala中的随机值将新列添加到现有DataFrame
About how to add a new column to an existing DataFrame with random values in Scala

我有一个带有镶木地板文件的数据框,我必须添加一个带有一些随机数据的新列,但我需要彼此不同的随机数据。 这是我的实际代码和当前版本的spark ...

为什么PySpark中的agg()一次只能汇总一列?
Why agg() in PySpark is only able to summarize one column at a time?

对于以下数据帧df = spark.createDataFrame(data = [('Alice',4.300),('Bob',7.677)],schema = ['name','High'])当我尝试查找min&max时我只获得输出的最小值。 df.agg({ '高':” ...

HBase应该安装在客户端吗?
Should HBase be installed on the client side? Is sqoop an API? Is Drill an API?

我做了一些关于Hadoop的研究,我仍然需要知道以下问题的答案:我认为HBase不是Hadoop的核心组件,因此作为客户端,我该怎么办? 是Sqoop ......

使用Phoenix-Spark API添加HBase时间戳
add HBase Timestamp using Phoenix-Spark API

如何使用类似于HBase API的Phoenix-Spark添加HBase时间戳:Put(rowkey,timestamp.getMillis)这是我的代码:val rdd = processedRdd.map(r => Row.fromSeq(r))val dataframe =。 ..

PySpark:如何在工作者上安装linux命令行工具?
PySpark: How do I install a linux command-line tool on workers?

我正在尝试使用Linux命令行工具'Poppler'从pdf文件中提取信息。 我想为几个Spark工作者提供大量的PDF文件。 我需要使用Popplers,而不是PyPDF ......

如何在Spark中的RDD之间共享全局Map值?
How to share global Map values among RDDs in Spark?

我试图从RDD访问映射而不是在不同的计算节点上访问映射,但没有成功。 地图如下:val map1 = Map(“aa” - > 1,“bb-> 2,”c​​c-> 3,...)所有RDD都必须检查......

Spark REPL在启动时出错
Spark REPL gives an error when starting

我预先构建了Spark 1.4.1,我正在运行HDP 2.6。 当我运行spark-shell时,它给出了如下错误信息。 这是因为我错过了一个jar文件吗? java.lang.NoClassDefFoundError:javax / ...

RowMatrix,MLlib,Java Spark
RowMatrix, MLlib, Java Spark

我有RowMatrix,我的问题是,我如何通过指标来操纵它? 这个问题与此非常类似:Java中的Spark MLlib中的Matrix操作最后,一切,我需要的是......

Spark:在Scala中使用带有ListBuffer的cogroup时出现内存问题(超出GC开销限制)
Spark: memory issues (GC overhead limit exceeded) when using cogroup with ListBuffer in Scala

我有以下代码:fTuple2.cogroup(gTuple2).flatMap {t => val fList:ListBuffer [classF] = ListBuffer()val gList:ListBuffer [classG] = ListBuffer()while(t._2._2 ... 。

MLlib示例不起作用
MLlib examples not working

我正在尝试此页面中的MLlib示例(使用Scala在Spark上):MLlib页面所有示例都抛出相同的错误错误。 我给了线性回归我得到的那个:...

我是否需要保存中间数据子集,同时在火花上递归建立决策树?
Do I need to I save intermediate subsets of data while building decision tree on spark recursively?

我正在Scala / Spark上构建一个决策树(在50节点集群上)。 由于我的数据集有点大(~2TB),我想将它并行化。 我的代码看起来像这个def buildTree(数据:RDD [Array [Double]],...

Spark:导入数据
Spark: Importing Data

我目前有一个spark应用程序,它可以读取几个文件并从中形成一个数据框,并在数据框上实现一些逻辑。 我可以看到这些文件的数量和大小增长了......

如何对Json文件执行基本统计以探索我的数字和非数字变量?
How to perform basic statistics on a Json file to explore my numeric and non-numeric variable?

我导入了一个具有此模式的Json文件:sqlContext.read.json(“filename”)。printSchema root | - COL:long(nullable = true)| - DATA:array(nullable = true)| | - 元素:...

spark:如何使用其他RDD的每个分区压缩RDD
spark: how to zip an RDD with each partition of the other RDD

假设我有一个RDD [U],它总是只包含1个分区。 我的任务是用另一个RDD [T]的内容填充这个RDD,该RDD [T]驻留在n个分区上。 最终输出......

PySpark + Flask + CherryPy - AttributeError:'module'对象没有属性'tree'
PySpark+Flask+CherryPy - AttributeError: 'module' object has no attribute 'tree'

我正在尝试根据本教程测试如何将Flask与Spark模型集成https://www.codementor.io/spark/tutorial/building-a-web-service-with-apache-spark-flask-example-app -第2部分#/ 。 这里 ...

如何在Spark中加载RDD
How loading RDD works in Spark

我是Spark的新手,对RDD有疑问。 假设我将RDD定义如下:val data1 = sc.textFile()然后让我说我做以下1)val data2 = data1.map {...} 2)val ...

使用has函数对大数据集进行采样
Using has function for sampling large data set

到目前为止,我一直使用以下方法对大文件进行采样:open(myfile)为f1:open(输出,'w')为f2:for i,line in enumerate(f1):if i%my_rate == 0 :...

使用clojure和flambo过滤RDD
Filter RDDs using clojure and flambo

我有一个RDD索引形式:(:rdd xctx)[[[“1”“32”“44”“55”“14”] 0] [[“21”“23”“24”“25” “24”] 1] [[“41”“53”“54”“5”“24”] 2] [[“11”“35”“34”“15”“64”] 3]]我想要过滤掉...
1 2 3 4 5 6 7 169 170