value map不是org.apache.spark.sql.Row的成员
value map is not a member of org.apache.spark.sql.Row

我在Twitter中发布了复杂模式的推文,我试图从这些推文中提取文本,然后清理数据以进行进一步分析。 我正在运行SQL查询来提取推文和......

pyspark;
pyspark ; how to reduce by values efficiently

让我们考虑一对RDD:x = sc.parallelize([(“a”,1),(“b”,1),(“a”,4),(“c”,7)])还有更多高效替代:x.map(lambda x:x [1])。reduce(lambda x,y:x + y)以便找到...

如何使用spark cassandra连接器连接到多个cassandra主机
how to connect to more than 1 cassandra hosts using spark cassandra connector

我有一个spark应用程序从一个cassandra集群读取数据,并在一些计算后将数据保存到另一个cassandra集群。 我只能在sparkconf中设置1个cassandra配置。 但是我 ...

为什么apache spark artifact名称包含scala版本
Why do apache spark artifact names include scala versions

在maven存储库http://mvnrepository.com/artifact/org.apache.spark中,apache-spark版本1.4.1有两种版本。 spark - * _ 2.10&spark - * _ 2.11这些似乎是Scala版本。 哪一个 ...

Python 3中Pyspark的takeOrdered键错误
takeOrdered key error with Pyspark in Python 3

我使用Python 3.4.2和Spark 1.4.1在PySpark中使用takeOrdered函数出错,它应该支持Python 3. sc.parallelize([(“a”,10),(“c”,5 ),(“b”,7)])。takeOrdered(3,...

火花数据帧是否像熊猫一样有每行的“行名”?
Does spark dataframe have a "row name" for each row like pandas?

我正在尝试使用Spark DataFrames来操作两个按行名索引的DataFrame。 在pandas中,我们可以做df.loc(['aIndex','anotherIndex'])来通过索引(或者...的名称)在df中选择两行。

将文件名附加到RDD
Append Filename to RDD

我有一个包含我的数据文件的文件夹。 每个文件的大小约为1 GB。 我需要的是RDD中的文件名。 以下不能按预期工作:导入glob rdds = [] for filename in ...

将两个键值集合与Spark有效结合
Combine two key-value collections with Spark efficiently

我有以下键值对列表(如hashmap,但不完全在spark上下文中):val m1 = sc.parallelize(List(1 - >“a”,2 - >“b”,3 - >“ c“,4 - >”d“))val m2 = sc ....

Spark支持子查询吗?
Does Spark support subqqueries?

当我运行这个查询时,我得到了这种类型的错误select * from raw_2 where ip NOT IN(select * from raw_1); org.apache.spark.sql.AnalysisException:查询中不支持的语言功能:...

在包对象中使用case类时类型不匹配
Type mismatch when utilising a case class in a package object

我尝试运行我的代码时收到以下错误:错误:(104,63)类型不匹配; 发现:hydrant.spark.hydrant.spark.IPPortPair需要:hydrant.spark。(其他一些)消防栓。快速....

saveAsTextFile不是Array [String] spark RDD的成员
saveAsTextFile is not a member of Array[String] spark RDD

我有一些火花代码将两个Arryas连接成一个然后做一些这样的格式化:def formatMap3(sep:String =“”,left:String =“”,right:String =“”)(m:Map [String,字符串])= ...

sbt - 构建Spark需要太多时间
sbt - Building Spark takes too much time

我正在尝试使用sbt从修改后的源代码构建Apache Spark。 我实际上只对火花核心做了一些改动,所有其他模块都保持不变。 但是,每次我建立......

与pyspark不同,spark-submit抛出错误
spark-submit throws errors, unlike pyspark

我一直在使用Ipython笔记本测试脚本并将pyspark传递给它。 我想要完成的一切都运作良好。 我还使用pyspark在命令行中没有笔记本运行它...

图之间的结构运算符
Structural Operators between graphs

这个问题是前一个问题的“续集”。 我是新手来激发graphx和scala,我想知道如何执行下面的操作。 如何将两个图形合并为一个新图形,以便...

Spark:对Parquet的读取和写入导致OutOfMemoryError:Java堆空间
Spark: Read and Write to Parquet leads to OutOfMemoryError: Java heap space

我写了一些代码来读取镶木地板文件,稍微切换架构并将数据写入新的镶木地板文件。 代码如下所示:... val schema = StructType(List(StructField(“id”,...

如何处理Spark中的制表符分隔文件?
How to process tab-separated files in Spark?

我有一个标签分隔的文件。 第三列应该是我的密钥,整个记录应该是我的值(根据Map reduce概念)。 val cefFile = sc.textFile(“C:\\ text1.txt”)val cefDim1 = ...

Apache Kafka和Spark Streaming
Apache Kafka and Spark Streaming

我正在阅读这篇博文:http://blog.jaceklaskowski.pl/2015/07/20/real-time-data-processing-using-apache-kafka-and-spark-streaming.html它讨论了如何使用Spark Streaming和Apache ......

我可以在常规的Spark map操作中使用Spark DataFrame吗?
Can I use Spark DataFrame inside regular Spark map operation?

我尝试使用Spark DataFrame之前定义的Spark常规Spark映射操作,如下所示:businessJSON = os.path.join(targetDir,'business.json')businessDF = sqlContext.read.json(businessJSON)...

如何在spark数据帧中找到列格式的异常?
How do you find anomalies in format of a column in a spark dataframe?

正如问题所说,我想在大型数据集的列中找到值的格式异常。 例如:如果我在5亿行的数据集中有一个日期列,我想...

如何在spark中读取HDFS序列文件
How to read HDFS sequence file in spark

我试图从HDFS(在这种情况下是s3)中读取文件到Spark作为RDD。 该文件位于SequenceInputFileFormat中。 但我无法将文件的内容解码为字符串。 我有以下......

调用spark-submit时,JodaTime会出现scala和spark问题
JodaTime issues with scala and spark when invoking spark-submit

我在火花scala程序中使用JodaTime时遇到问题。 我尝试过Stackoverflow中过去发布的解决方案,他们似乎没有解决我的问题。 当我尝试火花提交它来...

如何使用Python在Spark中添加两个稀疏向量
How to add two Sparse Vectors in Spark using Python

我到处搜索但是我找不到如何使用Python添加两个稀疏向量。 我想添加两个这样的稀疏向量: - (1048576,{110522:0.6931,521365:1.0986,697409:1.0986,725041:...

用户定义的SparkR中的聚合函数
User defined aggregate function in SparkR

我有这样的邮件记录:姓名邮件ID时间戳事件1约翰1 2014-04-18已发送2约翰2 2015-04-21已发送3 Mary 1 2015-04-22已返回4 Mary 2 ...

试图从Java中找到SetConf的R等价物
Trying to find R equivalent for SetConf from Java

在Java中,你可以这样做:sc.setConf('spark.sql.parquet.binaryAsString','true')R中的等价物是什么? 我已经看过sc对象可用的方法了,找不到任何...

如果表包含重复行,则返回布尔值(1或0)
Return Boolean (1 or 0) if table contains duplicate rows

如果Hive 0.9中的表中有重复项,我希望返回一个布尔值。现在,我这样做:选择强制转换(当count(*)> 0时为1,然后是1,0结束为smallint)Validate_Value from ...

scala:java.lang.reflect.Field的可序列化替代品
scala: serializable alternatives to java.lang.reflect.Field

假设User是一个case类,它包含有关用户的信息:case class User(name:String,age:Int)给定一个字段名称(例如“name”或“age”),我想返回一个提取它的函数。 ..

Bluemix Spark与Java
Bluemix Spark with Java

我有一个Bluemix试用版,我想将它与我使用swift存储使用Spark框架开发的Java应用程序一起使用。 这个应用程序使用Maven进行构建过程。我知道有一个......

它是斯卡拉的吸气剂吗?
Is it a getter in scala? (from the RDD class source of Spark)

当我们在spark中进行检查点时,我们会通过一个语句:checkpointData.get.doCheckPoint()为什么不使用checkpointData.doCheckPoint()? 声明中的内容是......

使用Spark和HiveSQL执行多个查询的问题
Issues with executing multiple queries using Spark and HiveSQL

我希望有人可以帮我解决这个问题。 在spark-shell中,如果我尝试下面的内容:var sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)var query =“select * ...

Spark数据帧:根据另一列的值提取列
Spark dataframes: Extract a column based on the value of another column

我有一个带有连接价格表的交易的数据框:+ ---------- + ---------- + ------ + ------- + ------- + | 付款| 货币| 欧元| 美元| GBP | + ---------- + ---------- + ------ + ------- + -----...

我们什么时候应该去Apache Spark
When should we go for Apache Spark

用Spark完全替换MR是否明智? 以下是我们仍然使用MR的领域,需要您的输入才能继续使用Apache Spark选项 - ETL:数据验证和转换。 ...

Spark Streaming异常处理策略
Spark Streaming exception handling strategies

我有一个pyspark流式传输作业,它从s3流式传输一个目录(使用textFileStream)。 解析每行输入并在hdfs上输出为镶木地板格式。 这在正常情况下很有效。 ...

Spark java.lang.SecurityException:类“javax.servlet.FilterRegistration”'与sbt
Spark java.lang.SecurityException: class "javax.servlet.FilterRegistration"' with sbt

这让我疯了,我已经尝试过解决方案但无法让它工作。 所以我有一个使用Spark的项目,由sbt管理。 我通过所有错误得知:线程“main”中的异常...

python使用spark动作在Oozie中的Spark工作
python Spark job in Oozie using spark action

我一直在尝试在spark(1.3.1.2.3)中运行python脚本,我正在使用oozie来安排spark工作。 我使用Ambari 2.1.1安装了运行HDP 2.3的3节点集群。 我遇到了......

使用地图创建新列
Create a new column using a map

是否有一种方法(不使用UDF)通过获取现有列并从地图中提取它的等效值来获取现有数据框并创建新列? df.withColumn(“newCol”,transform(...

在广播变量中查找值
Finding values within broadcast variable

我想通过应用广播变量加入两组。 我正在尝试实现Spark的第一个建议:使用单密钥RDD加入2元组密钥RDD的最佳策略是什么? val ...

尝试使用spark-submit运行示例应用程序但是找不到类的重复
trying to run sample app with spark-submit but getting class not found excpetion

我试图通过学习火花书包com.example import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming来运行示例。{...

Spark MLlib示例,NoSuchMethodError:org.apache.spark.sql.SQLContext.createDataFrame()
Spark MLlib example, NoSuchMethodError: org.apache.spark.sql.SQLContext.createDataFrame()

我正在按照文档示例示例:Estimator,Transformer和Param我收到了错误信息15/09/23 11:46:51 INFO BlockManagerMaster:线程中注册的BlockManager异常“...

如何使用Java在Spark 1.3.1中读取AVRO数据?
How do I use Java to read AVRO data in Spark 1.3.1?

我正在尝试开发一个Java Spark应用程序,该应用程序从HDFS中读取AVRO记录(https://avro.apache.org/),这些记录由Gobblin(https://github.com/linkedin/gobblin/wiki)提供。 一个 ...

在Spark中为每个Executor创建数组并组合成RDD
Creating array per Executor in Spark and combine into RDD

我正在从基于MPI的系统转向Apache Spark。 我需要在Spark中执行以下操作。 假设,我有n个顶点。 我想从这n个顶点创建一个边列表。 边缘只是...的元组

groupBy有多个值
groupBy on multiple values

我有一个CSV文件中的呼叫列表,smsIn,smsOut,我想计算每个电话号码的smsIn / smsOut的数量。 CallType表示类型(call,smsIn,smsOut)数据的一个例子是......

使用Pyspark命名变量
Naming Variables using Pyspark

即使我的问题很简单,因为我是新手,因为它解决了问题。 我的问题的正常python查询如下:for file in file('schedule.txt'):origin,dest,...

如何处理cogroup值?
How to process cogroup values?

我正在组合两个RDD,我想处理它的值。 也就是说,rdd1.cogroup(rdd2)作为这个cogrouping的结果我得到如下结果:(离子,(CompactBuffer(100772C121,100772C111,6666666666),...

如何将SchemaRDD映射到PairRDD
How to map a SchemaRDD to a PairRDD

我试图弄清楚如何将我从sql HiveContext检索到的SchemaRDD对象映射到PairRDDFunctions [String,Vector]对象,其中字符串值是...中的name列。

缓存RDD的范围
Scope of cached RDDs

我想知道缓存的RDD的范围是什么。 例如://缓存RDD。 rdd.cache //将RDD传递给另一个类的方法。 otherClass.calculate(rdd)//此方法执行各种...

将CSV文件读入Spark中
Issue reading CSV file in to Spark

我正在尝试将CS​​V文件加载到HDFS中,并将其作为RDD读取到Spark中。 我正在使用Hortonworks Sandbox并通过命令行尝试这些。 我按如下方式加载数据:hadoop fs -put ...

使用select statetment在dataframe中选择嵌套列时的py4j.protocol.Py4JJavaError
py4j.protocol.Py4JJavaError when selecting nested column in dataframe using select statetment

我正在尝试在spark数据帧(python)中执行一个简单的任务,它通过从另一个数据帧中选择特定的列和嵌套列来创建新的数据帧,例如:df.printSchema()...

Spark Streaming:foreachPartition中的NullPointerException
Spark Streaming: NullPointerException inside foreachPartition

我有一个火花流媒体工作,从Kafka读取并与Postgres中的现有表格进行一些比较,然后再写入Postrges。 这就是它的样子:val message = ...

Spark中的Broadcast Annoy对象(对于最近的邻居)?
Broadcast Annoy object in Spark (for nearest neighbors)?

由于Spark的mllib没有最近邻功能,我试图将Annoy用于近似邻近邻居。 我尝试播放Annoy对象并将其传递给工人; 但它确实......

使用PySpark在单个多核机器中使用大型查找表
Using Large Lookup Table in Single MultiCore Machine with PySpark

我有一个大的查找表,它将整数作为键和字符串列表作为值。 我需要这个查找表来对我通过spark加载的数据进行一些过滤和转换。 进口......
1 2 3 4 5 6 7 208 209