spark java中的例外
Exception in spark java

我正在从我的本地机器中读取一个文本文件目录。 当我使用spark-submit运行它时,我得到以下异常使用Spark的默认log4j配置文件:org / apache / spark / ...

SPARK +独立群集:无法从其他计算机启动工作程序
SPARK + Standalone Cluster: Cannot start worker from another machine

我已经在此链接之后设置了Spark独立群集设置。 我有2台机器; 第一个(ubuntu0)既作为主人又作为工人,第二个(ubuntu1)只是......

Spark - 如何在scala中的StructType的开头添加StructField
Spark - How to add a StructField at the beginning of a StructType in scala

我有一个StructType类型的模式:val schema = getSchema(); // getSchema返回StructType我创建了另一个StructField类型的字段:StructField(“NAME”,StringType,false)我知道...

调用JavaPairRDD.max时,Spark中的任务不可序列化异常[重复]
Task Not Serializable exception in Spark while calling JavaPairRDD.max

在ItelliJ上运行时,我得到一些例外:线程“main”中的异常org.apache.spark.SparkException:任务不可序列化代码片段:`public class ...

df.sqlContext.sql()无法识别数据库表
df.sqlContext.sql() not recognizing DB table

我在下面的代码中运行了spark env :: import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.sql.SQLContext import sqlContext.implicits._ import java.util ....

Python spark:IndexError:元组索引超出范围
Python spark: IndexError: tuple index out of range

我正在研究spark和python。 当我在csv文件上调用任何操作时,它会给我IndexError:元组索引超出范围这里是代码片段。 test_rdd = sc.textFile(“/ mapr / data / airflow-test.csv”)。map(...

如何通过spark dataframe api中的连接实现服务器端过滤
How can I achieve server side filtering with the join in spark dataframe api

这是我的火花应用程序的一部分。 第一部分是我在过去1小时内获得所有文章的部分,代码的第二部分抓取所有这些文章的评论。 第三部分补充......

使用Spark或caseesndra查询日志文件的最佳方法
Best way to query the log files, with Spark or caseesndra

我有不同服务器的日志文件(5台服务器通过局域网连接),我需要处理并获得结果每个节点都有4TB日志文件,我正在使用HDFS将所有日志文件加载到Spark Every ...

如何转换linalg.Vector至regression.Labeledpoint格式?
How to convert from linalg.Vector to regression.Labeledpoint format?

所以我试图在spark-shell中实现一个简单的机器学习代码,当我试图给出一个csv文件时,它需要一个libsvm格式,所以我使用了phraug库来转换我的数据集......

使用Maven时Intellij上Spark(DataTypeConversions.scala)中的编译错误[关闭]
Compilation errors in Spark (DataTypeConversions.scala) on Intellij when using Maven

从大约7/30/14开始,我无法在Intellij中编译Spark头。 有人面对这个/发现了一个解决方法? 错误:scalac:编译时:/ d / funcs / sql / core / src / main / scala / org / apache / ...

提高火花应用程序的速度
Improve speed of spark app

这是我的python-spark代码的一部分,它的一部分运行速度太慢,无法满足我的需求。 特别是这部分代码,我真的想提高它的速度,但不知道如何。 目前......

如何将SQL查询输出(dataframe)转换为Spark Scala中键值对的数组列表?
How to convert a SQL query output (dataframe) into an array list of key value pairs in Spark Scala?

我在spark scala shell中为SFPD事件创建了一个数据帧。 我查询了类别计数的数据,结果是数据名称。 我想用Wisp将这些数据绘制成图形。 这是我的 ...

使用Spark UDF的字符串过滤器
String filter using Spark UDF

input.csv:200,300,889,767,9908,7768,9090 300,400,223,4456,3214,6675,333 234,567,890 123,445,667,887我想要的:读取输入文件并与设置“123,200,300”进行比较,如果匹配,...

如何基于Spark-scala中的过滤器将数据集分为两部分
How to divide dataset in two parts based on filter in Spark-scala

是否可以使用单个过滤器操作将DF分成两部分。例如,如果我执行df1 = df.filter(UID <=> 2),则说df具有以下记录UID Col 1 a 2 b 3 c ...

Spark:每个Spark RDD分区的数据库连接并执行mapPartition
Spark : DB connection per Spark RDD partition and do mapPartition

我想在我的spark rdd上执行mapPartitions,val newRd = myRdd.mapPartitions(partition => {val connection = new DbConnection / *为每个分区创建一个数据库连接* / ...

内存不足错误构建spark时出错
Out of memory error Error while building spark

我正在使用sbt建立火花。 当我运行以下命令时:sbt / sbt assembly需要一些时间来构建spark。 有几个警告出现,最后我跟着......

将数据集[Array [String]]转换为Dataset [MyCaseClass]
Converting Dataset[Array[String]] to Dataset[MyCaseClass]

我正在使用csv文件,如下面的“age”,“job”“;”“marital”“”“58;”“management”“;”“married”“”“44;”“technician”“;”“单“”“由于额外的引号,spark.read.csv不会给干净...

什么是LogisticRegressionWithLBFGS Spark-Mllib中的setNumClasses
what is setNumClasses in LogisticRegressionWithLBFGS Spark-Mllib

我无法理解setNumClasses的重要性在这里也找不到sparkmllib文档中的任何内容。 new LogisticRegressionWithLBFGS()。setNumClasses(10)

火花从流中消耗 - 考虑更长时间的数据
spark consume from stream -- considering data for longer period

我们有一个运行的临时工作,它使用来自kafka流的数据,进行一些分析并存储结果。 由于数据是在向kafka生成时消耗的,如果我们想要计算...

Spark:在某些发行版上使用Long键时,flatMap / reduceByKey似乎相当慢
Spark: flatMap/reduceByKey seems to be quite slow with Long keys on some distributions

我正在使用Spark来处理一些语料库,我需要计算每个2克的出现次数。 我开始计算元组(wordID1,wordID2),它工作正常,除了大内存使用和gc ......

读取文件并将行表示为矢量
Read file and represent rows as Vectors

我有一个包含DocID,WordID和频率(计数)的数据集,如下所示。 请注意,前三个数字代表1.文档数量,2。词汇表中的单词数量和...

如何在Scala中传输stdout?
How to stream stdout in Scala?

基本上,我有一个程序,其输出转到stdout。 我从我的Scala代码中运行该程序。 我现在所做的是将输出重定向到文件。 像这样的东西。 val cmd = ...

将大表从mongodb加载到spark时出现堆栈溢出错误
Stack overflow error when loading a large table from mongodb to spark

所有,我在mongodb有一张大约1TB的桌子。 我尝试使用mongo连接器在spark中加载它,但是在执行18分钟后我一直在堆栈溢出。 java.lang.StackOverflowError:at ...

Apache Spark是否适用于通用非分析OLTP任务。
Is Apache Spark appropriate for generic non-analytics OLTP tasks.

我正在考虑进入Apache Spark以使用带有scala和Akka的cassandra数据库,我一直试图找到我是否真的可以放弃现有的问题的答案...

如何在sparkR中使用groupBy来计算保持其他列的原样?
How to use groupBy in sparkR to count keeping other columns as it is?

在sparkR中,我需要计算数据框中col colORE的出现次数df3> df3 < - select(df_1,“DC_NAME”,“STORE”,“ITEM_DESC”,“ITEM”)> head(df3)DC_NAME STORE .. 。

从文件系统读取文本文件时,Spark仍尝试连接到HDFS
When reading text file from file system, Spark still tries to connect to HDFS

我刚创建了一个DC / OS集群,我正在尝试运行从/ mnt / mesos / sandbox读取数据的简单Spark任务。 object SimpleApp {def main(args:Array [String]){val conf = new SparkConf()...

使用Spark搜索SQL数据
Searching SQL data using Spark

我正在创建一个spark作业,它使用tf-idf模型搜索与关键字相关的记录(SQL行)。 我目前正在进行的测试是激发提交作业以获得结果。 但是,理想情况......

在specs2-reports上更改outDir的问题
Problems to change outDir on specs2-reports

我的主build.sbt有这个:name:=“preowned-kittens”def PreownedKittenProject(name:String):Project =(Project(name,file(name))。settings(scalaVersion:=“2.11.7”,version。 ..

分区文本文件的Spark附加模式失败,SaveMode.Append - IOException文件已存在
Spark append mode for partitioned text file fails with SaveMode.Append - IOException File already Exists

写分区文本文件失败的简单方法。 dataDF.write.partitionBy(“year”,“month”,“date”).mode(SaveMode.Append).text(“s3:// data / test2 / events /”)异常 - 16/07/06 02: 15:05 ......

Pyspark中的自定义分区
Custom partitioning in Pyspark

我正在尝试使用PySpark在spark作业中创建自定义分区器,说我们有以下数据x = sc.parallelize([['a1','a2',0],['b1','b2',0] ,['c1','c2',1],['d1','d2',1],['e1','e2',1],...

ReduceByKey + Map + Seq说明
ReduceByKey + Map + Seq explanation

我正在尝试理清reduceByKey如何运作,但这种情况令我感到困惑,我根本无法理解它。 代码是:stream.foreachRDD((rdd:RDD [Record])=> {//转换...

Spark中Scala Seq行的NoSuchMethodError
NoSuchMethodError for Scala Seq line in Spark

我尝试在Spark中运行普通的Scala代码时遇到错误,类似于这些帖子:这和他们的问题是他们使用错误的Scala版本来编译他们的Spark项目。 ...

Apache Spark - 添加两列
Apache Spark - Adding two columns

有没有办法添加两列,以便第一列是日期,第二列包含需要添加的天数? 我正在尝试date_add(res.col(“date”),res.col(“days”)); 但......

Spark Scala scala.util.control.Exception在地图中捕获和删除无
Spark Scala scala.util.control.Exception catching and dropping None in map

我正在scala中编写Spark应用程序,并希望处理脏输入文件。 // CSV文件val raw_data = sc.textFile(...)val clean_data = raw_data.map(_。split(delimiter))。map(r =>(r(0),r(1)....

如何将列表转换为str并将每个单词扩展到SparkSQL中的一行?
How to transfer list into str and expand each word to a row in SparkSQL?

我需要使用Spark MLLib的StringIndexer来排列单词的频率,但它需要像df = spark.createDataFrame([(0,“a”),(1,“b”),(2,“c”)这样的格式,(3,“a”),(4,“a”),(5,“c”)],[“id”,“......

Spark DataFrame通过GroupBy删除重复项首先保留
Spark DataFrame Removing duplicates via GroupBy keep first

我正在使用groupBy函数从spark DataFrame中删除重复项。 对于每个组,我只想采取第一行,这将是最新的一行。 我不想执行max()......

如何改善Standalone群集上最后一个任务的执行时间?
How to improve execution time for the last tasks on Standalone cluster?

我有这个代码:JavaRDD <Document> termDocsRdd = sc.wholeTextFiles(“D:/ tmp11”,20).flatMap(new FlatMapFunction <Tuple2 <String,String>,Document>(){@Override ...

如何为一次传递爆炸数组[string]字段和组数据
How to explode array[string] field and group data for one pass

我是scala和spark的新手,并且不知道如何爆炸“path”字段并找到max和min“event_dttm”字段进行一次传递。 我有一个数据:val weblog = sc.parallelize(Seq((“39f0412b4c91”,“...

如何将(不保存或更新)RDD插入(不保存或更新)到Cassandra?
How to insert (not save or update) RDD into Cassandra?

我正在使用Apache Spark和Cassandra,我想用spark-cassandra-connector将我的RDD保存到Cassandra。 这是代码:def saveToCassandra(步骤:RDD [(String,String,Date,Int,Int)])...

Spark 2.0可能是DataFrame初始化的错误
Spark 2.0 Possible Bug on DataFrame Initialization

可能由以下代码生成的错误:_struct = [types.StructField('string_field',types.StringType(),True),types.StructField('long_field',types.LongType(),True),. ..

有效地加入,而不是将数据框的数据加入到其他数据框中
efficiently get joined and not joined data of a dataframe against other dataframe

我有两个数据帧可以说是A和B.它们有不同的模式。 我想从数据框A中获取记录,这些记录与键上的B连接以及未加入的记录,我也想要这些记录。 ...

Spark Scala reduceByKey - 如何引用配置文件中指定的密钥?
Spark Scala reduceByKey - how to reference to keys specified in configuration file?

我有一个包含以下模式的数据集:dataset.printSchema()| - id:string(nullable = true)| - feature1:double(nullable = true)| - feature2:double(nullable = true)| - 特点3:...

是否可以直接在Spark工作者中创建变量?
Is it possible to create a variable directly in Spark workers?

我想做的是在每个Spark工作者中生成一个上下文,我可以用它来进行本地查找。 查找数据位于数据库中,我想将其缓存在每个工作者上。 是......

我可以使用Apache Kafka作为批处理层来保存Lambda架构中的历史数据吗?
Can I use Apache Kafka as for Batch Layer to save historical data in Lambda Architecture?

作为存储系统的Kafka可以是用于长期数据的数据存储。 它可以毫无问题地复制和分发。 那么我可以从Kafka中的所有历史数据创建RDD并创建批处理视图然后......

Spark笛卡儿产品
Spark cartesian product

我必须比较坐标才能获得距离。 因此我用sc.textFile()加载数据并制作一个笛卡尔积。 文本文件中有大约2.000.000行,因此2.000.000 x 2 ....

自我与scala api加入火花
self join in spark with scala api

之前我在scala中发布了自我加入的问题。 我试图在Spark中实现相同但不能转换。 这是问题和我的代码。 输入数据集...... Proprty_ID,纬度,......

如何获得json的火花驱动器指标?
How to get the spark driver metrics json?

我按照监控指南:http://spark.apache.org/docs/latest/monitoring.html来配置metricsservlet,但似乎这个doc没有说任何有用的东西......而且公共场所......

如何使用java自定义比较器来订购Spark RDD
How to use a java custom comparator for ordering a Spark RDD

我有一个以这种方式实现Comparator的类:public class MyObject <T> {public static class MyObjectComp <T>实现Comparator <MyObject <T >> {...
1 2 3 4 5 6 7 114 115