我是否达到了允许的最大HDFS块大小
Have I reached the maximum allowable HDFS block size

我在单节点集群中运行Hadoop 0.21.0来处理单个大> 200 GB的文件。 为了减少执行时间,我尝试了不同的HDFS块大小(128,256,512 MB,1,1.5,1.75 ......

用于hadoop mapreduce的罐子
Jars for hadoop mapreduce

我正在关注Apache给出的这个hadoop mapreduce教程。 那里给出的Java代码使用这些Apache-hadoop类:import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs ....

在hadoop reducer中覆盖
Override in hadoop reducer

我是hadoop的初学者。 我决定创建一个情绪分析程序。我有一个mapper类。 映射器的输出是LongWritable和Text格式。 它是输入到减速器的。 因此我有......

NullWritable是映射器可接受的输入键吗?
Is NullWritable an acceptable input key for mappers?

我正在编写一个自定义recordReader,它将键值对输出到我的映射器。 我真的只需要输出值而不需要键,所以我打算使用NullWritable作为我的键和Text ...

YARN客户端身份验证失败,未启用SIMPLE身份验证。
YARN client authentication fails with SIMPLE authentication is not enabled. Available:[TOKEN]

我已经设置了一个简单的本地PHD 3.0 Hadoop集群,并按照Spring Yarn Basic入门指南中描述的步骤针对我的Hadoop集群运行应用程序,给出了org.apache.hadoop ....

如何在HADOOP中处理多个文件夹
How to Process multiple folders in HADOOP

我有以下问题。 我有200k xml文件。 我有200个文件夹,每个文件夹有2000个xml文件。 我的HDFS中有这个。 架构在RootFolder Folder001 1.xml下面......

Java程序,用于解析使用Pig脚本生成的组的输出
Java program to parse the output of group generated using Pig scripting

我需要使用Java解析以下行,这是由Pig组函数生成的。 (D1,{(A1,null,C1,D1,E1),(null,B1,C1,D1,E1),(A2,null,null,D1,E2)})这里D1是Key,和(A1 ...

从Web应用程序运行MapReduce作业
Run MapReduce Job from a web application

参考类似的问题:从另一个Java程序运行Hadoop作业并从一个简单的java程序调用mapreduce作业我在Hadoop远程中也有一个mapreduce作业jar文件...

为什么我的输出文件名为'part-r-xxxxx',即使我没有提到任何reducer类?
Why are my output files named 'part-r-xxxxx', even though I have not mentioned any reducer class?

我正在使用Hadoop 2.6.0的Apache发行版。 我知道映射器的输出文件以每个映射器的“part-m-xxxxx”格式命名,而reducer的输出文件命名为“part-r-xxxxx”......

将Pig“GROUP BY”的结果存储到HDFS中
Storing the result of Pig "GROUP BY" into HDFS

我正在寻找一种方法将pig中“group by”命令的输出存储到文件中。 (D1,{(A1,null,C1,D1,E1),(null,B1,C1,D1,E1),(A2,null,null,D1,E2)})(C1,{(A1,null, C1,D1,E1),(null,B1,C1,D1,E1)})我......

Spark支持子查询吗?
Does Spark support subqqueries?

当我运行这个查询时,我得到了这种类型的错误select * from raw_2 where ip NOT IN(select * from raw_1); org.apache.spark.sql.AnalysisException:查询中不支持的语言功能:...

将hive表标记为已复制/小
Mark a hive table as replicated/small

是否有可能告诉蜂巢某个表是“小”的,即它应该被复制到所有节点并在RAM中进行操作?

从多个服务器加载数据时避免数据重复
Avoiding Data Duplication when Loading Data from Multiple Servers

我有十几个Web服务器,每个都将数据写入日志文件。 在每小时开始时,使用运行命令的cron脚本将前一小时的数据加载到配置单元:hive -e“LOAD ...

连接由127.0.0.1关闭
Connection closed by 127.0.0.1

我在这里使用hadoop框架。 我之前从这些网站安装了hadoop:http://ebiquity.umbc.edu/Tutorials/Hadoop/05%20-%20Setup%20SSHD.html。 它适用于我。 但现在我必须......

hadoop sqoop将csv文件加载到mysql中
hadoop sqoop load csv file into mysql

我正在学习hadoop sqoop。 我正在开发一个hortonworks沙箱(一个单节点的hadoop虚拟机:http://hortonworks.com/products/hortonworks-sandbox/#install)。 我正在尝试加载csv ...

设置和访问分布式缓存的问题
Problems with setting up and accessing Distributed Cache

出于某种原因,我无法在线找到任何有利于分布式缓存使用新API的好资源。 希望有人在这里解释我做错了什么。 我目前的尝试是一种混合 - ...

没有Sandbox的Apache Kylin安装
Apache Kylin installation without Sandbox

我想知道是否有任何关于Apache Kylin安装的资源,没有任何沙箱(如cloudera,hortonworks)支持。 我已设法执行以下操作:安装Hadoop 2.6安装...

Mapreduce程序导致错误
Mapreduce program resulting in errors

尝试Java MapReduce问题。 当我用以下命令编译代码时,我得到一些错误,它们列在下面..请帮帮我。 在此先感谢源代码包...

hadoop datanode在几秒钟后死亡
hadoop datanode dies after few seconds

我在vmware上安装了hadoop-2.2.0版本,当它启动时,它会显示所有进程正在运行,但是一段时间后datanode被杀死了。 所以,我检查了日志,我发现了这个:2014-01-21 04:36:...

为什么hsync()没有刷新我的hdfs文件?
Why is hsync() not flushing my hdfs file?

尽管关于这个主题的所有资源,我有问题在磁盘上刷新我的hdfs文件(hadoop 2.6)调用FSDataOutputStream.hsync()应该做的伎俩,但它实际上只适用于...

使用oozie调用pig - org.apache.pig.Main退出代码[2]
Invoke pig with oozie - org.apache.pig.Main exit code [2]

我正在尝试在Oozie中调用Pig动作,我正在使用以下内容 - Oozie v3.3.2 Pig v0.12.1-mapr Hadoop v1.0.3 mapr M5我可以使用Oozie调用java动作...

Hadoop MultipleOutputs.addNamedOutput抛出“找不到符号”
Hadoop MultipleOutputs.addNamedOutput throws "cannot find symbol"

我正在使用Hadoop 0.20.203.0。 我想输出两个不同的文件,所以我试图让MultipleOutputs工作。 这是我的配置方法:public static void main(String [] args)throws ...

在ubuntu 12.04上找不到start-dfs.sh:命令
start-dfs.sh: command not found on ubuntu 12.04

我已经安装了hadoop 2.2.0。 在Ubuntu 12.04上。 但命令start-dfs.sh不起作用。 当我运行此命令时,它返回start-dfs.sh:command not found。 start-dfs.sh,start-all.sh,stop-dfs.sh ......

无法在Ambari Hadoop集群上启动HUE
failed to start HUE on Ambari Hadoop cluster

我是大数据,hadoop和linux的新手。 我们有一个小的4节点集群,1个主节点和3个节点,在Ambari 2.1和Hadoop 2.2.6上运行。所有机器都在Ubuntu Server 12.04上运行。 一切都好......

如何在spark中读取HDFS序列文件
How to read HDFS sequence file in spark

我试图从HDFS(在这种情况下是s3)中读取文件到Spark作为RDD。 该文件位于SequenceInputFileFormat中。 但我无法将文件的内容解码为字符串。 我有以下......

cloudera Impalad实例如何工作?
how does cloudera Impalad instance works?

我正在使用cloudera impala,我在一台机器上启动了statestore,在所有机器节点上启动了imapalad实例。 imapalad和statestore的每个实例如何知道所有其他impalad ...

在不失去Hadoop并行处理能力的情况下,将SAS与Hadoop集成的最佳方法是什么?
What is the best way to integrate SAS with Hadoop without losing the parallel processing capacity of Hadoop

我试图了解SAS和Hadoop之间的集成。 根据我的理解,像proc sql这样的SAS进程只能对SAS数据集起作用,我不能对文本文件发出proc sql ...

Cloudera 5.4.4集群 - 获取聚合使用指标
Cloudera 5.4.4 Cluster - Getting aggregate usage metrics

我想从Cloudera 5.4.4 Hadoop集群中收集聚合使用指标。 我想到的一些指标如下:每天/每周集群的平均CPU利用率Top n ...

apache storm是否通过itslef在集群中进行资源管理工作?
Does apache storm do resource management job in the cluster by itslef?

好吧,我是Apache Storm的新手,经过一些搜索和阅读教程,我没有得到故障容忍,负载平衡和其他资源管理器职责如何在Storm集群中发生? 应该是 ...

如果表包含重复行,则返回布尔值(1或0)
Return Boolean (1 or 0) if table contains duplicate rows

如果Hive 0.9中的表中有重复项,我希望返回一个布尔值。现在,我这样做:选择强制转换(当count(*)> 0时为1,然后是1,0结束为smallint)Validate_Value from ...

这个用例中的数据仓库是什么
What is a Data warehouse in this use case

我试图弄清楚数据仓库,集群数据处理和用于查询数据仓库的工具/基础架构之间的差异(工具/服务/程序之间)让我说我...

为什么A和B的内连接比Pig中的A或B产生更多的结果?
Why does inner join of A and B produce more results than either A or B in Pig?

我的理解是内部连接应该采用具有相同键的A和B的交集,因此交叉点中的结果数量应该永远不会超过A或B.但是,我运行了...

Tez上的Hive 0.14:每个插入一个文件,即使使用hive.merge也是如此。
Hive 0.14 on Tez : one file per insert, even with hive.merge. activated

每隔15分钟,我需要将数据插入存储为ORC的不同表中并聚合值。 那些INSERT使用动态分区。 每个INSERT在分区中创建一个新文件,这很慢......

对于MRv1(mapreduce)和MRv2(YARN),“Wordcount”程序是否不同
Does "Wordcount" program differs for MRv1(mapreduce) and MRv2(YARN)

“Wordcount”程序对于不同的Hadoop(Mapreduce)版本是否有所不同。 至少MRv1(mapreduce)和MRv2(YARN)? 或编程相同但wordcount所需的包是不同的.......?

密码保护端口50070上的Hadoop NameNode Web UI
Password protect Hadoop NameNode Web UI on port 50070

Hadoop的NameNode在端口50070(http:// localhost:50070)上有一个Web UI,它总是可以通过浏览器访问。 我希望通过基本身份验证密码保护整个目录...

Spark Streaming异常处理策略
Spark Streaming exception handling strategies

我有一个pyspark流式传输作业,它从s3流式传输一个目录(使用textFileStream)。 解析每行输入并在hdfs上输出为镶木地板格式。 这在正常情况下很有效。 ...

来自Java的HBase扫描api
HBase scan api from Java

我正在基于Java的Hbase客户端编写一些非常基本的东西,用于在已启用的现有表上执行扫描操作。 该计划基于:https://hbase.apache.org/apidocs/org/apache/hadoop / ...

为什么LongWritable(key)没有在Mapper类中使用?
Why LongWritable (key) has not been used in Mapper class?

Mapper:Mapper类是一个泛型类型,有四个形式类型参数,用于指定map函数public class的输入键,输入值,输出键和输出值类型...

Mapper和Reducer可以放在不同的罐子里
Can Mapper and Reducer be on separate jars

在MapReduce作业中,我理解Job runner类本身可能驻留在一个独立的jar中,而不是mapper和reducer(检查这个答案)并且setJarByClass是...

Sqoop - 如何将多个mysql表导入一个HBase / Hive表
Sqoop - How do I import multiple mysql tables to one HBase/Hive table

如果我有多个类似的表,例如:表A:“users”,列:user_name,user_id,user_address等等表B:“customers”列:customer_name,customer_id,customer_address等等...

使用Impala显示与记录关联的所有字段
Display all the fields associated with the record using Impala

假设,我有一张学生桌,里面有一些黑斑羚。 想象一下,有一个名为total_mark的字段,我应该找到每个分支带有最大标记的学生详细信息。 我的桌子是这样的:......

HDFS块是如何顺序的
How is a HDFS block sequential

当底层linux文件系统只有4KB的块大小且64MB块的写入不能顺序时,hdfs如何有一个64MB的顺序块。 有什么想法吗? 我无法得到......

为什么分区连接(shuffle)并不总是比广播连接更好?
Why partitioned join (shuffle) isn't always better than broadcast join?

我做了很深入的研究,但我找不到足够详细的信息......我读过这些:1)http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/PDF /cloudera-impala.pdf 2)http:/ ...

sqoop,选择特定列
sqoop, select specific columns

在sqoop语句中,是否有一个规定我们只能从oracle端选择特定的列? 1:工作sqoop import --target -dir / tmp / customers --query“SELECT * FROM schema1.customers ...

Hadoop后端有数百万条记录插入
Hadoop backend with millions of records insertion

我是hadoop的新手,有人可以建议我如何将数百万条记录上传到hadoop吗? 我可以用蜂巢做到这一点,我在哪里可以看到我的hadoop记录? 到现在为止,我已经使用蜂巢进行创作......

为什么我的Pig UDF在Amazon EMR上使用更多机器时速度更快?
Why my Pig UDF not faster with more machine on Amazon EMR?

我是这个Hadoop和大数据的新手。 我们每天都有数百个日志文件。 每个文件大约约78Mb。 所以,我们认为我们可以从Hadoop工作中受益,我们可以编写Pig UDF并提交给亚马逊......

无法在Hadoop Multinode集群中启动start-dfs.sh
unable to start start-dfs.sh in Hadoop Multinode cluster

我已经创建了一个hadoop多节点集群,并且还在主节点和从节点中都配置了SSH,现在我可以在主节点中连接到没有密码的slave但​​是当我尝试在master中启动-dfs.sh时...

地图效果很好,但Reduce失败了
Map works well, but Reduce failed

我运行一个简单的排序程序,但是,我遇到如下错误。 12/06/15 01:13:17 WARN mapred.JobClient:错误读取任务outputServer返回HTTP响应代码:403 for URL:_http://192.168 ....

将CSV文件读入Spark中
Issue reading CSV file in to Spark

我正在尝试将CS​​V文件加载到HDFS中,并将其作为RDD读取到Spark中。 我正在使用Hortonworks Sandbox并通过命令行尝试这些。 我按如下方式加载数据:hadoop fs -put ...

线程“main”中的异常java.lang.UnsupportedClassVersionError:org / apache / hadoop / fs / FsShell:不支持的major.minor版本51.0
Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/hadoop/fs/FsShell : Unsupported major.minor version 51.0

我试图在Hadoop hadoop fs -ls /上执行下面的命令,但它在线程“main”java.lang.UnsupportedClassVersionError中出现错误Exception:org / apache / hadoop / fs / FsShell:...
1 2 3 4 5 6 7 175 176