Advertisement

Hadoop集群的配置调优

一.背景 HADOOP的配置优化,涉及到多方面,本部分主要针对HADOOP集群的配置优化进行汇总,以供参考. 二.配置 1.hdfs-site.xml配置文件 1).dfs.block.size:块大小的设置,也就是说文件按照多大的size 来切分块. 一般来说,块的大小也决定了你map 的数量.举个例子:我现在有一个1T 的文件,如果我的块size 设置是默认的64M,那么在HDFS 上产生的块将有1024000/64=16000 块. 如果我们以TextInputFormat 来处理该1T

Continue reading »

Centos5.6下利用Ambari搭建Hadoop集群(Hotonworks框架)

写在前面: 很长时间没在CSDN上写博客了,最近两个月公司计划要搞大数据,而我们的技术不够,所以这段时间主要进行Hadoop的相关技术学习及储备.废话不多说,下面进入主题,本次主要讨论在Centos5.6下通过Ambari进行Hadoop集群的安装(基于Hotonworks框架). 一.Centos安装(已装了系统的可以跳过此步) 1. 把光盘放入光驱中重新启动电脑,让光盘引导来安装CentOS 5.6系统; 上图为CentOS的安装启动界面,如果想用文本方式安装,就输入linux text加回

Continue reading »

虚拟机搭建Hadoop集群(1) ---nat模式

网上虚拟机搭集群的文章太多了,推荐搭的过程比较成功和方便的教程 (1)VMWare 版本和 Ubuntu版本 Ubuntu版本最终选择了有图形界面的,选这个版本之后对设置机器网络比较方便 在以下连接中 http://www.aboutyun.com/thread-6780-1-1.html (2)VMWare的创建虚拟机还是比较简单的,这个就不说了,网络适配器选Nat就可以了 (3)给创建的虚拟机设置网关,IP,DNS等 这里之前绕了很多的弯路,有些帖子上面写要把DHCP关掉,还要修改ifcfg

Continue reading »

hadoop集群默认配置和常用配置【转】

转自http://www.cnblogs.com/ggjucheng/archive/2012/04/17/2454590.html 获取默认配置 配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效.浏览更多的配置,有两个方法: 1.选择相应版本的hadoop,下载解压后,搜索*.xml

Continue reading »

hadoop 集群默认配置和常用配置

获取默认配置 配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效.浏览更多的配置,有两个方法: 1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以

Continue reading »

ubuntu server 搭建hadoop 集群易忽略的问题

本人是在vmware虚拟机下装的ubuntu server 12.04,配置好之后直接把虚拟机文件copy了两份,也就是说集群中有三个主机,本来想偷懒,我把几个虚拟机文件放在了同一个目录,只是把后来copy的两份名字改了一下,在vmware下安装ubuntu server的时候选择了预先分配硬盘空间,这样会形成两个文件:xxxx.vmdk xxxx-falt.vmdk,第二个才是真正的虚拟机文件,第一个估计是配置文件,创建虚拟机的时候选择必须选择第一个文件,选择第二个出错,提示不是vmdk文件,

Continue reading »

ceph存储 centos上搭建Ceph集群--Best

Ceph是一个比较新的分布式文件系统,由USSC的存储小组完成,是一个基于OSD(对象存储设备)的网络文件系统;相关文章发表在OSDI'06,MSST03,04等上.最近又Ceph文件系统的客户端部分已经进入了Linux Kernel 2.6.34里.    最近花了些时间用VMWare虚拟机搭了一个Ceph.现把搭建的过程,以及其间遇到并解决的问题写在这里. 1.设计一个Ceph集群 Ceph主要分为4个部分,客户端/monitor/mds/osd    客户端向外export出一个POSIX

Continue reading »

centos下搭建mongodb集群

安装前先同步服务器时间: a.yum install ntp b.ntpdate 210.72.145.44 同步时间方式2: yum install rdate rdate -t 60 -s stdtime.gov.hk hwclock -w rdate的命令使用方法介绍 功能说明:显示其他主机的日期与时间. 语 法:rdate [-ps][主机名称或IP地址...] 补充说明:执行rdate指令,向其他主机询问系统时间并显示出来. 参 数: -p 显示远端主机的日期与时间. -s 把从远端主

Continue reading »

hadoop集群下配置ssh本机免密码登陆

ssh本机免密码登陆 [root@Master ~]# ssh localhost root@localhost's password: //此时需要输入密码 [root@Master ~]# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa //生成密钥文件,加密方式这里选择的是dsa方式 Generating public/private dsa key pair. Your identification has been saved in /root/.ss

Continue reading »

脚本自动配置hadoop集群的ssh无密码登录

最近公司新搭建hadoop集群,配置了几台机器之后觉得很麻烦,尤其是ssh无密码登录,每个节点都要配置一遍,于是写了个脚本自动配置,以后集群要添加节点也很方便. 网上很多文章都是在root直接配置的,因为我是用单独的hadoop用户,所以是在该用户下执行操作. #!/bin/bash export SLAVES="slave1 slave2" export USER='hadoop' ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa           

Continue reading »

完全分布式hadoop集群安装之三:hadoop集群配置

上一篇中搭建了4台linux虚拟机,用这4台虚拟机就可以搭建一个完全分布式hadoop集群了. 1.虚拟机规划 集群中包括4个节点,1个master,3个Salve,节点之间局域网连接,可以相互ping通,节点IP地址分布如下: 机器名称 IP地址 Master 219.244.84.92 Slave1 219.244.84.93 Slave2 219.244.84.94 Slave3 219.244.84.95 四个节点上均是centos6.0系统,并且都建立一个相同的子用户,比如grid(目

Continue reading »

hadoop集群搭建之SSH无密码登录配置

在多台电脑上搭建hadoop集群已经有一段时间了,SSH无密码登录服务配置成了一道无法逾越的鸿沟,在启动hadoop集群时,老实让输入datanode也就是slave的密码,但是输入密码但却总是提示permission denied,启动不了datanode.看了网上有关hadoop集群搭建之ssh服务总是千篇一律,不得其法,由于本人是菜鸟一枚,也无法自行快速解决,十分纠结.机缘巧合,我遇到一个对SSH较为熟知的大牛,从他那里获得启发,终于完成了ssh无密码登录的配置.在这里向他致敬.废话不多说

Continue reading »

Hadoop集群(CHD4)实践之 (4) Oozie搭建

目录结构 Hadoop集群(CDH4)实践之 (0) 前言 Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建 Hadoop集群(CDH4)实践之 (2) HBase&Zookeeper搭建 Hadoop集群(CDH4)实践之 (3) Hive搭建 Hadoop集群(CHD4)实践之 (4) Oozie搭建 Hadoop集群(CHD4)实践之 (5) Sqoop安装 本文内容 Hadoop集群(CHD4)实践之 (4) Oozie搭建 参考资料 http://www.clo

Continue reading »

实验室中搭建Spark集群和PyCUDA开发环境

1.安装CUDA 1.1安装前工作 1.1.1选取实验器材 实验中的每台计算机均装有双系统.选择其中一台计算机作为master节点,配置有GeForce GTX 650显卡,拥有384个CUDA核心.另外两台计算机作为worker节点,一个配置有GeForce GTX 650显卡,另外一个配置有GeForce GTX 750 Ti显卡,拥有640个CUDA核心. 在每台计算机均创建hadoop用户并赋予root权限,本文所有的操作都将在hadoop用户下进行. 1.1.2安装前准备 用以下命令来

Continue reading »

部署Hadoop集群的步骤

1. Hadoop的三种集群搭建方式 Hadoop支持以下三种模式的Hadoop集群: ? 单机模式 相当于没有HDFS文件系统,只是支持MapReduce ? 伪分布式模式 相当于只有一个节点的集群.主从节点都位于同一主机,从MapReduce层面来看,也就是Jobtracker与TaskTracker位于同一节点:从文件系统的角度来看,也就是NameNode与DataNode位于同一节点: ? 完全分布式模式 主从节点分开的完全分布式模式. 2. 安装包准备 需要安装包: (1) jdk-6

Continue reading »

hadoop集群环境的配置

之前说过,我们的hadoop集群已经搭建起来了,只是具体的步骤还没来得及整理,幸好今天又把流程走了一遍,真的是不做不晓得,一做才发现自己原来什么都忘记得差不多了,在此记录一下搭建hadoop集群的步骤,便于需要的时候看看! 这个配环境的过程真的是比较困难的,我今天搞了一天终于把自己的机器作为datanode连接上了master机器,我还是年前搞过一遍的呢,所以这个还是需要耐心+细心的! 这里首先声明一下,我之前在我的机器上配置过了hadoop的单机伪分布环境,今天才将我的机器作为一个datano

Continue reading »

Hadoop集群的安装与配置(centos 6.5)

一.Hadoop搭建准备(centOs6.5 且每个系统都要有同一个用户,如:hadoop) 1.IP的配置 包括Master和Slaves的IP配置,之间能够相互ping通: 例如: 192.168.1.2 Master 192.168.1.3 Slave-1 192.168.1.4 Slave-2 192.168.1.5 Slave-3 其中每台机子配置IP的过程如下: vi /etc/sysconfig/network //配置hostName vi /etc/sysconfig/netw

Continue reading »

Docker安装Hadoop集群

Docker安装Hadoop集群 [日期:2015-08-10] 来源:Linux社区 作者:songfy [字体:大 中 小] Docker安装Hadoop集群?图啥呢?不图啥,就是图好玩,本篇博客主要是来教大家如何搭建一个Docker的Hadoop集群,不要问为什么我要做这么无聊的事情,答案你也许知道,就是喜欢折腾. 好了,不多说这些没有必要的东西了,首先,我们来安装Docker. 一.docker的安装 sudo yum install -y docker-io sudo wget htt

Continue reading »

可用的hadoop集群安装文档

本教程讲述如何配置 Hadoop 集群,默认读者已经掌握了 Hadoop 的单机伪分布式配置,否则请先查看Hadoop安装教程_单机/伪分布式配置 或 CentOS安装Hadoop_单机/伪分布式配置. 本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行 Hadoop.另外有Hadoop安装配置简略版方便有基础的读者快速完成安装.本教程由厦门大学数据库实验室出品

Continue reading »

linux下(CentOS)Hadoop集群伪分…

一. 前言 Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式.Hadoop 本身是无法区分伪分布式和分布式的,两种配置也很相似,唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器. 现在很多初学者根本不具备搭建完全分布式集群的硬件环境,大多都是在单机下进行学习和实验. 下面将我在安装期间遇到的问题和解决方法记录下来,和网友共勉.本人当时是在LinuxCent OS 6.3下搭建成功Hadoop伪分布式

Continue reading »