当前位置：首页 » 数据共享 » hadoop搭建大数据平台

hadoop搭建大数据平台

发布时间: 2024-10-22 18:00:11

❶ 为什么当下众多企业都在着力搭建自己的大数据平台

（1）操作系统的选择操作系统一般使用开源版的RedHat、Centos或者Debian作为底层的构建平台，要根据大数据平台所要搭建的数据分析工具可以支持的系统，正确的选择操作系统的版本。

（4）数据存储除了Hadoop中已广泛应用于数据存储的HDFS，常用的还有分布式、面向列的开源数据库Hbase，HBase是一种key/value系统，部署在HDFS上，与Hadoop一样，HBase的目标主要是依赖横向扩展，通过不断的增加廉价的商用服务器，增加计算和存储能力。
（5）选择数据挖掘工具Hive可以将结构化的数据映射为一张数据库表，并提供HQL的查询功能，它是建立在Hadoop之上的数据仓库基础架构，是为了减少MapRece编写工作的批处理系统，它的出现可以让那些精通SQL技能、但是不熟悉MapRece、编程能力较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL语言查询、汇总、分析数据。

❷ 如何创建一个大数据平台

整体而言，大数据平台从平台部署和数据分析过程可分为如下几步：
1、linux系统安装
一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础，在给硬盘做RAID和挂载数据存储节点的时，需要按情况配置。例如，可以选择给HDFS的namenode做RAID2以提高其稳定性，将数据存储与操作系统分别放置在不同硬盘上，以确保操作系统的正常运行。
2、分布式计算平台/组件安装
目前国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS，一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
先说下使用开源组件的优点：1）使用者众多，很多bug可以在网上找的答案（这往往是开发中最耗时的地方）。2）开源组件一般免费，学习和维护相对方便。3）开源组件一般会持续更新，提供必要的更新服务『当然还需要手动做更新操作』。4）因为代码开源，若出bug可自由对源码作修改维护。

❸ 如何架构大数据系统 hadoop

大数据数量庞大，格式多样化。大量数据由家庭、制造工厂和办公场所的各种设备、互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力，给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构，围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程，开发使用这些数据，释放出更多数据的隐藏价值。

一、大数据建设思路

1）数据的获得

四、总结

基于分布式技术构建的大数据平台能够有效降低数据存储成本，提升数据分析处理效率，并具备海量数据、高并发场景的支撑能力，可大幅缩短数据查询响应时间，满足企业各上层应用的数据需求。

❹ 如何搭建基于Hadoop的大数据平台

Hadoop: 一个开源的分布式存储、分布式计算平台.（基于Apache）

Hadoop的组成：
HDFS:分布式文件系统，存储海量的数据。
MapRece:并行处理框架，实现任务分解和调度。
Hadoop的用处：
搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务。
比如搜索引擎、网页的数据处理，各种商业智能、风险评估、预警，还有一些日志的分析、数据挖掘的任务。
Hadoop优势：高扩展、低成本、成熟的生态圈(Hadoop Ecosystem Map)

Hadoop开源工具：
Hive：将SQL语句转换成一个hadoop任务去执行，降低了使用Hadoop的门槛。
HBase:存储结构化数据的分布式数据库，habase提供数据的随机读写和实时访问，实现对表数据的读写功能。
zookeeper:就像动物管理员一样，监控hadoop集群里面每个节点的状态，管理整个集群的配置，维护节点针之间数据的一次性等等。
hadoop的版本尽量选稳定版本，即较老版本。
===============================================
Hadoop的安装与配置：
1）在Linux中安装JDK，并设置环境变量
安装jdk: >> sudo apt-get install openjdk-7-jdk
设置环境变量：
>> vim /etc/profile

>> :wq
2)下载Hadoop,并设置Hadoop环境变量
下载hadoop解压缩:
>> cd /opt/hadoop-1.2.1/
>> ls
>> vim /etc/profile

>>:wq

3）修改4个配置文件
（a）修改hadoop-env.sh,设置JAVA_HOME
（b）修改core-site.xml,设置hadoop.tmp.dir, dfs.name.dir, fs.default.name
（c）修改mapred-site.xml, 设置mapred.job.tracker
（d）修改hdfs-site.xml,设置dfs.data.dir
>> cd conf
>> ls

>> vim mapred-site.xml

>> :wq
>> vim core-site.xml
第一部分

第二部分

>> :wq
>> vim hdfs-site.xml

>> :wq
>> vim hadoop-env.sh

>> :wq
# hadoop格式化
>> hadoop namenode -format
# hadoop启动
>> start-all.sh
# 通过jps命令查看当前运行进程
>> jps
看见以下进程即说明hadoop安装成功

阅读全文

hadoop搭建大数据平台

与hadoop搭建大数据平台相关的阅读推荐