中国移动研究院常耀斌:商用大数据平台的研发历程
发布时间:2021-06-21 19:59:25 所属栏目:大数据 来源:互联网
导读:导语:我是中国移动研究院的资深架构师常耀斌。2007年,我加入中国电科,参与并主导设计的全军一体化指挥作战平台荣获国家科技进步特等奖。2009年,我出任华为云第一代架构师,带领团队研制并运营了国内首个公有云平台。回首10年多的科研工作历程,也是中国
导语:我是中国移动研究院的资深架构师常耀斌。2007年,我加入中国电科,参与并主导设计的“全军一体化指挥作战平台”荣获国家科技进步特等奖。2009年,我出任华为云第一代架构师,带领团队研制并运营了国内首个公有云平台。回首10年多的科研工作历程,也是中国经济高速发展的10多年,中国高铁、核电、航空、互联网、云计算、大数据、人工智能等领域无不铭刻着“中国名片”,这就是科技是第一生产力的实践验证!2007年,获得北邮计算机工学硕士后信心满满的踏上了科研之路,一干就是十多年,有苦有泪有艰辛,但收获的是一种为国家科技发展能奉献和敢担当的责任感。
今天,又一次站在了移动互联网这个朝阳产业的跑道上,和诸多大数据和人工智能的世界级大咖共商创新发展!2012年加入中国移动集团研究院,担任资深大数据专家和研究员,主攻大数据和人工智能平台架构设计和关键技术研究,并多次受邀在大数据行业和主流峰会进行学术交流,在见证我的学生们历练为BAT/TMD的技术专家同时,也悄然实现着我的技术梦想-让高科技研发标准化和平民化。今天有幸分享商用大数据平台研发经验,让大数据知识图谱在各位的脑海里转起来,并形成商用产品的作战体系,这是“作为架构师,何谓正确?”的行动基础。我分享四大部分:知识分类,系统架构,核心技术,经验分享。具体如下:
01大数据知识结构归类:
* 文件存储:
Hadoop HDFS、Tachyon、KFS
* 离线计算:
Hadoop MapReduce、Spark
* 流式、实时计算:
Storm、Spark Streaming
* K-V、NOSQL数据库:
HBase、Redis、MongoDB
* 资源管理:
YARN、Mesos
* 日志收集:
Flume、Scribe、Logstash、Kibana
* 消息系统:
Kafka、StormMQ、ZeroMQ、RabbitMQ
* 查询分析:
Hive、Impala、Pig、SparkSQL、Flink
* 分布式协调服务:
Zookeeper
* 集群管理与监控:
Ambari、Ganglia、Nagios、Cloudera Manager
* 数据挖掘、机器学习:
Mahout、Spark MLLib
* 数据同步:
Sqoop
* 任务调度:
Oozie
02 知识汇总及系统架构形成:
以物联网大数据平台的架构为例,围绕着这条主线:基础架构-》离线分析-》离线迁移-》离线同步-》实时计算-》实时交换-》实时调度-》实时存储-》智能分析。
03 核心技术(10个单元)
第一单元:基础架构-Hadoop的破冰之旅
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是实现了真正意义上的去“IOE”,尤其是开启了摆脱国外高科技公司的全球垄断时代,让全球用户可以轻松地在免费的Hadoop上开发和运行处理海量数据的应用程序。建议先把Hadoop集群构建起来,具体操作见我的博客:https://blog.csdn.net/peter_changyb/article/details/81195920。它主要有以下几个优点:
* 高可靠性。
Hadoop按位存储和处理数据的能力值得人们信赖。
* 高扩展性。
Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
* 高效性。
Hadoop能够在节点之间动态地移动数据,并保证各个节点动态平衡,因此处理速度非常快。
* 高容错性。
Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
Hadoop可以算是大数据存储和计算的开山鼻祖,现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。具备如下:
Hadoop 1.0、Hadoop 2.0
MapReduce、HDFS
NameNode、DataNode
JobTracker、TaskTracker
Yarn、ResourceManager、NodeManager
1.1 HDFS是Hadoop的关键技术所在
HDFS目录操作命令;上传、下载文件命令;提交运行MapReduce示例程序;打开Hadoop WEB界面,查看Job运行状态,查看Job运行日志。知道Hadoop的系统日志在哪里。
1.2 了解并行计算的核心原理
MapReduce:分而治之的优秀思想;HDFS:数据分片和数据复制为核心的技术。数据到底在哪里,什么是副本;
Yarn如何用分层管理思想革命性的改变了MapReduce的核心架构?NameNode职责?;Resource Manager职责?
1.3 亲自写MapReduce程序
第二单元:离线分析
2.1 SQL On Hadoop之Hive
什么是Hive?官方解释如下:The Apache Hive data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried using SQL syntax.
数据仓库物理上是数据库,逻辑上仓库。有两个特点:海量数据、相对稳定的;相对稳定,指很少会被更新和删除,只会被大量查询。而Hive,也是具备这两个特点,因此,Hive适合做海量数据的数据仓库工具,而不是数据库工具。Hive核心技术讲解参见我的博客 https://blog.csdn.net/Peter_Changyb/article/details/81977665
2.2 安装配置Hive
2.3 使用Hive
2.4 Hive核心原理
2.5 Hive的基本命令:
创建、删除表;加载数据到表;下载Hive表的数据,需要你掌握如下技能:
MapReduce的原理;
HDFS读写数据的流程;
学会查看日志解决问题;
会SELECT、WHERE、GROUP BY等SQL语句;
Hive SQL转换成MapReduce的关键流程;
Hive中常见的语句:创建表、删除表、往表中加载数据、分区、将表中数据下载到本地;
![]() (编辑:西双版纳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |