Figo's HOUSE 
  • 首页
  • 归档
  • 类目
  • 标签
  • 关于
  •     
数据开发面经笔记-Hadoop、Spark、Hive

数据开发面经笔记-Hadoop、Spark、Hive

HadoopHadoop组件 Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。 (1)HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。 (2)YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager (3)MapReduce:它其实是一个应用程序开发包。 HDFS(Hadoop分布式文件系统) 是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。 client:切分文件,访问HDFS,与namenode交互,获取文件位置信息,与DataNode交互,读取和写入数据。 namenode:master节点,在hadoop1.x中只有一个,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户 端请求。 DataNode:slave节点,存储实际的数据,汇报存储信息给namenode。 secondary namenode:辅助namenode,分担其
 2022-03-08   实习    Hive  大数据  Hadoop  Spark  面经 
后端面经笔记--消息队列与数据库

后端面经笔记--消息队列与数据库

消息队列消息队列 消息队列是分布式应用间交换信息的重要组件,消息队列可驻留在内存或磁盘上, 队列可以存储消息直到它们被应用程序读走。 现在比较常见的消息队列产品主要有ActiveMQ、RabbitMQ、ZeroMQ、Kafka、RocketMQ等。 RabbitMQ RabbitMQ是流行的开源消息队列系统,用erlang语言开发。RabbitMQ是AMQP(高级消息队列协议)的标准实现。 用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。 消息队列的使用过程,如下: 客户端连接到消息队列服务器,打开一个channel。 客户端声明一个exchange,并设置相关属性。 客户端声明一个queue,并设置相关属性。 客户端使用routing key,在exchange和queue之间建立好绑定关系。 客户端投递消息到exchange。 exchange接收到消息后,就根据消息的key和已经设置的binding,进行消息路由,将消息投递到一个或多个队列里。 Kafka Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流
 2022-03-06   实习    C++  面经 
后端面经笔记--C++基础与并发

后端面经笔记--C++基础与并发

C++ 基础面向对象三大特性:封装、继承、多态如何在C++中体现封装 体现在C++中的类(Class),它所封装的是自己的属性和方法,内部属性和方法分public、protected、private。 继承 继承就是新类从已有类那里得到已有的特性。 类的派生指的是从已有类产生新类的过程。原有的类成为基类或父类,产生的新类称为派生类或子类,子类继承基类后,可以创建子类对象来调用基类函数,变量等。 单一继承:继承一个父类,这种继承称为单一继承,一般情况尽量使用单一继承,使用多重继承容易造成混乱易出问题。 多重继承:继承多个父类,类与类之间要用逗号隔开,类名之前要有继承权限,假使两个或两个基类都有某变量或函数,在子类中调用时需要加类名限定符如c.a::i = 1; 菱形继承:多重继承掺杂隔代继承1-n-1模式,此时需要用到虚继承,例如 B,C虚拟继承于A,D再多重继承B,C,否则会出错。 继承权限:继承方式规定了如何访问继承的基类的成员。继承方式指定了派生类成员以及类外对象对于从基类继承来的成员的访问权限。 继承权限:子类继承基类除构造和析构函数以外的所有成员。 多态 可以简单概括为
 2022-03-05   实习    C++  面经 
剑指Offer刷题集锦Char 1:排序

剑指Offer刷题集锦Char 1:排序

JZ3 数组中重复的数字描述...
 2022-03-04   实习    C++  牛课网  剑指Offer 
LeetCode刷题笔记--Top 100 Liked

LeetCode刷题笔记--Top 100 Liked

392. Is SubsequenceDescription...
 2022-03-02   实习    C++  LeetCode 
Spark Hive 使用技巧

Spark Hive 使用技巧

解决Spark运行期间LOG输出INFO过多运行spark-sql或者spark-shell的时候经常会出现满屏的INFO输出,影响对结果的阅读。...
 2021-10-17   大数据  Spark  conda 
大数据与分布式系统常见错误

大数据与分布式系统常见错误

本文为MSc Data Project 开发过程中出现的问题汇总 ...
 2021-10-15   大数据  Spark  conda 
Hive启动Metastore的3种方式

Hive启动Metastore的3种方式

启动metastorehive --service metastore -p <your port>...
 2021-10-15   Hive  大数据 
搭建Hadoop 3.3.0遇到的问题以及解决方案

搭建Hadoop 3.3.0遇到的问题以及解决方案

启动start-dfs.sh出现的报错...
 2021-10-13   大数据  Hadoop 
Hive常用命令汇总

Hive常用命令汇总

Hive数据库操作命令查看所有数据库show databases; ...
 2021-09-30   Hive  大数据 
1234…6

搜索

Hexo Fluid
 总访问量 次   总访客数 人