济南黑马先锋教育靠谱吗-学员问答-学习问题列表-老师解答

济南黑马先锋教育学员问答(10)

问

答

非常感谢您对我们黑马先锋的支持与信任，大数据处理中数据质量监控，从以下几个方面进行：数据容量(Volume)：数据的大小决定所考虑的数据的价值的和潜在的信息;数据种类(Variety)：数据类型的多样性; 数据速度(Velocity)：指获得数据的速度;数据可变性(Variability)：妨碍了处理和有效地管理数据的过程;数据真实性(Veracity)：数据的质量。

问

什么是数据挖掘?

答

非常感谢您对我们黑马先锋的支持与信任，数据挖掘(Data Mining)是采用数学的、统计的、人工智能和神经网络等领域的科学方法，如记忆推理、聚类分析、关联分析、决策树、神经网络、基因算法等技术，从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,提供预测性决策支持的方法、工具和过程。

问

大数据和数据大集中有什么区别?

答

非常感谢您对我们黑马先锋的支持与信任，大数据实质是数据量到了一定程度，怎么获取、处理和分析的事情。其他问题比如数据中心怎么建设、是否采用数据大集中的形式可以说和大数据的实质关系不大。大数据使用的数据可以是集中的一处拿来的，更可能是分布在多地或者一地的多处的。

问

大数据技术有哪些?

答

非常感谢您对我们黑马先锋的支持与信任，基础阶段：Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis，hadoop mapreduce hdfs yarn：hadoop：Hadoop 概念、版本、历史，HDFS工作原理，YARN介绍及组件介绍。

问

Hadoop1.x与Hadoop2.x的区别？

答

非常感谢您对我们黑马先锋的支持与信任，HDFS的NameNode可以以集群的方式部署，增强了NameNode的水平扩展能力和可用性；MapReduce将JobTrack中的资源管理及任务生命周期管理（包括定时触发及监控），拆分成两个独立的组件，并更名为YARN。

问

Hadoop生态圈子项目有哪些？

答

非常感谢您对我们黑马先锋的支持与信任，HDFS: Hadoop分布式文件系统(Distributed File System)；MapReduce：MapReduce是处理大量半结构化数据集合的编程模型；HBase: 类似Google BigTable的分布式NoSQL列数据库。

问

DataNode如何理解？

答

非常感谢您对我们黑马先锋的支持与信任，DataNode 也是一个通常在 HDFS实例中的单独机器上运行的软件，Hadoop 集群包含一个 NameNode 和大量 DataNode。DataNode 通常以机架的形式组织，机架通过一个交换机将所有系统连接起来。Hadoop 的一个假设是：机架内部节点之间的传输速度快于机架间节点的传输速度。

问

NameNode是什么？

答

非常感谢您对我们黑马先锋的支持与信任，NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件，它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。对于最常见的 3 个复制块，*个复制块存储在同一机架的不同节点上，最后一个复制块存储在不同机架的某个节点上。

问

Hadoop是什么？

答

非常感谢您对我们黑马先锋的支持与信任，Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

问

HashMap如何设计缓存大数据？

答

非常感谢您对我们黑马先锋的支持与信任，表A的数据每月刷新一次，数据量较大，主要通过外部excel导入；获取表B的数据和表A数据按照一定的条件规则进行比对；再将符合条件的比对结果存入表C。