Hive的函数分为两大类:内置函数(Built-in Functions)、用户定义函数UDF(User-Defined Functions)。Hive的函数分为两大类:内置函数(Built-in Functions)、用户定义函数UDF(User-Defined Functions): 内置函数可分为:数值类型函数、日期类型函数、字符串类型函数、集合函数、条件函数等... 查看全文>>
Python+大数据技术文章2023-01-03 |传智教育 |内置函数和用户定义函数
数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统; 同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用。Hadoop数据仓库的主要特征有面向主题性、集成性、非易失性和时变性,接下来对这四个特性做详细介绍。 查看全文>>
Python+大数据学习常见问题2023-01-03 |传智教育 |Hadoop数仓概述,Hadoop数据仓库特征
MySQL安装完成后,会自动配置为名称叫做:mysqld的服务,可以被systemctl所管理,我们在进行系统的配置时,主要修改root密码和允许root远程登录。 查看全文>>
Python+大数据技术文章2023-01-03 |传智教育 |MySQL8.0版本在CentOS系统的配置教程
MapReduce的思想核心是“先分再合,分而治之”。所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,然后把各部分的结果组成整个问题的最终结果。 查看全文>>
Python+大数据技术文章2022-12-29 |传智教育 |MapReduce思想
Hadoop需要Kerberos来进行认证,以启动服务来说,在后面配置 hadoop 的时候我们会给 对应服务指定一个Kerberos的账户,比如 namenode 运行在cdh0机器上,我们可能将 namenode 指定给了nn/cdh0.itcast.cn@ITCAST.CN 这个账户, 那么 想要启动 namenode 就必须认证 这个账户才可以。 查看全文>>
Python+大数据技术文章2022-12-29 |传智教育 |HDFS相关的Kerberos账户配置
聚焦网络爬虫面向有特殊需求的人群,它会根据预先设定的主题顺着某个垂直领域进行抓取,而不是漫无目的地随意抓取。与通用网络爬虫相比,聚焦网络爬虫会根据一定的网页分析算法对网页进行筛选,保留与主题有关的网页链接,舍弃与主题无关的网页链接。其目的性更强。聚焦网络爬虫的工作原理如图1-2所示。 查看全文>>
Python+大数据技术文章2022-12-21 |传智教育 |python网络爬虫,聚焦爬虫和通用爬虫
在弄清楚大数据分析师要学什么之前,我们先来对大数据这个概念稍作下了解。大数据也叫作巨量数据或者说海量数据,基于大数据结构复杂和类型复杂的特点,技术人员从这类数据中去获取有价值的信息的能力,我们称为大数据技术。一般来讲,大数据分析师主要要学习以下技术。 查看全文>>
Python+大数据学习常见问题2022-12-21 |传智教育 |大数据分析师要学什么
三级模式是指数据库管理系统从三个层次来管理数据,分别是外部层(ExternalLevel)、概念层(Conceptual Level)和内部层(Internal Level)。这三个层次分别对应三种不同类型的模式,分别是外模式(External Schema)、概念模式(Conceptual Schema)和内模式(Internal Schema)。 查看全文>>
Python+大数据技术文章2022-12-20 |传智教育 |三级模式和二级映像