Python语法很多来自C语言,但又深受ABC语言的影响。自诞生开始,Python已经具有了类(class)、函数(function)、异常处理(exception)、包括列表(list)和字典(dict)在内的核心数据类型,以及以模块为基础的扩展系统。最初的Python完全由吉多本人研发... 查看全文>>
Python+大数据技术文章2022-11-15 |传智教育 |Python语言的发展历程
有界数据集指的是有明确的开始和明确的结束的数据,例如JSON文件、CSV文件、TXT文件、MySQL表格、Excel表格都是有界数据集,当你用它的时候,有明确的数据开始和明确的数据结束。 查看全文>>
Python+大数据技术文章2022-11-15 |传智教育 |有界数据集和无界数据流
抽样工作到底是不是必需的呢?其实不是。一般我们在数据获取量很少或者不容易处理海量数据的时候,抽样工作就会经常派上用场,抽样工作主要有以下几个方面的背景来源。 查看全文>>
Python+大数据学习常见问题2022-11-15 |传智教育 |抽样的必要性
管理器是Django的模型进行数据库操作的接口,Django应用的每个模型都拥有至少一个管理器Django支持自定义管理器类,继承自models.Manager,自定义管理器类主要用于修改原始查询集和向管理器类中添加额外的方法,详细如下: 查看全文>>
Python+大数据技术文章2022-11-14 |传智教育 |在管理器Manager中修改和创建对象
数据清洗是利用相关技术将“脏”数据转换为满足质量要求的数据。下面通过一张图描述数据清洗的原理,具体如图1-3所示。 查看全文>>
Python+大数据学习常见问题2022-11-14 |传智教育 |数据清洗的原理
数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域,对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于3个领域,即数据仓库领域、数据挖掘领域以及数据质量管理领域。 查看全文>>
Python+大数据学习常见问题2022-11-14 |传智教育 |如何定义数据清洗
数据可视化图形的表达需要配合展示用户的意图和目标,也就是说要表达什么思想就应该选择对应的数据可视化展示方式。数据可视化要展示的信息内容按主题可分为4种:趋势、对比、结构、关系。 查看全文>>
Python+大数据学习常见问题2022-11-11 |传智教育 |数据可视化方式选择
kafka更好的替换传统的消息系统,消息系统被用于各种场景,与大多数消息系统比较kafka有更好的吞吐量内置分区,副本和故障转移,这有利于处理大规模的消息。 查看全文>>
Python+大数据技术文章2022-11-10 |黑马程序员 |Kafka应用场景,Kafka的应用