十六、熟悉数据

news/2024/7/21 4:43:14 标签: excel, python, 开发语言

当我们有了数据源以后,先别急着分析,应该先熟悉数据,只有对数据充分熟悉了,才能更好地进行分析。

一、利用head预览前几行

当数据表中包含数据行数过多时,只想查看每一列数据都是什么样的数据时,就可以只把数据表中前几行数据显示出来进行查看。

1、Excel实现

Excel其实没有严格意义的显示前几行,当你打开一个数据表时,所有的数据就全展示出来了,如果数据的行数过多吗,则可以通过滚动条来控制。

2、Python实现

在Python中,当一个文件导入后,可以用head()方法来控制要显示哪些行。只需要在head后面的括号中输入要展示的行数即可。默认展示前5行。

二、利用shape获取数据表的大小

熟悉数据的第一点就是先看一下数据表的大小,即数据表有多少行、多少列。

1、Excel实现

在Excel中查看数据表有多少行,一般都是选中某一列,右下角就会出现该表的行数。在Excel中选中某一行,右下角就会出现该表的列数。

2、Python实现

在Python中获取数据表的行、列数利用的是shape方法。

shape方法会以元组的形式返回行、列数,Python中利用shape方法获取行数和列数时不会把行索引和列索引计算在内,而Excel中是把行索引和列索引计算在内的。

三、利用info获取数据类型

熟悉数据的第二点就是看一下数据类型,不同的数据类型的分析思路是不一样的,比如数值类型的数据可以求均值,但是字符串类型的数据就没法求均值了。

1、Excel实现

在Excel中,若想看某一列数据具体是什么类型的,只要吧这一列选中,然后在菜单栏中的数字那一栏就可以看到这一列的数据类型。

2、Python实现

在Python中我们可以利用info()方法查看数据表中的数据类型,而且不需要一列一列查看,在调用info()方法以后就会输出整个表中所有列的数据类型。

四、利用describe获取数值分布情况

熟悉数据的第三点就是掌握数值的分布情况,即均值是多少,最值是多少,方差及分位数分别又是多少。

1、Excel实现

在Excel中如果想看某列的数值分布情况,那么手动选中这一列,在Excel的右下角就会显示出这一列的平均值、计数及求和,且只显示这三个指标。

2、Python实现

在Python中只需要利用describe()方法就可以获取所有数值类型字段的分布值。


http://www.niftyadmin.cn/n/453822.html

相关文章

Python数据可视化 - 使用Python dash搭建交互式地图可视化看板

1.前言 前几年刚接触Dash库的时候,Dash生态还不太成熟,做些简单的web还行,复杂的、系统性还是得用flask或django来实现。随着这两年dash的不断迭代更新,以及dash大佬feffery相继开发了feffery_antd_components、feffery_leaflet_…

Windows下redis的安装与使用

一、下载 redis.io 官网没有Windows版本的,需要去redis-windows下载。 二、使用与配置 2.1 解压安装 redis的Windows版本,有.msi和.zip两种格式。这里使用更为方便,直接解压就可以使用的.zip格式。 将Redis-x64-5.0.14.1.zip解压至D盘的…

vue3引入uview-plus3.0移动组件库

vue3引入uview-plus3.0移动组件库 引入流程 导入插件到项目 项目地址:https://ext.dcloud.net.cn/plugin?nameuview-plus 在main.js引入uview // main.js import uviewPlus from /uni_modules/uview-plus// #ifdef VUE3 import { createSSRApp } from vue expor…

MyBatisPlus简明使用笔记

1、MyBatisPlus特点 无侵入:只做增强不做改变,引入它不会对现有工程产生影响,如丝般顺滑 损耗小:启动即会自动注入基本 CURD,性能基本无损耗,直接面向对象操作,BaseMapper 强大的 CRUD 操作&a…

提升效率,使用ChatGPT的轻松撰写日报和周报

日报和周报是办公生活中不可或缺的部分,它们有助于记录工作进展、分享关键信息和与团队保持沟通。但是,有时写作这些报告可能会变得繁琐和耗时。在本文中,我们将介绍如何利用ChatGPT,一个强大的自然语言处理模型,提高写…

VB+sql火车站售票管理系统(论文+系统+答辩PPT+需求分析)

一个大型的计算机管理系统必须有一个正确的设计指导思想,通过合理的选择数据结构,操作系统以及开发环境,构成一个完善的网络系统,才能充分发挥计算机信息管理优势。现代化的车站售票是集预定车票、售票 、退票、车次查询、报表及其他各种服务,车站售票组织庞大,服务项目多…

【FPGA入门】第七篇、FPGA实现VGA接口驱动

目录 第一部分、实验结果 1、横的三色彩条效果 2、竖的三色彩条效果 第二部分、VGA驱动基本知识 1、VGA分辨率问题 2、VGA驱动波形 2.1、工业标准的时序波形图 2.2、比上面那张图更容易理解的图 2.3、每个区域对应的时间 2.4、不同分辨率的表格 3、VGA扫描范…

QGIS根据行政区边界,批量裁剪矢量要素

要使用QGIS编程实现根据行政区边界批量裁剪矢量要素,可以借助PyQGIS来完成。简单的示例代码: from qgis.core import QgsVectorLayer, QgsProject, QgsGeometry, QgsFeature # 设置行政区边界文件路径 boundary_file /path/to/admin_boundary.shp # 设…