当我们有了数据源以后,先别急着分析,应该先熟悉数据,只有对数据充分熟悉了,才能更好地进行分析。
一、利用head预览前几行
当数据表中包含数据行数过多时,只想查看每一列数据都是什么样的数据时,就可以只把数据表中前几行数据显示出来进行查看。
1、Excel实现
Excel其实没有严格意义的显示前几行,当你打开一个数据表时,所有的数据就全展示出来了,如果数据的行数过多吗,则可以通过滚动条来控制。
2、Python实现
在Python中,当一个文件导入后,可以用head()方法来控制要显示哪些行。只需要在head后面的括号中输入要展示的行数即可。默认展示前5行。
二、利用shape获取数据表的大小
熟悉数据的第一点就是先看一下数据表的大小,即数据表有多少行、多少列。
1、Excel实现
在Excel中查看数据表有多少行,一般都是选中某一列,右下角就会出现该表的行数。在Excel中选中某一行,右下角就会出现该表的列数。
2、Python实现
在Python中获取数据表的行、列数利用的是shape方法。
shape方法会以元组的形式返回行、列数,Python中利用shape方法获取行数和列数时不会把行索引和列索引计算在内,而Excel中是把行索引和列索引计算在内的。
三、利用info获取数据类型
熟悉数据的第二点就是看一下数据类型,不同的数据类型的分析思路是不一样的,比如数值类型的数据可以求均值,但是字符串类型的数据就没法求均值了。
1、Excel实现
在Excel中,若想看某一列数据具体是什么类型的,只要吧这一列选中,然后在菜单栏中的数字那一栏就可以看到这一列的数据类型。
2、Python实现
在Python中我们可以利用info()方法查看数据表中的数据类型,而且不需要一列一列查看,在调用info()方法以后就会输出整个表中所有列的数据类型。
四、利用describe获取数值分布情况
熟悉数据的第三点就是掌握数值的分布情况,即均值是多少,最值是多少,方差及分位数分别又是多少。
1、Excel实现
在Excel中如果想看某列的数值分布情况,那么手动选中这一列,在Excel的右下角就会显示出这一列的平均值、计数及求和,且只显示这三个指标。
2、Python实现
在Python中只需要利用describe()方法就可以获取所有数值类型字段的分布值。