使用python完成excel文件的合并,并完成简单的数据统计

news/2024/7/21 7:32:24 标签: python, excel, 开发语言

Python脚本实现了以下功能:

  1. 合并多个Excel文件:脚本遍历当前目录下的所有.xlsx文件,读取每个文件的内容并合并到一个大的DataFrame中,然后将合并后的数据写入到名为combined_data.xlsx的新文件中。

  2. 统计指定列的重复值:读取刚刚合并的combined_data.xlsx文件,检查其中的某一列(在这个例子中为攻击类型)是否存在且数据类型为字符串。如果条件满足,则统计该列中不同文本的出现次数,并将重复值及其出现次数按照降序排列。最后,将统计结果写入同一个Excel文件的第二个工作表(Sheet2)中。

注意事项: 以下代码使用了 openpyxlpandas这两个第三方库 ,使用以下命令获取。

pip install openpyxl
pip install pandas
python">import os
import openpyxl
import pandas as pd

# 获取当前脚本所在目录
script_dir = os.path.dirname(__file__)
output_file = os.path.join(script_dir, 'combined_data.xlsx')

# 合并当前目录下所有xlsx文件
current_directory = os.getcwd()
file_list = [os.path.join(current_directory, f) for f in os.listdir(current_directory) if f.endswith('.xlsx')]

# 初始化一个空列表来存储所有数据帧
data_frames = []

# 逐个读取xlsx文件并合并
for file in file_list:
    df = pd.read_excel(file)
    data_frames.append(df)

# 合并所有数据帧
combined_df = pd.concat(data_frames, ignore_index=True)

# 将合并后的数据写入新创建的xlsx文件中
combined_df.to_excel(output_file, index=False)

# 检查并处理列名为'攻击类型'的列
target_column = '攻击类型'
if target_column in combined_df.columns and combined_df[target_column].dtype == 'object':
    # 统计该列总行数
    total_rows = combined_df.shape[0]

    # 去除重复值并计算重复次数
    duplicates = combined_df[target_column].duplicated(keep=False)
    duplicate_counts = combined_df[duplicates][target_column].value_counts().reset_index()
    duplicate_counts.columns = [target_column, 'occurrences']

    # 按照重复次数降序排列
    duplicate_counts = duplicate_counts.sort_values(by='occurrences', ascending=False)

    # 新增Sheet2
    with pd.ExcelWriter(output_file, engine='openpyxl', mode='a') as writer:
        writer.book = openpyxl.load_workbook(output_file)
        duplicate_counts.to_excel(writer, sheet_name='Sheet2', index=False)
    print(f"{target_column}重复数据已写入到{output_file}的Sheet2中。")
else:
    print(f"{target_column}不存在或不是字符串类型,请检查数据")

print(f"总行数: {total_rows}")


http://www.niftyadmin.cn/n/5464479.html

相关文章

Flutter Getx 中的Dialog 以及改变主题

1、Getx安装 将 Get 添加到你的 pubspec.yaml 文件中。 dependencies:get: ^4.6.5 在需要用到的文件中导入,它将被使用。 import package:get/get.dart; 2、Getx 使用 Dialog 01、设置应用程序入口当我们导入依赖后,在应用程序顶层把 GetMaterialA…

弹性盒子 html css

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><style>* {margin: 0;padding: 0;}/* 整体容器样式 */#container {margin: 0 auto;/* div 设置水平居中*/width: 500px;heig…

HUAWEI 华为交换机 配置 Eth-Trunk 接口流量本地优先转发示例(堆叠)

组网需求 说明 S5720I-10X-PWH-SI-AC 和 S5720I-6X-PWH-SI-AC 不支持此配置。 如 图 3-23 所示&#xff0c;为了增加设备的容量采用设备堆叠技术&#xff0c;将 Switch3 和 Switch4通过专用的堆叠电缆链接起来&#xff0c;对外呈现为一台逻辑交换机。为了实现设备间的备份、…

农业信息管理(源码+文档)

农业信息管理系统&#xff08;小程序、ios、安卓都可部署&#xff09; 文件包含内容程序简要说明功能项目截图客户端首页我的今日动态动态详情登录修改资料今日价格今日报价注册页 后端管理文章管理用户管理分类管理 文件包含内容 1、搭建视频 2、流程图 3、开题报告 4、数据库…

给手机换电池、贴膜:VIVO服务还是非常好的

1月的时候去过一次售后&#xff0c;想了解一下手机电池情况&#xff0c;结果说这个型号无法检查。手机已经两年半了&#xff0c;电池容量估计不到80%了。这个手机很满意&#xff08;轻&#xff09;&#xff0c;新出的手机也没有明显优势&#xff0c;于是决心换个电池。一看售后…

【微信小程序】时空对话机

小程序素材来自于网上收集小程序使用微信开发者工具和腾讯地图插件完成 时空对话机展示视频

【opencv】教程代码 —features2D(7)根据单应性矩阵估计相机坐标系下的物体位姿...

pose_from_homography.cpp从图像中找到棋盘角点并进行姿态估计 从图像中找到棋盘角点并显示 计算角点在世界坐标系中的位置 读取相机内参和畸变系数并校正图像中的角点 计算从3D点到2D点的单应性矩阵 通过奇异值分解(SVD)优化对旋转矩阵的估计 基于单应矩阵分解及其优化结果&am…

微信小程序上传到gitee

共三步 1、新建gitee仓库 点号&#xff0c;新建仓库&#xff0c;填入仓库信息新建即可 2、修改版本管理参数 微信开发者工具中点开版本管理&#xff0c;未初始化&#xff0c;需要先点初始化 接下来将设置中的通用、网络认证、远程3个部分的参数填写好 通用&#xff1a;核对…