Python读取Word统计词频输出到Excel

news/2024/7/21 5:59:48 标签: python, word, excel

1.安装依赖的包

```
"# 读取docx\n",
    "!pip install python-docx\n",
    "!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx\n",
    "# 中英文分词\n",
    "!pip install jieba\n",
    "!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba\n",
    "# 输出到excel\n",
    "!pip install pandas"
    "!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas"
```

2.读取docx文件到一个大字符串

```python
import docx
from docx import Document
document = docx.Document("Python.docx")
content = " ".join([para.text for para in document.paragraphs])
```

3. 中文分词

```
import jieba

seg_list = jieba.cut(content,cut_all=False)
print(type(seg_list))

# 过滤标点符号,无意义的单个字
seg_list = [
    word
    for word in seg_list
    if len(word) >1
]
print(seg_list[:30])
```

4.统计词频

```
from collections import Counter
counter = Counter(seg_list)
for key,count in list(counter.items())[:10]:
    print(key,count)
```

5. 构造pandas并且排序

```
import pandas as pd
df = pd.DataFrame(list(counter.items()), columns = ['word','count'])
df.sort_values(by="count",ascending=False,inplace=True)
df.head()
```

将list转化为dict

```
a=['hello','world','1','2']
b= dict(zip(a[0::2],a[1::2]))
b
```
 


http://www.niftyadmin.cn/n/4935915.html

相关文章

LVS-DR集群及NGINX负载均衡

LVS-DR集群 原理: 1. 当用户向负载均衡调度器(Director Server)发起请求,调度器将请求发往至内核空间 2. PREROUTING链首先会接收到用户请求,判断目标IP确定是本机IP,将数据包发往INPUT链 3. IPVS是工作在…

pg使用sql将文本字符串转换成时间格式

使用 PostgreSQL 数据库的 SQL 查询语句将文本字符串转换为时间格式,可以使用 to_timestamp 函数。 假设您的文本字符串时间格式为 “yyyy-MM-dd HH:mm:ss”,您可以使用以下 SQL 查询来转换: SELECT to_timestamp(2023-08-13 19:05:22, YYY…

数据结构-队列的实现(C语言版)

前言 队列是一种特殊的线性表,它只允许在一端对数据进行插入操作,在另一端对数据进行删除操作的特殊线性表,队列具有先进先出的(FIFO)的 特性,进行插入操作的一端称为队尾,进行删除操作的一端称…

OpenCV基本操作——图像的基础操作

目录 图像的IO操作读取图像显示图像保存图像 绘制几何图形绘制直线绘制圆形绘制矩形向图像中添加文字效果展示 获取并修改图像中的像素点获取图像的属性图像通道的拆分与合并色彩空间的改变 图像的IO操作 读取图像 cv2.imread()import numpy as np import cv2 imgcv2.imread(…

R语言 列表中嵌套列名一致的多个数据框如何整合为一个数据框

在批量建模后容易得到list&#xff0c;list中的每个元素都是单个的tibble 或者 dataframe&#xff0c;如何将这些数据整合为一张表呢&#xff1f; 载入R包 library(broom) library(tidyverse) 模拟数据 models <- txhousing %>% group_by(city) %>% do(modlm(lo…

Vue day02 Computed和Watch

1.事件绑定 可以用 v-on 指令监听DOM 事件&#xff0c;并在触发时运行一些 JavaScript 代码。v-on 还可以接收一个需要调用的方法名称。 <button v-on:click"handler">good</button> methods: { handler: function (event) { if (event) { alert(event.t…

华为OD面试(部分)

笔试与性格测验 一面 问题和算法题都挺简单的 二面 Java内存泄漏 算法题思路不对&#xff0c;没写完只说了下思路&#xff1a;Leetcode516. Longest Palindromic Subsequence hr面&#xff08;资面&#xff09; 最后告诉我hr面挂了。其实这不是最重要的&#xff0c;因为还…

hive高频使用的拼接函数及“避坑”

hive高频使用的拼接函数及“避坑” 说到拼接函数应用场景和使用频次还是非常高&#xff0c;比如一个员工在公司充当多个角色&#xff0c;我们在底层存数的时候往往是多行&#xff0c;但是应用的时候我们通常会只需要一行&#xff0c;角色字段进行拼接&#xff0c;这样join其他…