首页 1 2 3 4 5 6 7

python pandas处理excel表单整合_使用python处理excel表格——pandas（1）

一.基本概念

excel文件打开之后，该文件叫工作簿(workbook)。

每个工作簿中包含多张表单(worksheet),正在操作的表单被成为活跃的表单(active worksheet)。

每一张表单中，有行(row)，列(column)。行号：1，2，3；列号A,B,C。

特定的行和列构成单元格(cell)

表单中还会含有索引(index)

二.内容

1.创建文件

A.创建空表格

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df=pd.DataFrame()

#保存路径

df.to_excel('D:/output.xlsx')

print('Done!')

B.创建非空表格

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df=pd.DataFrame({'ID':[1,2,3],'NAME':['Wang','Zhang','Lee']})

#保存路径

df.to_excel('D:/output.xlsx')

print('Done!')

效果：

前面多出来的这一列为dataframe的索引，因为我们没有给他指定索引，所以其自动生成。如果我们想要拿ID这一列做索引，则：

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df=pd.DataFrame({'ID':[1,2,3],'NAME':['Wang','Zhang','Lee']})

df=df.set_index('ID')

#保存路径

df.to_excel('D:/output.xlsx')

print('Done!')

2.读取文件

【演示文件情况】

该文件内容全为虚构，没有任何含义，仅作演示使用

共三个sheet：sheet1、sheet2、sheet3

其中(不包含标题行)：

sheet1——(5，2)、sheet2——(6，4)、sheet3——(7，3)

A.读取整个表格

(1)读取有多个sheet的excel

pandas读取的常用格式pd.read_excel(file, sheet_name)，其中sheetname可以使用数字进行替代，从0开始，默认为0

pandas写入的格式为data.to_excel(‘filename’,sheet_name=‘A’)

import pandas as pd

path = 'D:\python学习\表格/people.xlsx'

#读取数据,设置None可以生成一个字典，字典中的key值即为sheet名字

#此时使用DataFram，会报错

data = pd.read_excel(path,None)

print(data.keys())#查看sheet的名字

for sh_name in data.keys():

print('sheet名字：',sh_name)

#获得每一个sheet中的内容

sh_data = pd.DataFrame(pd.read_excel(path,sh_name))

print(sh_data)

结果：

(2).title在首行

表格样式(sheet1)：

import pandas as pd

people=pd.read_excel('D:/people.xlsx')#读取文件

print(people.shape)#读取行列数

print(people.columns)#读取列名

print(people.head(3))#查看表格内容—head,默认为5行

print('=========================')#分割行

print(people.tail(3))#查看表格内容—tail

结果：

(3)title不在首行

pandas在读取数据的时候默认，会默认第0行为title。

-title之前的行为空

正常读取文件，pandas可以正常识别

-title之前的行非空

只要有一行是脏的，就需要

表格样式(sheet1)：

import pandas as pd

people=pd.read_excel('D:/people2.xlsx',header=1)#读取文件

print(people.columns)#读取列名

-无title

import pandas as pd

people=pd.read_excel('D:/people2.xlsx',header=None)#读取文件

people.columns=['名称','数量']#人为设定列名

#将‘名称’列设为索引，且在原表上进行修改

people.set_index('名称',inplace= True)

print(people.columns)#读取列名

people.to_excel('D:/output.xlsx')#输出为output.xlsx

print('DONE!')

(如果不认为的设定，则自动生成0，1，2，3，为title)

列名只有’数量’，‘名称’变为了索index

(4).已知index列

在使用pandas进行excel数据表读取的时候，如不特定指明第一列为index，则其会默认加一列索引。所以，如若已知某列为index，则需指明。

import pandas as pd

#读取文件，且指定‘名称’列为索引

df=pd.read_excel('D:/output.xlsx',index_col='名称')

df.to_excel('D:/output2.xlsx')#生成新的excel文件

print('Done!')

B.读取某一行、列

(1)读取整个行/列

import pandas as pd

path = 'D:\python学习\表格/people.xlsx'

data = pd.DataFrame(pd.read_excel(path))#读取数据

print('行的索引名称：',data.index)#获取行的索引名称

print('列的索引名称：',data.columns)#获取列的索引名称

print('======================')#分割线

print(data['名称'])#获取列名为姓名这一列的内容

print('======================')#分割线

print(data.loc[0])#获取行名为0这一行的内容

结果：

(2)读取部分行(筛选)

筛选使用的是 data.loc[列名称 = 提取的信息]

import pandas as pd

path = 'D:\python学习\表格/people.xlsx'

data = pd.DataFrame(pd.read_excel(path))#读取数据

#获取列名为名称，内容为“上海市”的内容

result = data.loc[data['名称'] == '上海市']

print(result)

结果：

3.生成行、列

行列视为序列(seties)，则单元格就是不同的序列中的元素。

A.创建series

-从directory转为series

【基础知识】字典-键值对

import pandas as pd

d={'x':100,'y':200,'z':300}#生成字典，由基本键值对构成

print(d.keys())#字典keys集合

print(d.values())#字典values集合

print(d['x'])#查看x：100这个键值对

结果：

将directory转变为series，则keys变为indexs,将values转变为data。

则生成series：

import pandas as pd

d={'x':100,'y':200,'z':300}#生成字典

s1=pd.Series(d)

print(s1)

print(s1.index)

-直接生成series

import pandas as pd

L1=(100,2,30)

L2=('x','y','z')

s1=pd.Series(L1,index=L2)

#或者s1=pd.Series((100,2,30),index=('x','y','z'))

print(s1)

B.创建行、列

将series按照不同的方法加入dataframe中，就可以创建不同的行和列：

以list的形式将序列加入dataframe，则把不同的序列看为一行，序列的名字看为行号；以dictory的形式将序列加入dataframe，则把不同的序列看为一列，序列的名字看为列名。

-创建列

以directory加入

每个list的index与dataframe中的index呈对齐关系。

“index-index一一对齐”

import pandas as pd

s1=pd.Series([1,2,3],index=[1,2,3],name='A')#index特指行号

s2=pd.Series([10,20,30],index=[1,2,3],name='B')

s3=pd.Series([100,200,300],index=[1,2,3],name='C')

df=pd.DataFrame({s1.name:s1,s2.name:s2,s3.name:s3})

print(df)

“index-index不对齐”

import pandas as pd

s1=pd.Series([1,2,3],index=[1,2,3],name='A')#index特指行号

s2=pd.Series([10,20,30],index=[1,2,3],name='B')

s3=pd.Series([100,200,300],index=[2,3,4],name='C')

df=pd.DataFrame({s1.name:s1,s2.name:s2,s3.name:s3})

print(df)

在空值区会自动以NaN填充(NaN:not a number)

-创建行

以list形式

import pandas as pd

s1=pd.Series([1,2,3],index=[1,2,3],name='A')#index特指行号

s2=pd.Series([10,20,30],index=[1,2,3],name='B')

s3=pd.Series([100,200,300],index=[1,2,3],name='C')

df=pd.DataFrame([s1,s2,s3])

print(df)

本文地址：https://blog.csdn.net/mmmmmyyyy/article/details/107641294

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

软件工程（六）——需求分析

需求分析是软件开发期的第一个阶段，是关系到软件开发成败的关键步骤。需求分析的任务就是明确系统必须完成那些工作，下面是对需求分析这一章做的简要总结。

冲压模具的费用最全计算公式及例子说明

1.材料费(以SKD11为例) 重量*单价由于在材料设置中选了<材料> 要加留边。材料费用公式= (长+长留边2) (宽+宽留边2) * (厚+厚留边2)* 密度/1000000*单价 (100+5

linux sshd 漏洞,CVE-2006-5794 OpenSSH sshd Privilege Separation Monitor 未明漏洞-漏洞情报、漏洞详情、安全漏洞、CVE - 安全客，...

|参考资料来源:BID 名称:20956 链接:http://www.securityfocus.com/bid/20956 来源:VUPEN 名称:ADV-2006-4399 链接:http:

深度学习多模态融合_深度学习用于多模态语义学习简述

互联网用户所创造的“内容”正在迅猛增长，从不同渠道涌现的文本、图像和视频等不同类型的媒体数据以及用户信息更加紧密混合。它们正在以一种新的形式，更为形象综合地表达语义、主题和事件。针对当前媒体数据呈现出的特点进行深入研究已成为学术热点，多种类型媒体数据依赖共存，各种平台和应用的数据

webpack4 es6转es5 ERROR in webpack-numbers.js from UglifyJs Invalid assignment

最近在跟着webpack官方文档练习，由于官方文档并没有及时更新，遇到了一些些问题，查了很多文档… 这是我的一点小总结。报错信息：

行人轨迹预测方法综述

【摘要】随着深度学习技术的突破和大型数据集的提出，行人轨迹预测的准确度已经成为人工智能领域的研究热点之一。主要对行人轨迹预测的技术分类和研究现状进行详细的综述。根据模型建模方式的不同，将现有方法分为基于浅层学习的轨迹预测方法和基于深度学习的轨迹预测方法，

json序列化与反序列化

1 using System.Runtime.S

busybox文件系统与简单驱动学习（3）-eclipse开发驱动配置篇

ubuntu下使用eclipse开发驱动之前驱动代码通过gedit工具来进行编写调试操作，使用过gedit的伙伴们肯定知道有多痛苦，如果能有个好用的开发工具该有多好，那么就来find一下吧。

位运算的总结以及在游戏开发中的应用

定义: 原码: 正数的二进制即为原码，负数的二级制为正数的反码再补码反码

SpringMVC的

该博客仅为本人学习时笔记记录。不能保证没有错误，请结合自己思想参考。项目源码： github地址：