pandas 文件或数据的读取和导出
2026-03-03 17:00:10
看过来
《pandas 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gr99123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
本内容来自:https://gairuo.com
我们拿到的数据一般是 CSV、Excel 等格式,将文件加载到 Pandas 的 DataFrame 对象,我们就可以用它的方法进行处理了。在处理结束后,我们也需要将文件导出 Excel 等格式,方便查看。
本页介绍最常用的文件格式和最基本的用法,如有必要会专题介绍更加详细的功能。
功能列表
下边是我们经常使用的方法:
格式
文件格式
读取函数
写入(输出)函数
binary
Excel
read_excel
to_excel
text
CSV
read_csv read_table
to_csv
text
JSON
read_json
to_json
text
网页表格 HTML
read_html
to_html
text
剪贴板
read_clipboard
to_clipboard
SQL
SQL
read_sql
to_sql
XML
read_xml
read_xml
text
Markdown
to_markdown
读取更多类型文件可查看官网文档。
其中:
读取函数一般会赋值给一个变量 df, df = pd.read_
输出函数是将变量自身进行操作并输出 df.to_
常用函数方法
- Excel 对象~ pd.ExcelFile 对象~ pd.ExcelWriter 对象~ pd.ExcelWriter 对象的属性和方法- 读取数据~ pd.read_csv()~ pd.read_excel()~ pd.json_normalize()~ pd.read_pickle()~ pd.read_table()~ pd.DataFrame.from_dict() 从字典创建 DataFrame~ pd.read_clipboard() 从剪贴板读取数据~ pd.read_json() 读取 JSON~ pd.read_sql() 读取数据库数据~ pd.read_fwf() 读取固定宽度格式文件~ pd.read_html() 从 HTML 文档提取表格数据~ pd.read_parquet() 读取 Parquet 文件- 导出数据~ to_csv() 导出为 CSV文件~ to_excel() 导出为 Excel 文件~ to_dict() 输出字典~ to_pickle() 序列化为 pickle 文件~ to_json() 转换为 JSON 格式字符串~ to_html() 转换为 HTML 表格格式~ to_sql() 写入到关系型数据库~ to_parquet() 保存为 parquet 文件
CSV
从 CSV 文件中读取数据并加载到 DataFrame:
文件
# 文件目录
pd.read_csv('data.csv') # 如果文件与代码文件在同目录下
pd.read_csv('data/my/data.csv') # 指定目录
pd.read_csv('data/my/my.data') # CSV 文件扩展名不一定是 csv
# 使用网址 url
pd.read_csv('https://gairuo.com/file/data/dataset/GDP-China.csv')
# 也可以从 StringIO 中读取
from io import StringIO
data = ('col1,col2,col3\n'
'a,b,1\n'
'a,b,2\n'
'c,d,3')
pd.read_csv(StringIO(data))
注:csv 文件扩展名不一定是 .csv
指定分隔符号
# 数据分隔转化是逗号, 如果是其他可以指定
pd.read_csv(data, sep='\t') # 制表符分隔 tab
pd.read_table(data) # read_table 默认是制表符分隔 tab
列、索引、名称
# 默认第一行是表头,可以指定,如果指定列名会被忽略
pd.read_csv(data, header=0)
pd.read_csv(data, header=None) # 没有表头
pd.read_csv(data, names=['列1', '列2']) # 指定列名列表
# 如没列名,自动指定一个: 前缀加序数
pd.read_csv(data, prefix='c_', header=None)
# 读取部分列
pd.read_csv(data, usecols=[0,4,3]) # 按索引只读取指定列,顺序无关
pd.read_csv(data, usecols=['列1', '列5']) # 按索引只读取指定列
# 指定列顺序,其实是 df 的筛选功能
pd.read_csv(data, usecols=['列1', '列5'])[['列5', '列1']]
pd.read_csv(data, index_col=0) # 第几列是索引
# 以下用 callable 方式可以巧妙指定顺序, in 后边的是我们要的顺序
pd.read_csv(data, usecols=lambda x: x.upper() in ['COL3', 'COL1'])
数据类型
data = 'https://www.gairuo.com/file/data/dataset/GDP-China.csv'
# 指定数据类型
pd.read_csv(data, dtype=np.float64) # 所有数据均为此数据类型
pd.read_csv(data, dtype={'c1':np.float64, 'c2': str}) # 指定字段的类型
# 解析日期时间
pd.read_csv(data, parse_dates=True) # 自动解析日期时间格式
pd.read_csv(data, parse_dates=['年份']) # 指定日期时间字段进行解析
# 将 1、4 列合并解析成名为 时间的 时间类型列
pd.read_csv(data, parse_dates={'时间':[1,4]})
# 指定时间解析库,默认是 dateutil.parser.parser
pd.read_csv(data, date_parser=pd.io.date_converters.parse_date_time)
date_parser=lambda x: pd.to_datetime(x, utc=True, format=...)
更多功能可参考 pandas.read_csv 详细使用。
导出文件
df.to_csv('done.csv')
df.to_csv('data/done.csv') # 可以指定文件目录路径
df.to_csv('done.csv', index=False) # 不要索引
# 导出二进制文件句柄(缓冲), 支持编码和压缩 pandas 1.2.0 增加
import io
buffer = io.BytesIO()
df.to_csv(buffer, encoding="utf-8", compression="gzip")
# 指定一列导出 txt 格式文件
df.Q1.to_csv('Q1_test.txt', index=None)
Excel 文件
read_excel() 方法可以使用 xlrd Python 模块(可能需要安装,下同)读取 Excel 2003(.xls)文件。 可以使用 xlrd 或 openpyxl 读取Excel 2007+(.xlsx)文件,强烈建议安装 openpyxl。 可以使用 pyxlsb 读取二进制Excel(.xlsb)文件。 to_excel() 实例方法用于将 DataFrame 保存到 Excel。 大多数用法类似于 csv,包括文件的读取和保存。
xlsx = pd.ExcelFile('data.xlsx')
df = pd.read_excel(xlsx, 'Sheet1') # 读取
xlsx.parse('sheet1') # 取指定标签为 DataFrame
# Excel 的所有标签
xlsx.sheet_names
# ['sheet1', 'sheet2', 'sheet3', 'sheet4']
文件读取
# Returns a DataFrame
pd.read_excel('team.xlsx') # 默认读取第一个标签页 Sheet
pd.read_excel('path_to_file.xls', sheet_name='Sheet1') # 指定 Sheet
# 从网址 url 读取
pd.read_excel('https://www.gairuo.com/file/data/dataset/team.xlsx')
# !!! 读取的功能基本与 read_csv 一样,可参考上文
# 不指定索引,不指定表头,使用自动行列索引
pd.read_excel('tmp.xlsx', index_col=None, header=None)
# 指定列的数据类型
pd.read_excel('tmp.xlsx', index_col=0,
dtype={'Name': str, 'Value': float})
多个 Sheet 的读取:
pd.read_excel('path_to_file.xls', sheet_name=['Sheet1', 'Sheet2'])
ExcelFile 对象:
# 使用 ExcelFile 保存文件对象
xlsx = pd.ExcelFile('path_to_file.xls')
df = pd.read_excel(xlsx, 'Sheet1')
# 可以把多个 Sheet 存入 ExcelFile
with pd.ExcelFile('path_to_file.xls') as xls:
df1 = pd.read_excel(xls, 'Sheet1')
df2 = pd.read_excel(xls, 'Sheet2')
df = pd.read_excel(xlsx)
常用的参数使用与 read_csv 相同,详细参数可以通过pandas.read_excel阅读。
导出 excel
df.to_excel('path_to_file.xlsx')
# 指定 sheet 名, 不要索引
df.to_excel('path_to_file.xlsx', sheet_name='Sheet1', index=False)
# 指定索引名,不合并单元格
df.to_excel('path_to_file.xlsx', index_label='label', merge_cells=False)
# 将多个 df 分不同 sheet 导入到一个 excel
with pd.ExcelWriter('path_to_file.xlsx') as writer:
df1.to_excel(writer, sheet_name='Sheet1')
df2.to_excel(writer, sheet_name='Sheet2')
# 指定操作引擎
df.to_excel('path_to_file.xlsx', sheet_name='Sheet1', engine='xlsxwriter')
# By setting the 'engine' in the ExcelWriter constructor.
writer = pd.ExcelWriter('path_to_file.xlsx', engine='xlsxwriter')
df.to_excel(writer)
writer.save()
# 设置系统引擎
from pandas import options # noqa: E402
options.io.excel.xlsx.writer = 'xlsxwriter'
df.to_excel('path_to_file.xlsx', sheet_name='Sheet1')
# 保留一位小数
df.to_excel(writer,'Sheet1',float_format = "%0.1f")
JSON 格式
Pandas 可以读取和生成 Json 字符串,Series 或 DataFrame 都可以被转换。JSON 格式在网络上非常通用,在写爬虫时可以使用极大提高效率,在做可视化时前端的 JS 库往往需要接受 Json 格式。
读取 JSON
最简单的读取 json 文件的方法是用 pd.read_json('data.json'):
pd.read_json('data.json')
json = '''{"columns":["col 1","col 2"],
"index":["row 1","row 2"],
"data":[["a","b"],["c","d"]]}
'''
pd.read_json(json)
pd.read_json(json, orient='split') # json 格式
'''
orient 支持:
- 'split' : dict like {index -> [index], columns -> [columns], data -> [values]}
- 'records' : list like [{column -> value}, ... , {column -> value}]
- 'index' : dict like {index -> {column -> value}}
- 'columns' : dict like {column -> {index -> value}}
'''
对于复杂的 json 数据,可以使用 pd.json_normalize(),它能读取半结构化 JSON。
输出 JSON
Series 或 DataFrame 转换 JSON 的机制如下:
Series :
默认为 index
支持 {split, records, index}
DataFrame
默认为 columns
支持 {split, records, index, columns, values, table}
df = pd.DataFrame([['a', 'b'], ['c', 'd']],
index=['row 1', 'row 2'],
columns=['col 1', 'col 2'])
# 输出 json 字符串
df.to_json(orient='split')
HTML
read_html() 函数可以接受 HTML字符串 / html文件 / URL,并将HTML表解析为DataFrame。返回的是一个 df 列表,可以通知索引取第几个。
仅解析网页内