学习Pandas,第 11 课

英文原文: 11 - Lesson

从多个 Excel 文件中读取数据并且在一个 dataframe 将这些数据合并在一起。

  1. import pandas as pd
  2. import matplotlib
  3. import os
  4. import sys
  5. %matplotlib inline
  1. print('Python version ' + sys.version)
  2. print('Pandas version ' + pd.__version__)
  3. print('Matplotlib version ' + matplotlib.__version__)
  1. Python version 3.6.1 | packaged by conda-forge | (default, Mar 23 2017, 21:57:00)
  2. [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)]
  3. Pandas version 0.19.2
  4. Matplotlib version 2.0.2

创建 3 个 Excel 文件

  1. # 创建 DataFrame
  2. d = {'Channel':[1], 'Number':[255]}
  3. df = pd.DataFrame(d)
  4. df
















Channel Number
0 1 255

  1. # 导出到 Excel 文件中
  2. df.to_excel('test1.xlsx', sheet_name = 'test1', index = False)
  3. df.to_excel('test2.xlsx', sheet_name = 'test2', index = False)
  4. df.to_excel('test3.xlsx', sheet_name = 'test3', index = False)
  5. print('Done')
  1. Done

把 3 个 Excel 文件数据读入一个 DataFrame

把 Excel 文件名读入到一个 list 中,并确保目录下没有其他 Excel 文件。

  1. # 放文件名的 list
  2. FileNames = []
  3. # 你存放Excel文件的路径可能不一样,需要修改。
  4. os.chdir(r"./")
  5. # 找到所有文件扩展名是 .xlsx 的文件
  6. for files in os.listdir("."):
  7. if files.endswith(".xlsx"):
  8. FileNames.append(files)
  9. FileNames
  1. ['test1.xlsx', 'test2.xlsx', 'test3.xlsx']

创建一个函数来处理所有的 Excel 文件。

  1. def GetFile(fnombre):
  2. # Excel 文件的路径
  3. # 你存放Excel文件的路径可能不一样,需要修改。
  4. location = r'./' + fnombre
  5. # 读入 Excel 文件的数据
  6. # 0 = 第一个页签
  7. df = pd.read_excel(location, 0)
  8. # 标记一下数据是从哪个文件来的
  9. df['File'] = fnombre
  10. # 把 'File' 列作为索引
  11. return df.set_index(['File'])

对每一个文件创建一个 dataframe,把所有的 dataframe 放到一个 list 中。

即,
df_list = [df, df, df]

  1. # 创建一个 dataframe 的 list
  2. df_list = [GetFile(fname) for fname in FileNames]
  3. df_list
  1. [ Channel Number
  2. File
  3. test1.xlsx 1 255, Channel Number
  4. File
  5. test2.xlsx 1 255, Channel Number
  6. File
  7. test3.xlsx 1 255]
  1. # 把 list 中所有的 dataframe 合并成一个
  2. big_df = pd.concat(df_list)
  3. big_df































Channel Number
File
test1.xlsx 1 255
test2.xlsx 1 255
test3.xlsx 1 255

  1. big_df.dtypes
  1. Channel int64
  2. Number int64
  3. dtype: object
  1. # 画一张图
  2. big_df['Channel'].plot.bar();

png

This tutorial was created by HEDARO


本教程由派兰数据翻译

These tutorials are also available through an email course, please visit http://www.hedaro.com/pandas-tutorial to sign up today.