5. HTML 表格
read_html
可以将HTML
中的<table></table>
解析为一个DataFrame
列表。pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None,
skiprows=None, attrs=None, parse_dates=False, tupleize_cols=False,
thousands=', ', encoding=None, decimal='.', converters=None,
na_values=None, keep_default_na=True)
io
:为一个字符串或者一个file-like
对象。match
:一个字符串或者正则表达式。HTML
中的<table></table>
中,只要匹配这个正则表达式的表格都被处理。默认的为匹配任何非空的表格flavor
:一个字符串,指定了解析引擎。可以为'bs4'
或者'html5lib'
或者'lxml'
attrs
:一个字典。它筛选出你要解析哪些表格- 其他参数参考
read_csv
可以通过
DataFrame.to_html()
转换为HTML
的表格:DataFrame.to_html(buf=None, columns=None, col_space=None, header=True,
index=True, na_rep='NaN', formatters=None, float_format=None,
sparsify=None, index_names=True, justify=None, bold_rows=True,
classes=None, escape=True, max_rows=None, max_cols=None, show_dimensions=False,
notebook=False, decimal='.', border=None)
bold_rows
:一个布尔值。如果为True
,则让row label
加粗classes
:一个字符串或者列表或者元组,给出了table
的css class
escape
:一个布尔值,如果为True
,则将字符<>&
为安全的HTML
字符max_rows
:一个整数,指定最大输出行数。默认显示全部的行decimal
:一个字符串,指定了小数点的格式border
:一个整数,给出了border
属性的值。buf
:指定将HTML
写到哪里,它是一个StringIO-like
对象col_space
:一个整数,给出每一列最小宽度header
:一个布尔值,如果为True
,则打印列名columns
:一个序列,指定要输出哪些列index
:一个布尔值,如果为True
,则打印index labels
formatters
:一个一元函数的列表,或者一元函数的字典。给出了每一列的转换成字符串的函数float_format
:一个一元函数,给出了浮点数转换成字符串的函数justify
:左对齐还是右对齐。可以为'left'
/'right'