5. HTML 表格

  1. read_html可以将HTML中的<table></table>解析为一个DataFrame列表。

    1. pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None,
    2. skiprows=None, attrs=None, parse_dates=False, tupleize_cols=False,
    3. thousands=', ', encoding=None, decimal='.', converters=None,
    4. na_values=None, keep_default_na=True)
    • io:为一个字符串或者一个file-like对象。
    • match:一个字符串或者正则表达式。HTML中的<table></table>中,只要匹配这个正则表达式的表格都被处理。默认的为匹配任何非空的表格
    • flavor:一个字符串,指定了解析引擎。可以为'bs4'或者'html5lib'或者'lxml'
    • attrs:一个字典。它筛选出你要解析哪些表格
    • 其他参数参考read_csv

    read_html

  2. 可以通过DataFrame.to_html()转换为HTML的表格:

    1. DataFrame.to_html(buf=None, columns=None, col_space=None, header=True,
    2. index=True, na_rep='NaN', formatters=None, float_format=None,
    3. sparsify=None, index_names=True, justify=None, bold_rows=True,
    4. classes=None, escape=True, max_rows=None, max_cols=None, show_dimensions=False,
    5. notebook=False, decimal='.', border=None)
    • bold_rows:一个布尔值。如果为True,则让row label加粗
    • classes:一个字符串或者列表或者元组,给出了tablecss class
    • escape:一个布尔值,如果为True,则将字符<>&为安全的HTML字符
    • max_rows:一个整数,指定最大输出行数。默认显示全部的行
    • decimal:一个字符串,指定了小数点的格式
    • border:一个整数,给出了border属性的值。
    • buf:指定将HTML写到哪里,它是一个StringIO-like对象
    • col_space:一个整数,给出每一列最小宽度
    • header:一个布尔值,如果为True,则打印列名
    • columns:一个序列,指定要输出哪些列
    • index:一个布尔值,如果为True,则打印index labels
    • formatters:一个一元函数的列表,或者一元函数的字典。给出了每一列的转换成字符串的函数
    • float_format:一个一元函数,给出了浮点数转换成字符串的函数
    • justify:左对齐还是右对齐。可以为'left'/'right'

    to_html0 to_html1 to_html2