之前在做数据分析的时候,用过一个自动化生成数据探索报告的Python库:ydata_profiling。
一般我们在做数据处理前会进行数据探索,包括看统计分布、可视化图表、数据质量情况等,这个过程会消耗很多时间,可能需要上百行代码才能实现。
ydata_profiling能够直接完成数据探索的工作,只需要几行代码,它会生成互动网页形式的报告,里面包含数据概览、字段分布、统计学特征、相关性、缺失值、样本信息等。
# 导入库 from ydata_profiling import ProfileReport import pandas as pd # 读取数据 df = pd.read_csv('housing.csv') # 自动生成数据探索报告 profile = ProfileReport(df, ) profile