2  数据与样本

3 数据来源

原始数据来自 CSMAR 导出的 CSV 文件,存放于 data/raw/。本项目以资产负债表为主文件,合并利润表、现金流量表、股权性质、行业分类、ST 标记以及 M2 增长率数据。

4 样本筛选流程

样本筛选遵循以下步骤:

步骤 样本量
初始合并样本 59,127
剔除金融业 57,648
剔除 ST 企业 48,096
剔除 lev > 1 观测 48,095
剔除关键变量缺失 43,026

最终样本包含 4,686 个公司43,026 个观测值,覆盖 2011-2025 年

5 变量说明

主要变量包括:

  • lev:资产负债率
  • npr:净利润率
  • size:企业规模,对总资产取对数
  • tang:有形资产比率
  • growth:资产增长率
  • ndts:非债务税盾
  • soe:产权性质虚拟变量

样本筛选流程的详细记录可见 output/sample_counts.csv