2 数据与样本
3 数据来源
原始数据来自 CSMAR 导出的 CSV 文件,存放于 data/raw/。本项目以资产负债表为主文件,合并利润表、现金流量表、股权性质、行业分类、ST 标记以及 M2 增长率数据。
4 样本筛选流程
样本筛选遵循以下步骤:
| 步骤 | 样本量 |
|---|---|
| 初始合并样本 | 59,127 |
| 剔除金融业 | 57,648 |
| 剔除 ST 企业 | 48,096 |
剔除 lev > 1 观测 |
48,095 |
| 剔除关键变量缺失 | 43,026 |
最终样本包含 4,686 个公司、43,026 个观测值,覆盖 2011-2025 年。
5 变量说明
主要变量包括:
lev:资产负债率npr:净利润率size:企业规模,对总资产取对数tang:有形资产比率growth:资产增长率ndts:非债务税盾soe:产权性质虚拟变量
样本筛选流程的详细记录可见 output/sample_counts.csv。