2 数据与样本

3 数据来源

原始数据来自 CSMAR 导出的 CSV 文件，存放于 data/raw/。本项目以资产负债表为主文件，合并利润表、现金流量表、股权性质、行业分类、ST 标记以及 M2 增长率数据。

4 样本筛选流程

样本筛选遵循以下步骤：

步骤	样本量
初始合并样本	59,127
剔除金融业	57,648
剔除 ST 企业	48,096
剔除 `lev > 1` 观测	48,095
剔除关键变量缺失	43,026

最终样本包含 4,686 个公司、43,026 个观测值，覆盖 2011-2025 年。

5 变量说明

主要变量包括：

lev：资产负债率
npr：净利润率
size：企业规模，对总资产取对数
tang：有形资产比率
growth：资产增长率
ndts：非债务税盾
soe：产权性质虚拟变量

样本筛选流程的详细记录可见 output/sample_counts.csv。

---
title: "数据与样本"
format: html
---

# 数据来源

原始数据来自 CSMAR 导出的 CSV 文件，存放于 [data/raw/](../data/raw/)。本项目以资产负债表为主文件，合并利润表、现金流量表、股权性质、行业分类、ST 标记以及 M2 增长率数据。

# 样本筛选流程

样本筛选遵循以下步骤：

| 步骤 | 样本量 |
| --- | ---: |
| 初始合并样本 | 59,127 |
| 剔除金融业 | 57,648 |
| 剔除 ST 企业 | 48,096 |
| 剔除 `lev > 1` 观测 | 48,095 |
| 剔除关键变量缺失 | 43,026 |

最终样本包含 **4,686 个公司**、**43,026 个观测值**，覆盖 **2011-2025 年**。

# 变量说明

主要变量包括：

- `lev`：资产负债率
- `npr`：净利润率
- `size`：企业规模，对总资产取对数
- `tang`：有形资产比率
- `growth`：资产增长率
- `ndts`：非债务税盾
- `soe`：产权性质虚拟变量

样本筛选流程的详细记录可见 [output/sample_counts.csv](../output/sample_counts.csv)。