2025年基于财报文本的情感语调的分析:DeepSeek辅助识别财务瑕疵
- 来源:国信证券
- 发布时间:2025/04/18
- 浏览次数:415
- 举报
基于财报文本的情感语调的分析:DeepSeek辅助识别财务瑕疵.pdf
基于财报文本的情感语调的分析:DeepSeek辅助识别财务瑕疵。财务造假样本分析:从CSMAR数据库“财务违规表”筛选2010-2021年样本,通讯服务行业造假占比最高,金融和公用事业最低。2010-2018年造假公司数量及占比上升,2019年后下降,且约58.3%的造假行为在1-2年内暴露或终止。信息披露违规成为主流,虚构利润和虚列资产减少。特征池构建:基于上市公司定期财务报告,从8个维度构建378个比率型指标,经筛选处理后保留100个指标,形成特征池,包含5483个财务造假样本和42046个控制样本。情感语调因子构建:利用DeepSeekR1模型分析财报文本情感语调...
财务造假上市公司样本整理
造假的违规类型
认定财务造假需满足三个要件:主观故意性、财务数据操纵性、误导利益相关者目的性。在15个违规类型中,通常认为虚构利润、虚 列资产、虚假记载、重大遗漏、披露不实、欺诈上市、一般会计处理不当为财务造假类违规。
样本初步处理
在财务造假样本筛选中,本文的数据来源于CSMAR数据库的“ 财务违规表”。本文选择2010年1月1日之后的样本进行分析。同时, 由于财务造假的处罚公布具有滞后性,因此决定暂时不研究最近2年,即2023年12月31日之后的所有样本。
财务造假上市公司的行业、造假类型、年份分布
通讯服务行业财务造假公司占比最高(19.4%),金融和公用事业领 域造假比例最低(均低于8.5%),显示出行业监管强度、业务复杂 性与财务舞弊风险负相关关系。 财务造假持续时间与公司数量呈显著负相关,约58.3%的造假行为集 中在1-2年内暴露或终止,表明系统性舞弊难以长期维持,且监管纠 偏机制在中期(3-5年)逐渐显效。 2010-2018年财务造假公司数量及占比持续攀升(从7.5%增至 17.9%),2019年后呈下降趋势(2023年财务造假率反常骤降则主要 由于财务造假行为暴露的滞后性),反映证券法修订后监管趋严, 财务造假行为得到显著遏制。
财务造假上市公司的行业、造假类型、年份分布
从行业动态与违规模式演变来看,财务造假呈现显著的结构性特征: 行业风险周期分化:2010-2018年间,通讯服务、能源与金融行业成为违规重灾区,其中通讯服务行业违规率从2010年的8.7%激增至2018 年的32.7%,金融业在2015年因资产端扩张与监管套利导致违规率达25.6%的历史峰值。这一趋势与行业特性密切相关——通讯服务行业技 术迭代快、资本开支密集,管理层倾向于通过模糊技术商业化进展(重大遗漏)掩盖现金流压力;能源行业则受大宗商品价格波动驱动,常 通过虚增储量或成本资本化调节利润。2019年后随着新《证券法》实施及穿透式监管推进,全行业违规率普遍下行,但房地产行业在2022 年仍维持15.5%的高违规率,凸显行业流动性危机下企业通过虚增预售收入、隐匿表外负债等复合手段粉饰报表的顽疾。 违规手段迭代升级:信息披露违规(重大遗漏57.8%、虚假记载54.9%)取代传统利润操纵成为主流,其技术隐蔽性体现在两方面,一是通 过选择性披露行业利好政策、弱化技术研发失败风险、构建片面叙事误导投资者;二是借助复杂术语包装关联交易、利用模糊表述规避业绩 承诺。相较而言,虚构利润和虚列资产因审计程序中对银行流水、存货监盘的强化而大幅萎缩。
基于结构化数据构建财务造假识别模型特征池
特征池构建——基于结构化财报数据
数据来源与筛选依据:聚焦上市公司定期财务报告信息,提取标准化财务报表数值信息(资产负债表、利润表、现金流量表等)。采用年度报告作为核心数 据来源,主要因其具备完整性,涵盖法定披露的全部财务与非财务信息。具体数据来源于CSMAR数据库的“ 财务指标分析表”。
特征构建原则:基于跨公司&跨行业可比性考虑,1)采用比率型指标:将绝对值转化为相对值(如资产负债率、销售净利率);2)归一化&标准化:对不 同行业内的样本指标通过Max-Min方法将指标值限定在[0,1]区间,且进行Z-score标准化处理;3)行业属性处理:保万得一级行业分类作为控制变量,采用 独热编码处理行业属性。4)多维度覆盖原则:从8个维度构建财务指标体系,分别为偿债能力、经营能力、盈利能力、发展能力、比率结构、风险水平、 现金流分析、每股指标。
特征池优化机制:1)充足性筛选:剔除缺失值超过50%的指标;2)显著性检验:保留p值小于0.1的因子。3)离群值处理:采用IQR方法,离群值用上下 限代替。
原有8个维度,总计378个指标,对于指标数据缺失超过 50%的样本直接进行删除,同时对所有指标进行显著性检验,筛选出 p 值小于 0.1的指标。 最终保 留指标 100 个, 财务造假样本 5483 个, 控制样本 42046 个。
DeepSeek辅助构建基于财报文本的情感语调因子
非结构数据:基于财报文本的情感语调因子
传统财务指标受会计准则和法律约束,可能存在人为操纵空间,而文本情感语调反映了管理层对企业经营状况的真实情绪流露,具有更强的隐蔽性特征。过度积 极的表述可能是管理层掩盖财务问题的策略,如虚增收入时通过夸大描述转移投资者注意力;负面情绪升高往往预示资金链紧张或业绩下滑,可能触发管理层通 过财务造假缓解短期压力。而且从合法性的角度来看,年报文本中流露出的负面情绪也是公司为了降低投资者预期,避免未来遭遇法律诉讼困扰的必要手段。文本情感分析捕捉非结构化风险线索: 情绪矛盾:财务数据向好但语调消极,可能暗示数据真实性存疑; 模糊表述:大量使用复杂术语或转折词(如“尽管”、“但是”)可能掩盖真实风险;行业异常:与同行业情感倾向偏离较大的公司更可能存在舞弊。 从DeepSeek生成的财报文本情感语调分数分布来看,财务造假公司的情感语调分数整体低于正常公司的情感语调分数;这一规律在以万得一级行业分类后的样本中依旧成立。
情感语调因子在财务造假识别模型中的表现
DeepSeek情感语调因子加入特征池前后Logistic模型表现对比
加入情感语调因子后,模型在召回率(测试集:65.27%→69.01%,+3.74%)得到提升,第二类错误同步下降,验证了情感因子在识 别财务造假场景中的核心价值。尽管其他指标(准确率、特异性)有所下降,但这反映了模型在平衡“抓造假”与“保正常”目标时 的合理权衡。在财务造假检测中,降低漏判(第二类错误)的优先级通常高于误判(第一类错误),因此情感因子对召回率的提升具 有实际意义。
财务造假公司往往在财报文本中隐含负面情感信号(如模糊措辞、矛盾逻辑、过度乐观修饰),情感因子通过量化文本情感倾向,帮 助模型更敏感地捕捉这些特征,强化对造假样本的识别能力。作为线性模型,Logistic通过调整特征权重优化分类边界。情感因子通 过正向权重调整(负面情感→更高造假概率),直接扩大了造假类别的判别边界,从而提高召回率。
DeepSeek情感语调因子加入特征池前后Logistic模型特征变量重要性
1)情感因子隐性协同:虽未进入前10,但通过调整财务指标权重分布(如偿债能力指标重要性提升、ROA权重下降),间接强化模 型对造假信号的组合识别能力。2)财务主导逻辑稳固:前10全为财务指标(盈利能力/偿债能力/每股指标),情感语调因子仅辅助优 化特征关联,解释召回率提升源于财务与情感信号的线性组合增强。3)业务兼容性优先:模型保持"财务基本面为主,情感为辅"的可 解释结构,符合风控场景对财务指标核心地位的强依赖。
DeepSeek情感语调因子加入特征池前后LightGBM模型表现对比
从训练集和测试集的指标来看,LightGBM模型整体存在一定程度的过拟合,泛化能力仍有提升空间。单从召回率观测,训练集与测 试集的召回率差距从26.38%(70.86% vs. 44.48%)缩小至25.38%(77.52% vs. 52.14%),说明模型泛化性未因情感因子而恶化, 反而测试集指标优化更显著。
加入情感语调因子后,LightGBM模型的召回率显著提升(测试集:44.48%→52.14%,+7.66%),第二类错误同步下降 (55.52%→47.86%)。召回率提升幅度高于此前Logistic回归模型(+3.74%)。情感语调因子在财务造假检测场景中对原有特征池 的优化作用仍然得到体现。
基于LightGBM特性可进行特征工程强化以提升模型泛化能力,如通过SHAP值分析情感因子对预测造假的贡献方向,若负面情感与高 造假概率强相关,可对极端负面样本加权训练,或对LightGBM误判的正常样本(第一类错误)进行聚类分析,识别潜在误标或新型 造假模式,反哺特征工程等。
特征变量在Logistic、MLP、LightGBM模型中的平均重要性排名
情感语调因子的模型依赖性:情感语调因子依赖模型类型,其在非线性模型(MLP第2、LightGBM第4)中表现强劲,但在线性模型 (Logistic第34)中重要性较小,说明需通过复杂交互挖掘。
召回率提升的核心驱动力:MLP/LightGBM中情感语调分别贡献了最高的召回率增幅(+8.93%/+7.66%),验证其作为文本风险信号的 独立判别力,尤其在当下违规手段迭代升级,信息披露违规取代传统利润操纵成为财务造假隐蔽手段,情感语调的预警作用意义重大。
与传统财务指标的协同性:情感语调与固定资产比率(MLP第1)、现金资产比率(LightGBM第2)等高权重财务指标形成交叉验证, 如"高固定资产+负面情感"组合可能指向资产虚增类造假,提升综合预警能力。
业务落地优先级:尽管情感语调因子平均重要性排名与资产负债率并列第九(受Logistic拖累),但在实际应用中应优先考虑 MLP/LightGBM模型,充分发挥情感语调在复杂场景中的补充作用,而非受限于线性模型的弱表现。
未来优化方向:需针对情感语调开发细粒度衍生特征(如情感波动性、行业情感基准校准),进一步释放其在非线性模型中的潜力,构 建"财务+文本"双引擎风控体系。
AI挖掘财报文本信息的拓展路径
AI挖掘财报文本信息的拓展路径:基于Zero-Shot的财报文本直接分析模式
核心逻辑:对比原情感语调因子,仅输出单一情感评分本质 是全局文本情绪浓缩,无法区分具体风险类型。基于ZeroShot的财报文本分析利用大模型(如DeepSeek)的通用语义 理解能力,无需特定训练即可从财报文本中挖掘潜在造假信 号,通过Prompt工程引导模型生成结构化风险标签。
报告节选:



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 量化专题报告:港股财务数据处理六问及因子复现手册.pdf
- 财务基本面解析(二):财务报表重构_利润表.pdf
- 帆软:2025年财务全景分析:五大维度看懂企业健康度报告.pdf
- 结合分析师预期和宏观周期的DTW相似性财务预测模型.pdf
- (英)2025年Q3瑞幸咖啡财务报告.pdf
- 专题策略报告:2026年3月份大类资产配置报告(总第95期),春季行情步入下半场,聚焦财报季业绩兑现.pdf
- 中美最新财报中的行业配置线索.pdf
- 财报透视系列(一):上市公司内外需景气度变化与投资机会展望.pdf
- 策略深度研究:财报深读,盈利周期渐入佳境.pdf
- 财报季“信息洪流”下的反常行为:投资者如何从细节转向宏观?.pdf
- 相关标签
- 相关专题
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 审计作业:乐视财务舞弊案例研究.pptx
- 2 《会计学:教程与案例》财务会计.pdf
- 3 从瑞幸事件看财务欺诈、做空方略与审计思维.pdf
- 4 财务发展探索:财务的未来之路.pdf
- 5 财务创新:财务赋能创新发展.pdf
- 6 德勤关键时刻:财务2025.pdf
- 7 保险行业-中国版IFRS17准则深度解析:25号保险合同准则实施在即,构建保险财务分析新逻辑.pdf
- 8 龙湖集团(0960.HK)研究报告:财务自律穿越周期,开发运营稳步提升.pdf
- 9 中国企业财务数字化转型白皮书.pdf
- 10 新冠肺炎疫情对中国零售行业财务及运营影响调研报告及行业趋势展望.pdf
- 1 全球财务采用AI报告.pdf
- 2 财务基本面解析:财务报表重构_资产负债表.pdf
- 3 基于财报文本的情感语调的分析:DeepSeek辅助识别财务瑕疵.pdf
- 4 银行业研究框架及25H1业绩综述:营收及利润增速双双转正—如何看财务报表、经营情况、识别风险.pdf
- 5 金融工程专题研究:财务报表中的Alpha因子扩容与增强.pdf
- 6 AFRC会计及财务汇报局:2024-2025年度查察报告.pdf
- 7 AFRC会计及财务汇报局:审计焦点:2025年年终审计(英文版).pdf
- 8 《经营者的财务金三角》读书笔记.pdf
- 9 2025年中国企业财务数智化趋势报告.pdf
- 10 AI对财务职能的量化影响
- 全部热门
- 本年热门
- 本季热门
- 1 2026年量化专题报告:港股财务数据处理六问及因子复现手册
- 2 2025年财务基本面解析(二):财务报表重构_利润表
- 3 2025年结合分析师预期和宏观周期的DTW相似性财务预测模型
- 4 2025年中国企业财务数智化趋势分析:超八成企业已明确转型战略
- 5 2025年财务BP转型深度分析:从“成本中心”到“价值乘数”的跃迁之路
- 6 2025年财务数智化转型分析:AI+财务如何重塑企业价值创造模式
- 7 2025年财务智能化转型分析:AI助力企业财务成本降低14%以上
- 8 2025年保险行业深度报告:寿险行业财务分析与估值框架
- 9 2025年财务基本面解析:财务报表重构_资产负债表
- 10 新企业财务通则深度解析:构建现代企业财务管理制度的战略蓝图(附ppt下载)
- 1 2026年量化专题报告:港股财务数据处理六问及因子复现手册
- 2 2025年财务基本面解析(二):财务报表重构_利润表
- 3 2025年结合分析师预期和宏观周期的DTW相似性财务预测模型
- 4 2025年中国企业财务数智化趋势分析:超八成企业已明确转型战略
- 5 2025年财务BP转型深度分析:从“成本中心”到“价值乘数”的跃迁之路
- 6 2025年财务数智化转型分析:AI+财务如何重塑企业价值创造模式
- 7 2025年财务智能化转型分析:AI助力企业财务成本降低14%以上
- 8 2025年保险行业深度报告:寿险行业财务分析与估值框架
- 9 2025年财务基本面解析:财务报表重构_资产负债表
- 10 新企业财务通则深度解析:构建现代企业财务管理制度的战略蓝图(附ppt下载)
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
