2023年ChatGPT应用探讨系列之五:Code Interpreter在金融市场数据分析中的应用
- 来源:方正证券
- 发布时间:2023/07/20
- 浏览次数:747
- 举报
ChatGPT应用探讨系列之五:Code Interpreter在金融市场数据分析中的应用.pdf
ChatGPT应用探讨系列之五:CodeInterpreter在金融市场数据分析中的应用。继OpenAI推出网络浏览及多项插件功能后,2023年7月9日,OpenAI继续向Plus用户推出新的内部插件——CodeInterpreter。CodeInterpreter是ChatGPT提供的一个可以在防火墙执行环境中运行的Python解释器,以及一些临时的内存空间。ChatGPTPlus用户可以通过CodeInterpreter来执行Python代码、进行数据分析、运行数学计算、处理文件以及获得可视化结果。用户甚至并不必懂得编码过程,只需将任务需求告知ChatGPT,即可得...
1 引言
继 OpenAI 推出网络浏览及多项插件功能后,2023 年 7 月 9 日,OpenAI 继续向 Plus 用户推出新的内部插件——Code Interpreter。Code Interpreter 是 ChatGPT 提供的一个可以在防火墙执行环境中运行的 Python 解释器,以及一些 临时的内存空间。Code Interpreter 支持将文件上传到当前对话工作区完成分 析与计算,并下载工作结果。 ChatGPT Plus 用户可以通过 Code Interpreter 来执行 Python 代码、进行数据 分析、运行数学计算、处理文件以及获得可视化结果。用户甚至并不必懂得编 码过程,只需将任务需求告知 ChatGPT,即可得到相应的结果。Code Interpreter 的上线大幅提升了 ChatGPT 在数据分析方面的能力,可以进一步提 升用户的工作效率。
出于安全考虑,ChatGPT 使用严格的网络控制来防止执行代码访问外部互联网。 此外,ChatGPT 还为每个会话设置了资源限制。发布之初,官方已经列举了使用 Code Interpreter 的有效场景,例如解决定量和定性的数学问题,进行数据分 析和可视化以及在格式之间转换文件等。 金融投研领域涉及大量的数据分析与处理,而 Code Interpreter 在数据处理方 面拥有强大的优势,本文中我们将重点介绍 Code Interpreter 在金融投资领域 中的一些使用案例,进一步介绍如何通过 ChatGPT 辅助提升投研工作效率。
2 Code Interpreter 数据分析与可视化
Code Interpreter 为用户提供了一个解决问题的通用工具箱(通过 Python 代码 实现),一个可以使用的内存空间(能够上传文件,且这些文件可以是压缩形 式)。因此用户可借助 Code Interpreter 完成复杂的数学问题求解,以及大量 探索性分析和可视化工作。
Code Interpreter 的使用非常简单,如同其他插件功能一样,plus 用户只需要 在新建会话窗口时选中 Code Interpreter,即可在聊天窗使用该功能。点击聊 天窗左端的“+”即可上传本地文件,需要注意的是每次只能上传一个文件,官 方提示最大可上传 512M 的文件,但实际测试时当文件超过 100M 时上传速度非 常慢且可能中断,因此建议将较大的文件压缩为.zip 的格式再上传。
此外,Code Interpreter 的默认运行环境中缺少中文字体,因此在可视化显示 时如需显示中文的图标会出现乱码。不过用户可以自行上传中文字体文件,并 指定其使用来解决。

2.1 数学计算
ChatGPT 本身在文本处理、逻辑推理方面有较强的优势,但在数学计算等方面存 在较大不足,我们在报告《ChatGPT 投资相关插件测试及策略开发——ChatGPT 应用探讨系列之四》中介绍了如何使用第三方插件 Wolfram 来弥补 ChatGPT 在 数学方面的短板。此次 Code Interpreter 的上线,同样可以大幅提升 ChatGPT 本身的数学计算能力。 Code Interpreter 完成数学计算的过程本质上是通过 Python 程序调用 SymPy 库 等专业工具完成任务求解。SymPy 库支持符号计算、高精度计算、模式匹配、绘 图、解方程、微积分、组合数学、离散 数学、几何学、概率与统计、物理学等 方面的功能。因此通过 Code Interpreter 可以完成大量基础数学问题的求解。
然而,在处理较为复杂的问题是,Code Interpreter 可能会存在一些不足。 Wolfram Alpha 的首席科学家 Michael Trott 在 Wolfram 社区展示了对 Code Interpreter 和 Wolfram Plugin 在解决数学问题时的对比实验。该实验中选取 了 100 道数学问题,大多来自于数学杂志、大学数学竞赛、数学奥林匹克等资 源,然后分别用两种工具尝试解决这些问题。实验结果显示 Walfram Plugin 解 决了全部问题,而 Code Interpreter 成功解决了大约 50%的问题。在 Code Interpreter 成功解决问题的情况下,Michael Trott 还比较了实际代码的长 度。平均而言,Wolfram 语言代码的大小约为 Code Interpreter 的 Python 代 码的 27%。因此对于复杂数学问题的求解,我们仍然推荐使用 Wolfram Plugin 来完成。
2.2 数据分析与可视化
Code Interpreter 拥有强大的数据分析与可视化能力,本节中我们上传了一段 航空公司乘客满意度调查问卷的数据,借助 Code Interpreter 的数据分析能 力,来判断各因素与乘客满意度之间的关系并可视化。Code Interpreter 首先 通过对数值特征进行相关性分析和对分类特征进行分组均值比较来了解各个特 征与满意度之间的关系。
2.3 自然语言处理
Code Interpreter 还拥有强大的自然语言处理能力,本节中我们上传一段 ChatGPT APP 的评论数据,通过 Code Interpreter 来对其进行评分分析及语义 分析。

进一步,我们可以让其筛选出 5 星评价中的评论内容,统计其中的高频词汇并 制作词云图。不过由于目前 code interpreter 环境没有互联网访问权限,所以 无法下载 Python 下自然语言处理中最常用的 NLTK 库,因此分词、停用词的处 理等并不理想。
3 Code Interpreter 金融数据分析案例测试
3.1 科创板公司上市审核分析
近期科创板迎来开板四周年,作为注册制改革的第一块“试验田”,科创板坚守 “硬科技”定位,战略性新兴产业集聚效应凸显,科创企业持续加码研发投 入,推进关键核心技术攻关。 截至 2023 年 7 月 17 日,科创板已有 542 家上市公司,合计总市值约为 7.17 万 亿元,已成为我国资本市场的重要组成部分和服务实体经济、解决科创企业融 资需求的重要板块。 我们提取了科创板所有上市审核的公司情况,包括其受理批次、审核状态、科 创主题、上市标准、募资金额、保荐机构、注册地等多维度信息,我们可以借 助 Code Interpreter 来快速实现信息整理与可视化工作。
点击结果中的“Show work”,即可看到数据分析的源码,包括文件读取、数据 处理以及图表展示都是通过 Python 代码实现,用户也可以将代码段复制到本地 保存,以便日后在本地处理同样的任务。
3.2 公募基金重仓股分析
公募基金是 A 股市场最重要的机构投资者之一,其持仓变动受到市场高度关 注。本案例中我们以市场最为关注的主动权益型基金(普通股票型+偏股混合型 +灵活配置型)重仓股为例,测试如何通过 Code Interpreter 来快速完成不同 维度信息的汇总分析与可视化。此处我们提取了自 2018 年以来每个季度的公募 基金重仓股信息,包含其行业信息与上市板块等,由于最新的 2023 年二季报尚 未披露完毕,因此数据截止至 2023 年一季度。

3.3 财务造假预测模型
在报告《ChatGPT 投资相关插件测试及策略开发——ChatGPT 应用探讨系列之 四》中我们介绍了如何通过 Noteable Plugin 来完成财务造假预测模型的构 建,本节中我们尝试使用 Code Interpreter 来完成同样的任务。我们筛选了 2002 年之后,部分 A 股市场被中国证监会、沪深两市交易所公开确定为财务造 假的上市公司。剔除 IPO 之前以及新股上市当年造假的数据,对于同一家上市 公司连续多个年度造假的数据,仅保留其首次造假年份作为研究数据。此外, 我们采用控制样本匹配法,选取造假样本当年同行业所在的上市公司(剔除被 证监会、交易所处罚的公司)作为对照样本。 在特征指标筛选方面,我们结合公司参与年报财务造假的动机、常见的手段, 重点以财务指标为研究对象,整理了包括审计师意见、前一年度是否亏损、前 五大股东占比、应收账款占流动资产比例、预付款项占流动资产比例、其他应 收款占流动资产比例等一系列指标作为特征指标来训练模型。
可以看到,与 Noteable Plugin 类似,Code Interpreter 在编写程序运行过程 中遇到的错误,都会快速的自行解决直至顺利运行,大幅提升了工作效率。
与 Noteable Plugin 类似,Code Interpreter 在模型评估之后也会针对性的给 出特定的改进建议,我们可以根据这些建议与其多次交互测试,直至达到理想 的训练效果。然而需要说明的是,由于目前 Code Interpreter 不具备联网功 能,因此当模型需要使用复杂模型时,可能遇到在当前环境下没有安装相应的 库而导致无法完成任务的情况。例如当我们想使用深度学习模型时,会提示在 当前环境下无法使用 TensorFlow、Keras 或 PyTorch 等深度学习库。此外,深 度学习通常需要大量的计算资源(如 GPU)和大量的数据,这也可能会超出 Code Interpreter 的限制。
3.4 因子选股模型测试
除以上常用的金融数据分析与可视化之外,我们尝试一个更加实际的投资问 题。我们筛选了 99 个财务、估值等相关的因子,以及个股的市值、行业以及未 来一期的涨跌幅数据,数据区间为 2013 年 1 月至 2023 年 6 月。由于数据量较 大,我们将其压缩为.zip 格式后将其上传给 Code Interpreter,让其分析哪些 因子可能对股票未来收益率有较强的预测能力。 在量化研究中,这是最常见的单因子检验工作,有标准的流程和规则来验证和 筛选有效因子,此处我们仅用来测试 Code Interpreter 能否解决类似的大规模 数据分析问题。
从上述结果来看,Code Interpreter 选择了通过随机森林模型来训练模型并查 看各个特征的重要性,然而遗憾的是由于数据量过大导致出现了内存错误,进 一步缩小数据规模后依然无法运行。 在我们要求其使用线性回归模型后依然遇到同样的问题,由此可见 Code Interpreter 由于资源限制并不适合用来做大规模的数据训练和挖掘,相较而 言,对于量化用户或需要使用大规模数据挖掘的用户,我们建议使用 Noteable Plugin 来完成相应任务。
4 Code Interpreter 的限制与不足
综上所述,Code Interpreter 拥有强大的数学计算、数据分析及可视化的能 力,对于金融领域中的常见的数据分析与统计任务,可以高效完成,大幅提升 工作效率,然而 Code Interpreter 也存在诸多限制与不足:
1)互联网访问限制:Code Interpreter 目前无法访问互联网,它无法直接从网 络获取数据或与在线 API 交互。这也限制了 Code Interpreter 处理复杂任务的 能力,如上文案例所示,由于无法下载 TensorFlow、Keras 或 PyTorch 等深度 学习库,Code Interpreter 在深度学习模型训练方面明显不足。
2)文件大小限制:Code Interpreter 对单次文件大小的限制最大为 512MB。通 常建议可上传的单个文件大小最大为 100MB。上传文件时可以将数据压缩为.zip 文件处理。 因为该功能主要是用于交互式会话中进行计算以及数据分析而非超大规模数据 处理。如果上传的文件越大,则处理的速度越慢,占用的内存越多。因此不建 议使用 Code Interpreter 来处理大规模数据。
3)编程语言限制:目前 Code Interpreter 仅支持 Python 代码。其他编程语言 需要复制代码到自己在开发环境中运行。
4)Python 库限制:由于联网限制,目前 Code Interpreter 不允许安装外部 Python 库。但是,编码环境预装了 330 多个常用的库。这包括但不限于用于数 值计算的 numpy,用于数据操作和分析的 pandas,用于数据可视化的 matplotlib 以及用于计算机视觉任务的 OpenCV 等,对于日常的数据分析与可视 化已足够,但复杂任务可能无法很好的完成。
5)环境持久性限制:正如 Code Interpreter 官方介绍中写道,在聊天对话期 间活动状态具有使用时间上限,如果超时则当前环境可能死亡,整个状态就会 丢失。如果用户关闭了页面隔一段时间,OpenAI 会关闭之前分配的环境和资 源,下次再进入会话页面开始提问,会丢失之前的上下文,比如上传的文件等 内容。如果继续使用该对话,Code Interpreter 会不断尝试重新加载数据和脚 本。所以此时用户最好开启一个新的会话,然后重新上传文件进行分析。
6)中文字体缺失:Code Interpreter 预装环境中没有较好的中文字体库,因此 在可视化过程中中文显示有误,但用户可自行上传中文字体库来弥补这一缺 陷。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 中国特色衍生品交易账户体系建设探索-金融市场研究.pdf
- 基于行为金融视角的A股市场月频动量效应失效原因与修正策略-金融市场研究.pdf
- 金融行业周报:外资机构座谈会召开,坚定金融市场改革决心.pdf
- 工银亚洲研究:2026年全球金融市场展望:分化与聚焦报告.pdf
- 金融市场流动性与监管动态周报:近期人民币为何全面走强?对A股有何影响?.pdf
- CMF宏观经济月度数据分析会第82期:稳中求进,寻找新均衡的中国经济.pdf
- 浩天研究院:上市公司实际控制人:财富风险数据分析与解读2025.pdf
- 农林牧渔行业美国农业部(USDA)月度供需报告数据分析专题:美国牛肉价格预期2026年继续上涨,全球大豆期末库存环比调减.pdf
- 2025年中国梨产业数据分析简报-农小蜂.pdf
- 2025年广西柑橘产业数据分析简报-农小蜂.pdf
- 相关标签
- 相关专题
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 LPR专题报告:利率并轨,任重道远.pdf
- 2 麦肯锡 营销管理、市场细分与中国金融市场调查.pptx
- 3 中国~欧亚经济合作基金:2021年新形势下全球金融市场展望(全球利率,汇率,债市,股市,油市).pdf
- 4 狭义流动性分析手册:央行资产负债表分析框架.pdf
- 5 2025中国金融市场投资者洞见白皮书.pdf
- 6 服务业小型市场主体普惠金融市场需求调查报告:普之已广,惠之精准.pdf
- 7 2025区域消费金融市场研究.pdf
- 8 NIFD季报-2020年度全球金融市场
- 9 2025蒙商金融市场固收投研框架.pdf
- 10 港股中期策略大势篇:AH股市将协同构造M型震荡.pdf
- 1 2025区域消费金融市场研究.pdf
- 2 银行业我国商业银行金融市场业务的探讨与展望:低利率阶段银行金融市场业务如何破局?.pdf
- 3 美国金融市场风险全景扫描:暗流涌动.pdf
- 4 同花顺研究报告:金融市场活跃带来多项利好,AI产品布局提升发展空间.pdf
- 5 金融市场流动性与监管动态周报:近期人民币为何全面走强?对A股有何影响?.pdf
- 6 工银亚洲研究:2026年全球金融市场展望:分化与聚焦报告.pdf
- 7 另类数据视角下的经济洞察—卫星遥感在经济金融市场中的应用.pdf
- 8 2025年Q2中国经济与金融市场手册:结构性失衡与增长担忧(英文版).pdf
- 9 金融行业周报:外资机构座谈会召开,坚定金融市场改革决心.pdf
- 10 中国特色衍生品交易账户体系建设探索-金融市场研究.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年第9周金融行业周报:外资机构座谈会召开,坚定金融市场改革决心
- 2 2025年第48周金融市场流动性与监管动态周报:近期人民币为何全面走强?对A股有何影响?
- 3 2025年同花顺研究报告:金融市场活跃带来多项利好,AI产品布局提升发展空间
- 4 2025年银行业我国商业银行金融市场业务的探讨与展望:低利率阶段银行金融市场业务如何破局?
- 5 2025年美国金融市场风险全景扫描:暗流涌动
- 6 2024年金融市场策略:积极适应市场风格,行为金融+机器学习新发现
- 7 2024年渣打集团研究报告:交易银行+金融市场双轮驱动,成长+红利提升估值
- 8 2023年我国电力金融市场研究建议报告
- 9 2023年港股及海外策略研究:全球金融市场投资手册,QDII与海外产品篇
- 10 金融保险发达国家农村金融市场发展的经验与启示
- 1 2026年第9周金融行业周报:外资机构座谈会召开,坚定金融市场改革决心
- 2 2025年第48周金融市场流动性与监管动态周报:近期人民币为何全面走强?对A股有何影响?
- 3 2025年同花顺研究报告:金融市场活跃带来多项利好,AI产品布局提升发展空间
- 4 2025年银行业我国商业银行金融市场业务的探讨与展望:低利率阶段银行金融市场业务如何破局?
- 5 2025年美国金融市场风险全景扫描:暗流涌动
- 6 2026年人工智能与数据分析趋势研究:上下文、自动化与信任成为行业分水岭
- 7 2025年传媒行业深度分析:从数据分析试探AI题材变迁
- 8 2025年企业数据分析平台研究:Databricks AI/BI如何重塑商业智能决策
- 9 2025年中科星图研究报告:对标PLTR,AI+数据分析之王
- 10 2024年企业数据分析与人工智能应用研究:86%技术决策者认为AI输出质量取决于数据输入
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
