英文名称:Stock Price Trend Prediction using Emotion Analysis of Financial Headlines with Distilled LLM Model  

中文名称:利用蒸馏大型语言模型对财务新闻标题情绪分析以预测股价趋势  

链接: https://dl.acm.org/doi/pdf/10.1145/3652037.3652076

作者: Rithesh H. Bhat, Bhanu Jain  

机构: University of Texas at Arlington  

日期:2024‑06‑26 

摘要

  • 目标:探讨仅通过财务新闻标题中的情绪分析是否能够在无财务数据情况下预测股票价格趋势。

  • 方法:使用轻量蒸馏大型语言模型分析财务新闻标题的情绪,再结合多种机器学习分类算法预测次日股价方向。

  • 结论:基于新闻标题情绪的特征预测准确性可与使用传统财务数据的模型相当,不依赖抓取公司财务数据亦可有效预测股价走势。

读后感

内容简洁明了,各种具体的实现方法不仅清晰而且易于执行。惊喜的是,这里提到可以从 Kaggle 上下载 2009-2020 年间超过百万条的股票相关新闻数据(下载链接)。

不过这个预测的目标显得有些单一,仅仅是预测股价是涨是跌,相对而言较为简单。

image

1 引言

通过基于 API 的机制检索财经新闻头条,并训练轻量化、计算快速的蒸馏 LLM 模型,以捕捉公司金融新闻头条的情绪基调和强度。随后,我们将这些情绪信息与多种机器学习分类算法结合使用,仅通过新闻的情绪分析预测股价走势。我们证明,利用金融新闻标题中的情绪分析属性预测股价方向,与仅依赖财务数据运行的算法一样准确。

1.1 主要贡献

  • 通过金融聚合器的 API 创建预测股票价格所需的数据集,避免了网络抓取用于策划金融数据集的复杂过程。

  • 展示如何微调预训练的 LLM 模型,以有效预测财经新闻头条的情绪。

  • 使用蒸馏的 LLM 模型执行文本分类任务,代替传统 NLP 方法,实现同样的目标。

  • 针对情绪和财务特性,分别执行分类算法,以预测股价走势。

  • 对所采用方法的局限性和挑战进行分析和讨论。

2 数据聚合

2.1 股票选择

本研究选取了来自美国的 32 家市值超过 2000 亿美元的大型上市公司。这些公司具有新闻曝光度高、数据丰富等特点,便于获取高质量的财经新闻,从而有效研究新闻标题所包含的信息与股价趋势之间的相关性。

我们收集了与这些公司相关的两个维度的数据:

  • 财经新闻

  • 股票的日常财务指标(开盘价、收盘价、成交量、当日最高价和最低价等)

2.2 财经新闻提取

为确保新闻数据的权威性与一致性,我们未采用网页爬虫,而是通过官方新闻聚合平台 NewsAPI.org 提取新闻内容。NewsAPI 提供免费和付费版本的服务,在免费计划下,每日可请求最多 100 条新闻数据,覆盖全球主流媒体。

需要注意的是,NewsAPI 的响应中并不包含完整的文章正文,仅提供新闻的标题、描述、来源、发布时间、图片链接及原文链接等元数据。

2.3 财务属性数据获取

股票价格及财务属性数据通过 Alpha Vantage 获取,该平台提供包括实时和历史数据在内的金融市场数据服务。用户需注册账号并获取 API Key。在免费额度下,每日最多请求 25 次数据,因此无法支持对所有公司进行高频监控。

获取的数据包括:

  • 每日股价(开盘、收盘、最高、最低)

  • 成交量

  • 年度与季度收益报告等基本面信息

2.4 数据采集使用的工具库

我们分别使用 newsapi-python 和 alphavantage 两个官方 Python 包从上述 API 获取数据。这些库封装了常用请求方法,便于快速集成。

上述信息经清洗后统一存储至 Postgres 数据库。

2.5 历史新闻数据的补充

由于 NewsAPI 的免费套餐仅允许访问最近 30 天的数据,我们通过 Kaggle 补充了历史财经新闻数据,获取了 2009 年至 2020 年期间,涵盖 6,000 只股票的新闻标题数据,以提升模型的泛化能力与长期预测效果。

2.6 情绪分析

本研究引入情绪分析而非传统的情感(sentiment)分析,是为了获得更细致的情绪标签和更高维度的表达。相比二元(正面 / 负面)或三元(正面 / 中性 / 负面)情感分类,情绪分析提供了对具体情绪类别(如愤怒、喜悦、恐惧等)的识别,更有助于理解金融新闻中对市场潜在影响的细节。

2.7 模型选择策略

在本地部署了一款轻量级的蒸馏版语言模型:emotion-english-distilroberta-base。这是基于 RoBERTa-base 的变体,专为英文情绪识别任务优化。

该模型支持基于 Ekman 情绪理论的 7 类标签:

  • 愤怒(anger)

  • 厌恶(disgust)

  • 恐惧(fear)

  • 喜悦(joy)

  • 悲伤(sadness)

  • 惊讶(surprise)

  • 中性(neutral)

该分类粒度适中,适合捕捉财经新闻标题中隐含的心理预期和市场反应倾向。

2.8 模型训练数据

为了增强模型对财经领域术语和表达的理解,我们采用有监督微调方法对模型进行定制训练。具体流程如下:

  • 首先人工对一批财经新闻标题进行标注,每条标题分配一个情绪标签;

  • 然后使用这些带标签的数据对基础模型进行训练,使其适应金融语境下的情绪识别任务。

训练的核心目标是提升模型对财经类文本的感知精度,而不仅仅依赖通用语料中的语言特征。

2.9 微调效果

在微调阶段,我们仅使用了 76 条具有不同情绪标签的新闻标题进行训练,样本数量虽少,但模型表现有明显提升。微调后的模型在预测财经新闻的情绪类别上更加敏感,尤其对“恐惧”“惊讶”等高影响力情绪的识别更准确。

表 2 展示了模型微调前后的性能对比,具体指标包括准确率、召回率和 F1 分数,均有实质性改善。

image

3 实验

  • 实验一

    :通过 SQL 查询提取指定时间范围内的情绪标签、情绪强度(emotion_strength)以及收盘价。对 7 类情绪(愤怒、厌恶、恐惧、喜悦、中性、悲伤、惊讶)进行独热编码,转化为布尔特征。

  • 实验二

    :提取同一时间段内的股价相关数据,包括开盘价、收盘价、最高价、最低价、成交量及收盘价的滚动平均。

  • 为防止过拟合,两组实验均移除了公司名称、日期等非关键字段。

  • 标签设置为二分类:若次日收盘价高于当日,则为 1,否则为 0。

  • 数据按 8:2 比例划分为训练集和测试集。

  • 两个实验均分别使用三种分类算法进行建模:逻辑回归、随机森林、人工神经网络(ANN)。

image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/96231.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/96231.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/96231.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

websocket和socket区别

websocket和socket区别,这是一个非常经典的问题。简单来说,Socket 是构建网络通信的工具和基础,而 WebSocket 是建立在它之上的一种具体的通信协议。可以把它们的关系想象成:Socket 像是修路和建立交通规则的基础工程。它定义了车…

网络复习1

1.网络协议栈 一般一个主机内的应用(进程)进行通信,直接在操作系统层面进行 进程交互即可。而不同位置两台主机进行通信需要通过网线传输信号,因此 这些通信的数据为网络数据,而网络数据进程传输必须从应用层依次向下…

AFSim2.9.0学习笔记 —— 4.2、ArkSIM文件结构介绍及项目结构整理

🔔 AFSim2.9.0 相关技术、疑难杂症文章合集(掌握后可自封大侠 ⓿_⓿)(记得收藏,持续更新中…) 若还没有下载AFSim2.9.0完整软件或源码,请先进入本人另篇文章了解下载。 文章概要 本文主要对上篇…

hbuilderx配置微信小程序开发环境

hbuilderx配置微信小程序开发环境 借鉴HbuilderX微信开发者工具配置_hbuilder和微信开发者工具-CSDN博客 在微信开发者工具的设置选项的安全设置打开服务端口 在hbuidex的工具的设置选项的运行配置的微信开发者工具路径的方框输入 D:/software/wxchatmini 方可成功&#xf…

AUTOSAR Adaptive Platform 日志与追踪 (Log and Trace) 规范深度解析

<摘要> [R22-11 AUTOSAR Adaptive Platform (AP) 日志规范是AUTOSAR标准体系中针对高性能计算域&#xff08;如自动驾驶、智能座舱&#xff09;的关键组成部分。本文对AUTOSAR AP日志与追踪&#xff08;Log and Trace, LT&#xff09;进行了系统性解析&#xff0c;涵盖了…

[硬件电路-179]:集成运放,虚短的是电压,虚断的是电流

集成运放&#xff08;运算放大器&#xff09;中的“虚短”和“虚断”是分析其线性应用&#xff08;如反相放大器、同相放大器等&#xff09;时的两个核心概念&#xff0c;它们分别描述了运放输入端的电压和电流特性。以下是详细解释&#xff1a;1. 虚短&#xff08;Virtual Sho…

Redis常见问题及其处理策略

TODO&#xff1a;待重新整理 资源稳定性保障&#xff08;以Redis为例&#xff09;&#xff1a;核心指标、常见问题及处理策略 一、资源稳定性核心参考指标 在资源本身的稳定性保障中&#xff0c;常见核心监控指标包括&#xff1a; CPU&#xff1a;计算资源负载&#xff0c;…

微算法科技(NASDAQ: MLGO)结合子阵列算法,创建基于区块链的动态信任管理模型

随着分布式系统在物联网、供应链金融、去中心化存储等领域的广泛应用&#xff0c;节点间信任评估的高效性与安全性成为核心挑战。传统中心化信任机制存在单点故障、数据篡改风险及扩展性不足等问题&#xff0c;难以适应大规模动态网络需求。区块链技术凭借其去中心化、不可篡改…

【展厅多媒体】从技术到体验,AR在展厅中的一体化整合

AR增强现实正在重塑现代展厅的体验范式&#xff0c;为观众创造虚实交融的沉浸式环境。这项技术通过计算机视觉与图形学算法&#xff0c;将数字信息精准叠加于真实空间&#xff0c;从而实现超越物理限制的叙事可能。 在展厅环境中&#xff0c;AR增强现实技术的有效实施&#xf…

人工智能机器学习——模型评价及优化

一、欠拟合与过拟合二、数据分离与混淆矩阵混淆矩阵(Confusion Matrix)混淆矩阵&#xff0c;又称为误差矩阵&#xff0c;用于衡量分类算法的准确程度二、模型优化四、实战准备五、酶活性预测&#xff0c;使用数据集T-R-train.csv&#xff0c;测试集T-R-test.csv #加载数据 impo…

linux系统启动时脚本命令执行

Linux内核启动过程中&#xff0c;会挂载文件系统&#xff0c;在文件系统挂载后&#xff0c;运行的第一个程序就是根目录下的linuxrc&#xff0c;而这是一个指向/bin/busybox 的链接&#xff0c;也就是说&#xff0c;系统起来后运行的第一个程序就是busybox本身。再然后&#xf…

连接池项目考点

好的&#xff01;让我详细讲解一下您项目中的连接池是如何工作的。我会基于您现有的代码来分析整个工作流程。 Read file: net/ngx_c_socket_conn.cxx Read file: net/ngx_c_socket_conn.cxx Read file: net/ngx_c_socket_conn.cxx Read file: net/ngx_c_socket_conn.cxx Read …

【MySQL】从零开始了解数据库开发 --- 数据类型

我不假思索地上路&#xff0c; 因为出发的感觉太好了&#xff0c; 世界突然充满了可能性。 --- 杰克凯鲁亚克 --- 从零开始了解数据库开发MySQL中的数据类型数字类型字符串类型日期类型MySQL中的数据类型 MySQL数据库汇中&#xff0c;每一条数据都有其类型&#xff0c;主要分为…

mybatis vs mybatis-plus

​​核心关系&#xff1a;​​ MyBatis-Plus ​​不是​​ MyBatis 的替代品&#xff0c;而是构建在 MyBatis ​​之上​​的一个强大的​​增强工具包​​。它完全兼容原生 MyBatis&#xff0c;并在其基础上提供了大量开箱即用的功能&#xff0c;极大地简化了开发&#xff0c;…

2025胶水分装机服务商技术解析:聚焦高精度、智能化应用

胶水作为电子组装、新能源电池、医疗器械、消费类电子产品等关键环节中的核心材料&#xff0c;其生产、储存与分装过程对精度、洁净度和一致性的要求日益严苛。在这一背景下&#xff0c;胶水分装机及分装服务商正从传统的设备供应商向“工艺装备数据服务”的综合解决方案提供者…

v-model是怎么实现的,语法糖到底是什么

1&#xff1a;作用在表单元素上实际上就是2&#xff1a;作用在自定义组件上&#xff0c;vue2和vue3不同 vue2&#xff1a; v-model相当于名为value 的 prop和名为 input 的事件 在父组件中 <child v-model"message"></child> //相当于&#xff1a; <…

学习笔记:Javascript(5)——事件监听(用户交互)

事件监听&#xff1a;用户交互的核心机制在前端开发中&#xff0c;事件监听是处理用户交互的基础机制。它允许我们检测用户的操作&#xff08;如点击、输入、滚动等&#xff09;并执行相应的代码&#xff0c;让网页从静态变为动态。一、事件与事件监听的基本概念事件&#xff0…

在Linux系统中清理大文件的方法

在Linux系统的日常运维管理过程中&#xff0c;磁盘空间问题是一个非常常见且棘手的难题。随着系统运行时间的增加&#xff0c;日志文件、临时文件、缓存文件以及用户产生的数据会不断增长。如果缺乏及时的监控和清理&#xff0c;大文件往往会迅速占满磁盘&#xff0c;导致系统性…

使用x64dbg分析调试windows可执行程序

引言 当我们仅有一个C/C等编译的可执行程序&#xff08;windows 上的 exe 文件&#xff09;&#xff0c;而没有源码时我们应该怎么分析调试该可执行程序呢&#xff1f;我们可以通过动态分析或静态分析的方式达成我们的目的&#xff0c;当然比较有效的方案当然是静态分析结合动态…

在Windows 11上配置Cursor IDE进行Java开发

前言 Cursor IDE是一款基于VSCode的AI编程助手&#xff0c;集成了强大的AI功能&#xff0c;能够显著提升Java开发效率。本文详细介绍如何在Windows 11系统上安装和配置Cursor IDE&#xff0c;使其成为高效的Java开发环境。 1. Windows 11上安装Cursor IDE 1.1 下载和安装步骤…