首个德语软件工程情感分析黄金标准数据集:构建与价值解析

论文标题:A German Gold-Standard Dataset for Sentiment Analysis in Software Engineering

arXiv:2507.07325
A German Gold-Standard Dataset for Sentiment Analysis in Software Engineering
Martin Obaidi, Marc Herrmann, Elisa Schmid, Raymond Ochsner, Kurt Schneider, Jil Klünder
Comments: This paper has been accepted at the 33rd IEEE International Requirements Engineering Workshop (REW 2025)
Subjects: Software Engineering (cs.SE)

研究背景:为何需要这个数据集?

在软件工程领域,开发者之间的沟通情绪对团队生产力和项目成功影响重大——积极情绪能提升效率,而负面情绪可能引发冲突或阻碍协作。情感分析工具本应是捕捉这些情绪的“利器”,但目前存在两个关键问题:

  • 现有情感分析工具多针对英语,且未适配软件工程(SE)领域,导致对开发者语句的分析结果不准确。例如,有研究指出,直接用通用工具分析SE特定语句可能给出错误结论,甚至影响软件库推荐等决策。
  • 德语领域虽有通用情感分析数据集,但没有专门针对软件工程的黄金标准数据集,导致无法开发适配德语SE领域的工具。

这就像医生诊断需要精准的“病历模板”,而德语SE领域的情感分析长期缺乏这样的“模板”,使得工具开发和应用都举步维艰。

主要作者及单位信息

  • 作者:Martin Obaidi、Marc Herrmann、Elisa Schmid、Raymond Ochsner、Kurt Schneider、Jil Klünder。
  • 单位:德国汉诺威莱布尼茨大学软件工程组、汉诺威应用科学大学。

创新点:这个研究“新”在哪里?

  1. 填补领域空白:创建了首个德语软件工程领域的情感分析黄金标准数据集,打破了该领域长期依赖通用数据集或英语资源的现状。
  2. 严格的标注体系:基于Shaver等人的情感模型,结合软件工程场景调整,明确标注“爱、喜悦、惊讶、愤怒、悲伤、恐惧”6种基础情感及“中性”,确保标注逻辑清晰。
  3. 注重标注可靠性:通过“初标-讨论-终标”的流程,显著提升评分者间一致性,最终整体Fleiss’ Kappa达0.71,证明数据集的高质量。
  4. 针对性工具评估:首次用德语SE语句系统评估4个主流德语情感分析工具,揭示其在该领域的性能局限,为后续工具开发指明方向。

研究方法和思路:数据集是如何“诞生”的?

1. 数据来源与爬取

  • 来源选择:从德语开发者论坛Android-Hilfe.de的“Android应用开发”板块提取数据。该论坛有14,088个主题和74,946条帖子,且规则要求内容用德语,保证了数据的领域相关性和语言纯度。
  • 爬取与筛选:用Python框架Scrapy爬取数据,过滤掉图片、长于200字符的文本、引用及自动生成内容,初步得到20,380条语句。再用GerVADER工具预排序,平衡正负中性语句后保留6,000条,最终手动去除无关信息(如签名),得到5,949条有效语句。

2. 情感标注流程

  • 标注指南:基于Shaver等人的情感模型,补充“惊讶”(因在SE场景中常见),共标注6种情感+中性,每条语句仅分配一个标签(若未明确表达情感则标为中性)。
  • 标注人员:5名20-25岁的男性计算机专业学生,均有软件开发和团队沟通经验,确保对开发者语境的理解。
  • 流程保障:先通过20条样例培训统一标准,再分两轮标注:第一轮标注100条后讨论分歧(如明确“感谢”应标“爱”而非“喜悦”),第二轮标注剩余语句后再次讨论,最终确定标签。

3. 评估方法

  • 标注一致性:用Fleiss’ Kappa(多标注者一致性)和Cohen’s Kappa(成对一致性)评估,第二轮整体Fleiss’ Kappa达0.71, Agreement达0.80,证明标注可靠。
  • 工具性能:选择4个德语工具(GerVADER、SentiStrength DE、TextBlobDE、BertDE),通过精确率、召回率、F1分数(微平均/宏平均)和准确率评估,对比其在数据集上的表现。

主要贡献:这个数据集有什么用?

  1. 创建高质量数据集:生成包含5,949条德语开发者语句的黄金标准数据集,每条语句标注6种情感或中性,且经评估具有高一致性(第二轮Fleiss’ Kappa 0.71),为后续研究提供可靠基础。
  2. 验证标注方法有效性:证明“明确指南+中间讨论”能显著提升标注一致性,为同类数据集构建提供可复用流程。
  3. 揭示工具局限:评估显示现有德语工具表现不足(最佳工具SentiStrength DE准确率仅0.72,负向情感F1分数最低16%),明确了开发SE领域专用德语工具的必要性。
  4. 支撑领域应用:该数据集可直接用于训练SE领域德语情感分析工具,帮助识别开发者负面情绪、预防冲突、优化团队协作,最终提升项目成功率。

思维导图:

在这里插入图片描述


详细总结:

1. 研究背景与意义
  • 情感分析在软件工程(SE)中至关重要,可识别团队情绪、提升生产力(积极情绪能提高效率),应用于需求工程、冲突检测等场景。
  • 现有挑战:英语工具较成熟,但缺乏德语软件工程领域黄金标准数据集,现有德语工具未针对SE优化,结果不准确。
2. 相关工作
  • 情感模型:主要分为基础情感模型(如Izard的10种、Plutchik的8种)、分类模型(如Shaver等人的层级模型,含正负大类及子情感)。
  • 黄金标准数据集创建:现有英语数据集(如Senti4SD)多基于Shaver模型,标注流程包括指南制定、数据清洗、评分者培训等;德语数据集多为通用领域(如Amazon评论),无SE特定数据集。
3. 数据集创建
  • 数据爬取

    • 来源:选择Android-Hilfe.de的Android应用开发板块,因德语内容丰富(截至2022年6月有14,088个主题、74,946条帖子)且规则要求德语表达。
    • 爬虫:用Python Scrapy实现,提取帖子内容,过滤图片、超200字符文本、引用及自动生成内容。
    • 构成:初始20,380条,经GerVADER预排序(平衡正负中性)后选6,000条,手动去除无关信息(如签名),最终保留5,949条。
  • 标注过程

    • 指南:基于Shaver等人模型,标注爱、喜悦、积极惊讶、消极惊讶、愤怒、悲伤、恐惧及中性,要求语句明确表达情感时才标注。
    • 参与者:5名20-25岁男性计算机学生,均有开发团队经验。
    • 流程:培训→初标100条→讨论解决分歧→终标→再次讨论确定最终标签。
  • 数据分析指标

    • 性能指标:精确率、召回率、F1分数(微平均、宏平均)、准确率。
    • 评分者一致性:用Fleiss’ Kappa(多评分者)和Cohen’s Kappa(成对比较)评估。
4. 结果
  • 标注结果分布(表1):

    情感数量占比
    中性4,15169.78%
    1,13419.06%
    喜悦1332.24%
    积极惊讶40.07%
    消极惊讶460.77%
    愤怒891.5%
    悲伤3846.45%
    恐惧80.13%
  • 标注一致性:第二轮整体Fleiss’ Kappa为0.71,agreement为0.80,较第一轮显著提升(整体agreement+0.37),其中恐惧、负惊讶的agreement超0.99。

  • 工具评估结果(表2):

    工具准确率宏平均F1负向情感F1
    SentiStrength DE0.720.580.42
    GerVADER0.630.560.34
    TextBlobDE0.580.410.16
    BertDE0.360.390.23
5. 讨论与结论
  • 讨论:数据集具有高有效性,中间讨论对提升一致性关键;现有工具表现不足,因未针对SE领域优化,需开发专用德语工具。
  • 结论:该数据集为德语SE领域情感分析工具开发提供了可靠基础,未来需扩大数据集、优化标注工具。

关键问题:

  1. 该数据集的独特性与价值体现在哪里?
    答:其独特性在于是首个德语软件工程领域的情感分析黄金标准数据集,填补了该领域空白。价值体现在:包含5,949条源自真实开发论坛(Android-Hilfe.de)的语句,基于Shaver等人模型标注7类情感,经评估具有高评分者间一致性(第二轮Fleiss’ Kappa 0.71),可为开发德语SE领域专用情感分析工具提供训练基础。

  2. 数据集标注过程中如何确保标注质量?
    答:通过多步骤保障质量:①基于Shaver等人模型制定明确标注指南,明确7类情感定义;②对5名有开发经验的标注者进行培训,用样例统一标准;③分两轮标注,中间通过讨论解决分歧(如第一轮后明确“爱”与“喜悦”的区分规则);④计算Fleiss’ Kappa等指标评估一致性,第二轮整体Kappa达0.71,确保标注可靠。

  3. 现有德语情感分析工具在该数据集上的表现如何,反映出什么问题?
    答:表现最佳的SentiStrength DE准确率为0.72,宏平均F1为0.58,而BertDE准确率仅0.36;所有工具对负向情感的F1值均较低(最低16%)。这反映出现有德语情感分析工具未针对软件工程领域优化,难以准确识别开发语境中的情感,凸显了开发领域特定工具的必要性,而该数据集正是解决这一问题的关键。

总结:研究价值与核心成果

本研究聚焦德语软件工程领域情感分析的空白,通过爬取Android-Hilfe.de论坛数据,经严格筛选和标注,构建了首个该领域的黄金标准数据集。数据集含5,949条语句,标注7类情感,且具有高标注一致性(第二轮Fleiss’ Kappa 0.71)。对现有工具的评估显示其适配性不足,凸显了开发专用工具的迫切性。

解决的主要问题:填补了德语软件工程领域缺乏情感分析黄金标准数据集的空白。
主要成果:成功构建高质量数据集,验证其有效性,并为开发德语SE领域专用情感分析工具提供了关键基础。

一段话总结:

本文介绍了一个德国软件工程领域情感分析黄金标准数据集的创建过程与评估结果。该数据集包含5,949条独特的德语开发者语句,源自Android-Hilfe.de论坛,基于Shaver等人的情感模型标注了爱、喜悦、惊讶、愤怒、悲伤、恐惧及中性共7类情感,经评估具有高评分者间一致性(第二轮Fleiss’ Kappa为0.71)。对现有4个德语情感分析工具(GerVADER、SentiStrength DE、TextBlobDE、BertDE)的测试显示,SentiStrength DE表现最佳(准确率0.72)但仍不足,凸显了开发领域特定德语情感分析工具的必要性,该数据集为其提供了基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/90908.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/90908.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/90908.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyTorch编程实践:一文就入门的上手开发!

引言 PyTorch作为当今深度学习领域最流行的框架之一,以其动态计算图、直观的Python接口和强大的GPU加速能力,赢得了众多研究人员和工程师的青睐。本文将深入探讨PyTorch的编程实践,从基础概念到高级应用,帮助读者全面掌握这一强大…

关于学习docker中遇到的问题

Cannot connect to the Docker daemon at unix:///home/pc/.docker/desktop/docker.sock. Is the docker daemon running?如何配置新的路径 #运行这条命令,查看docker状态 sudo systemctl status docker如图所示表示监听路径不对,因此修改路径即可&…

无法打开windows安全中心解决方案

系统还原或重置:如果以上方法均无效,可尝试系统还原,使用之前创建的还原点恢复系统。或在设置中选择 “系统> 恢复 > 重置此电脑”,选择 “保留我的文件” 以避免数据丢失。创建新用户账户:按下 Win I 打开设置…

复习笔记 33

绪论 《幻术》 张叶蕾 我该怎么承认, 一切都是幻境。 函数的基本性质和无穷小量及其阶的比较 我感觉强化课我要跟上的话,我需要把基础,强化的讲义,还有练习册上面的所有题都刷烂。不然我感觉自己考 140 完全就是痴人说梦。搞笑呢。…

算法学习笔记:12.快速排序 ——从原理到实战,涵盖 LeetCode 与考研 408 例题

快速排序是计算机科学中最经典的排序算法之一,由 Tony Hoare 在 1960 年提出。它凭借平均时间复杂度 O (nlogn)、原地排序(空间复杂度 O (logn),主要来自递归栈)以及良好的实际性能,成为工业界处理大规模数据排序的首选…

unity 有打击感的图片,怎么做动画,可以表现出良好的打击效果

完整实现脚本:using UnityEngine; using UnityEngine.UI; using System.Collections;[RequireComponent(typeof(Image))] public class HitEffectController : MonoBehaviour {[Header("基础设置")]public float hitDuration 0.5f; // 打击效果总时长[Header("…

cuda编程笔记(7)--多GPU上的CUDA

零拷贝内存 在流中,我们介绍了cudaHostAlloc这个函数,它有一些标志,其中cudaHostAllocMapped允许内存映射到设备,也即GPU可以直接访问主机上的内存,不用额外再给设备指针分配内存 通过下面的操作,即可让设…

IP地址混乱?监控易IPAM实现全网地址自动化管理与非法接入告警

IP地址出现混乱状况?监控易IPAM能够达成对全网地址予以自动化管理的目标,同时还可针对非法接入的情况发出告警信息。办公室毫无预兆地突然断网了,经过一番仔细排查之后,发现原来是IP地址出现了冲突的情况。有人私自接了路由器&…

安全监测预警平台的应用场景

随着城市化进程加快和基础设施规模扩大,各类安全风险日益突出。安全监测预警平台作为现代安全管理的重要工具,通过整合物联网、大数据、人工智能等先进技术,实现对各类安全隐患的实时监测、智能分析和精准预警。本文将详细探讨安全监测预警平…

007_用例与应用场景

用例与应用场景 目录 内容创作编程开发数据分析客户服务教育培训商业智能研究辅助 内容创作 文案撰写 应用场景: 营销文案和广告语产品描述和说明书社交媒体内容邮件营销内容 实际案例: 任务:为新款智能手表撰写产品描述 输入&#x…

Unity物理系统由浅入深第一节:Unity 物理系统基础与应用

Unity物理系统由浅入深第一节:Unity 物理系统基础与应用 Unity物理系统由浅入深第二节:物理系统高级特性与优化 Unity物理系统由浅入深第三节:物理引擎底层原理剖析 Unity物理系统由浅入深第四节:物理约束求解与稳定性 Unity 引擎…

《[系统底层攻坚] 张冬〈大话存储终极版〉精读计划启动——存储架构原理深度拆解之旅》-系统性学习笔记(适合小白与IT工作人员)

🔥 致所有存储技术探索者笔者近期将系统攻克存储领域经典巨作——张冬老师编著的《大话存储终极版》。这部近千页的存储系统圣经,以庖丁解牛的方式剖析了:存储硬件底层架构、分布式存储核心算法、超融合系统设计哲学等等。喜欢研究数据存储或…

flutter鸿蒙版 环境配置

flutter支持开发鸿蒙,但是需要专门的flutter鸿蒙项目, Flutter鸿蒙化环境配置(windows)_flutter config --ohos-sdk-CSDN博客

Java 高级特性实战:反射与动态代理在 spring 中的核心应用

在 Java 开发中,反射和动态代理常被视为 “高级特性”,它们看似抽象,却支撑着 Spring、MyBatis 等主流框架的核心功能。本文结合手写 spring 框架的实践,从 “原理” 到 “落地”,详解这两个特性如何解决实际问题&…

Codeforces Round 855 (Div. 3)

A. Is It a Cat? 去重&#xff0c; 把所有字符看成大写字符&#xff0c; 然后去重&#xff0c; 观察最后结果是不是“MEOW” #include <bits/stdc.h> #define int long longvoid solve() {int n;std::cin >> n;std::string ans, t;std::cin >> ans;for (int…

Scrapy选择器深度指南:CSS与XPath实战技巧

引言&#xff1a;选择器在爬虫中的核心地位在现代爬虫开发中&#xff0c;​​选择器​​是数据提取的灵魂工具。根据2023年网络爬虫开发者调查数据显示&#xff1a;​​92%​​ 的数据提取错误源于选择器编写不当熟练使用选择器的开发效率相比新手提升 ​​300%​​同时掌握CSS…

Windos服务器升级MySQL版本

Windos服务器升级MySQL版本 1.备份数据库 windows下必须以管理员身份运行命令行工具进行备份&#xff0c;如果没有配置MySQL的环境变量&#xff0c;需要进入MySQL Server 的bin目录输入指令&#xff0c; mysqldump -u root -p --all-databases > backup.sql再输入数据库密码…

告别频繁登录!Nuxt3 + TypeScript + Vue3实战:双Token无感刷新方案全解析

前言 在现代 Web 应用中&#xff0c;身份认证是保障系统安全的重要环节。传统的单 Token 认证方式存在诸多不足&#xff0c;如 Token 过期后需要用户重新登录&#xff0c;影响用户体验。本文将详细介绍如何在 Nuxt3 TypeScript Vue3 项目中实现无感刷新 Token 机制&#xff…

Linux——Redis

目录 一、Redis概念 1.1 Redis定义 1.2 Redis的特点 1.3 Redis的用途 1.4 Redis与其他数据库的对比 二、Redis数据库 三、Redis五个基本类型 3.1 字符串 3.2 列表(list) ——可以有相同的值 3.3 集合(set) ——值不能重复 3.4 哈希(hash) ——类似于Map集合 3.5 有序…

【AI大模型】部署优化量化:INT8压缩模型

INT8&#xff08;8位整数&#xff09;量化是AI大模型部署中最激进的压缩技术&#xff0c;通过将模型权重和激活值从FP32降至INT8&#xff08;-128&#xff5e;127整数&#xff09;&#xff0c;实现4倍内存压缩2-4倍推理加速&#xff0c;是边缘计算和高并发服务的核心优化手段。…