加州大学圣克鲁兹分校的一个研究小组最近开发了一种新的机器学习方法,用于表征幸福,称为CruzAffect。他们的方法在预先发表在arXiv上的论文中提出,可以应用于不同的情感内容分类模型,包括传统分类器和深度学习卷积神经网络(CNN)。
这项最近的研究建立在先前的研究基础上,该研究探讨了人们如何传达第一人称的情感和幸 在一项研究中,同样的研究人员发现人们倾向于描述情况,例如“我的朋友给我买花”,或者“我得到一张停车罚单”,其他人可以从中轻易推断出他们隐含的情感反应。他们得出结论,成分语义可以提供与特定事件相关的情绪的有力证据。
图片来源:吴等人。
在另一项研究中,研究人员试图将人们对福祉和幸福理论的语言描述置于其中。通过分析从名为Echo的应用程序中提取的私人微博的语料库,他们检查了不同理论帐户在多大程度上可以解释Echo用户对其生活中日常事件的幸福分数的变化。
“对情感事件进行概括并将其与幸福理论联系起来具有挑战性,”进行这项研究的研究人员之一的Jiaqi Wu告诉TechXplore。“在我们过去的研究中,我们注意到,有没有可以预测所有的情感事件情绪单一的理论。我们最近的工作的目的是确定事件特性的情绪特定组合语义学和尝试模拟幸福的更高层次的概括。然而,找到建模福祉的一般特征仍然具有挑战性。“
Wu及其同事最近进行的研究的主要目的是研究功能丰富的传统机器学习方法和深度学习方法对情感内容分类的有效性。为了实现这一目标,他们确定了一系列特征,这些特征表征了情感内容的快乐,并将它们应用于传统的分类器,XGBoosted森林和CNN。
“我们的项目名为CruzAffect,包括开发两种不同的模型:传统的机器学习方法(即XGBoosted森林)和深度学习CNN与GloVe嵌入,”吴说。“我们利用句法特征,情感特征和个人资料特征,并且他们的表现对于不同的情感内容分类任务是稳定的。”
从本质上讲,研究人员评估了两种不同的机器学习模型在情感内容分类(XGBoosted森林和CNN)中的表现,两者都根据他们之前确定的特征分析了内容。这些包括:
句法特征:言语,名词,动词,形容词和副词的一部分,问题的使用,时态和方面信息。
情感特征:语言查询和字数统计(LIWC)v2007,情感词典,主观词汇,事实和情感语言水平。
Word嵌入:用于单词表示的GloVe 100维单词向量。
简介特点:年龄,国家,性别,婚姻状况,父母身份等
这些特征使研究人员能够发现社会参与和控制的基本指标,不同的人可以在快乐时刻锻炼。在他们的研究中,他们使用监督学习对10,000个标记文本片段的数据集进行了XGBoosted和CNN模型的训练。他们还训练模型使用bootstapped半监督方法为70,000个未标记的片段生成伪标签,因为这样可以扩大他们的数据集。所有这些文本片段都是从HappyDB数据库中提取的。
CNN架构。图片来源:吴等人。
“我们研究的有意义的发现包括在不同领域重复的有趣的句法模式,”吴说。“这种语言模式可能与幸福理论有关。我们还发现,包含专家知识的特征,如LIWC字典,可以提高传统模型的性能以及情感内容分类任务中的深度学习模型。 “。
研究人员根据代理和社会标签的二元分类以及概念标签的多级预测评估了XGBoosted森林和CNN模型。他们的评估产生了有希望的结果,表明他们确定的特征对于分类情感内容特别有效。尽管基于CNN的模型在多类分类任务上表现更好,但传统的机器学习模型使用他们之前确定的特征获得了可比较的结果。
吴和她的同事们进行的研究揭示了人们对快乐时刻的描述中反复出现的一般主题。在未来,他们的研究结果可以为开发情感分类任务的新模型提供信息,使研究人员能够通过分析文本片段的内容来有效地预测幸福和幸福。
“我现在将探索跨域情感事件分析,并研究一个更好的模型,以便用户在幸福和幸福理论中体验的事件的语言描述,”吴说。“在理解了情感内容与幸福理论之间的关系之后,我们或许能够收集与幸福感高度相关的一般情感事件。”
免责声明:本文由用户上传,如有侵权请联系删除!