Surveying the Dead Minds: Historical-Psychological Text Analysis with Contextualized Construct Representation (CCR) for Classical Chinese

简介

本文开发了一个古代汉语历史心理文本分析流程。人类已经用各种语言创作了数千年的文本，但是大部分计算文献都集中在现代语言和语料库上。新兴的历史心理学领域依赖于计算技术，利用自然语言处理（NLP）中开发的新方法从历史语料库中提取心理学方面的信息。这个名为Contextualized Construct Representations（CCR）的流程将心理测量学（即心理调查）中的专业知识与基于Transformer的语言模型生成的文本表示相结合，以测量古代汉语语料库中的传统主义、规范强度和集体主义等心理构造。考虑到可用数据的稀缺性，我们提出了一种间接监督对比学习方法，并构建了第一个中文历史心理学语料库（C-HI-PSY）来微调预训练模型。我们评估了这个流程，以证明它相对于其他方法具有更优越的性能。CCR方法在所有任务中均优于基于词嵌入的方法，并在大多数任务中超越了GPT-4的提示。最后，我们使用客观、外部数据来对这个流程进行基准测试，以进一步验证其有效性。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

开发一种历史心理学文本分析的流程，使用现代自然语言处理技术从古代汉语语料库中提取心理学方面的信息。
关键思路

使用专家知识和基于Transformer的语言模型生成的文本表示相结合的方法，称为Contextualized Construct Representations (CCR)，来测量古代汉语语料库中的心理学构造。
其它亮点

通过间接监督对比学习方法，构建了第一个中文历史心理学语料库（C-HI-PSY），并使用该语料库微调预训练模型。CCR方法在所有任务中均优于基于词嵌入的方法，并在大多数任务中超过了GPT-4的提示。最后，通过与客观、外部数据进行基准测试来验证流程的有效性。
相关研究

最近的相关研究包括基于自然语言处理的历史心理学研究，以及使用深度学习技术进行文本分析的研究。相关论文包括：“Modeling Historical Changes in Psychological Concepts Using Text Analysis”和“Deep Learning for Text Analysis”。

Surveying the Dead Minds: Historical-Psychological Text Analysis with Contextualized Construct Representation (CCR) for Classical Chinese

提问交流

提问交流