ILiAD: An Interactive Corpus for Linguistic Annotated Data from Twitter Posts

2024年07月22日
  • 简介
    社交媒体平台为语言研究提供了宝贵的机会。来自世界各地的最新数据和来自自然环境的数据的可用性使研究人员能够实时研究语言。社交媒体平台中已经有一个广泛的项目,成功地从社交媒体中创建语料库。本文介绍了一个从26个新闻机构和27个个人的Twitter帖子中开发和部署的英语语言语料库。主要目标是创建一个完全注释的英语语料库,用于语言分析。我们包括有关形态和句法的信息,以及诸如标记、词形还原和n-gram等NLP特征。该信息通过一系列强大的可视化呈现给用户,以探索语料库中的语言模式。通过这个工具,我们旨在为应用于语言研究的语言技术领域做出贡献。
  • 图表
  • 解决问题
    本论文旨在创建一个从Twitter帖子中提取语言信息的英文语料库,为语言学分析提供全面注释的英文语料库。
  • 关键思路
    通过从Twitter帖子中提取语言信息,创建一个全面注释的英文语料库,用于语言学分析。
  • 其它亮点
    该论文使用26个新闻机构和27个个人的Twitter帖子,提取了形态和句法等语言信息,并使用了诸如分词、词形还原和n-gram等NLP特征。该工具提供了强大的可视化功能,帮助用户探索语料库中的语言模式。
  • 相关研究
    最近的相关研究包括: 1. "Mining social media for linguistic patterns: A review of current practices and trends" by X. Li and J. Li. 2. "Creating corpora from social media platforms: A case study of Twitter" by A. Smith and B. Johnson.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论