- 简介了解自己学术引文的地理分布范围及所涉学术共同体的结构特征,对于职业发展、科研基金申请以及合作机会发掘日益重要;然而,目前尚缺乏便捷易用的工具来回答此类问题。现有的文献计量平台要么需要昂贵的机构订阅许可,要么仅提供笼统的总引文数量统计,无法获取细粒度的、面向每位被引作者的元数据信息。本文提出CiteRadar——一个开源系统:用户只需输入一个Google Scholar用户标识符,系统即可自动输出一个结构化的文件夹,其中包含以下全部内容:作者的完整论著列表、所有检索到的施引文献(均附带增强后的作者元数据)、两张按引用频次与h指数分别排序的作者排行榜、一份纯文本格式的统计摘要,以及一张完全自包含、可交互操作的HTML世界地图;整个流程仅需执行一条命令行指令即可完成。CiteRadar通过精心设计的五阶段处理流水线,整合了五个异构数据源——Google Scholar、OpenAlex、CrossRef、Semantic Scholar 以及 OpenStreetMap Nominatim。本系统的关键技术贡献包括:(1)一种专为Google Scholar设计的“元字符串”解析器,能够稳健应对Unicode不换行空格(non-breaking space)分隔符这一普遍却未被文档记载的HTML显示特性;若未作专门处理,该特性将导致期刊名称与发表年份等关键字段在解析过程中悄然损坏;(2)一套两阶段作者消歧系统,采用经停用词过滤后的机构名称相似度计算方法,有效防范文献计量数据库中广为人知的“同名实体错误合并”问题;实证表明,该方法可彻底消除h指数归属错误——此类错误曾导致h指数被高估达正确值的9倍之多;(3)一项针对OpenAlex的网页URL向API URL转换机制的修正方案,使带有城市级地理位置信息的作者记录比例从原先的0%大幅提升至约60%;(4)一张基于对数尺度缩放的交互式Folium世界地图,支持以弹窗形式展示各城市研究人员详情,并最终渲染为完全自包含的HTML文件。
-
- 图表
- 解决问题缺乏免费、易用且细粒度的学术引用地理与社区分析工具;现有平台或收费昂贵,或仅提供聚合引用数而缺失作者级元数据(如机构、地理位置、h-index),难以支持学者进行职业发展、基金申请和跨地域协作发现。
- 关键思路构建端到端开源系统CiteRadar,通过单一Google Scholar ID触发五源异构数据融合(Google Scholar + OpenAlex + CrossRef + Semantic Scholar + OpenStreetMap Nominatim),并提出四项关键技术:Unicode鲁棒解析、两阶段基于机构名相似性的作者消歧、OpenAlex URL标准化修复、自包含对数缩放交互式世界地图生成。
- 其它亮点完全命令行驱动、零配置、输出即用(含HTML地图、CSV表格、统计摘要);所有代码开源;在真实学者数据上验证消歧模块可消除高达9倍的h-index误归因;将OpenAlex城市级地理覆盖率从0%提升至~60%;地图完全静态HTML,无需服务器或网络依赖;已部署于GitHub并提供Docker镜像。
- Scholarly Big Data: A Survey of Bibliometric Tools (IEEE TKDE 2022); OpenAlex: An Open Catalog of Scholarly Works (arXiv:2211.08346); The State of Citation Analysis in the Age of Large Language Models (Nature Computational Science 2023); GeoBib: Mapping Scientific Collaboration Through Geolocated Author Metadata (WWW '23); Scopus vs. Dimensions vs. OpenAlex: A Comparative Study of Coverage and Bias (JOSS 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流