FontCLIP: A Semantic Typography Visual-Language Model for Multilingual Font Applications

简介

获取适合各种设计任务的字体可能是具有挑战性的，需要专业的印刷排版知识。虽然以前的字体检索或生成工作已经缓解了一些困难，但它们通常缺乏对多种语言和语义属性的支持，这些属性超出了训练数据领域。为了解决这个问题，我们提出了FontCLIP：一种将大规模视觉语言模型的语义理解与印刷排版知识相连接的模型。我们通过一种新颖的微调方法将印刷排版特定的知识集成到预训练CLIP模型的综合视觉语言知识中。我们建议使用一个复合描述性提示，该提示封装了从字体属性数据集中自适应采样的属性，重点关注罗马字母字符。FontCLIP的语义排版潜在空间展示了两种前所未有的泛化能力。首先，FontCLIP可以泛化到包括中文、日文和韩文在内的不同语言，捕捉不同语言字体的排版特征，即使它只是使用罗马字符的字体进行微调。其次，FontCLIP可以识别在训练数据中未呈现的语义属性。FontCLIP的双模态和泛化能力实现了多语言和跨语言字体检索和字母形状优化，减轻了获取所需字体的负担。
图表
解决问题

论文旨在解决从多语言和语义属性角度获取所需字体的挑战，提出了一种将视觉语言模型与印刷排版知识相结合的模型。
关键思路

论文通过一种新颖的微调方法，将印刷排版专业知识融入到预训练的CLIP模型中，形成了一种语义排版潜空间，实现了多语言和语义属性的跨领域泛化。
其它亮点

FontCLIP模型能够泛化到包括中文、日文和韩文在内的不同语言，并能识别出训练数据中未出现的语义属性。实验使用了罗马字母字符为主的字体属性数据集，并开源了代码。
相关研究

相关研究包括基于视觉语言模型的字体检索和生成，以及基于印刷排版知识的字体属性分析和生成。例如：《DALL·E: Creating Images from Text》、《FontGAN: Font Generation and Beyond》、《DeepFont: Identify Your Font from An Image》等。

FontCLIP: A Semantic Typography Visual-Language Model for Multilingual Font Applications

评论