得益于 OpenAI 月初发布的 DALL.E 和 CLIP 模型,机器学习社区的开发者在文本与图像的匹配方面又可以尝试很多新的玩法。在这个项目中,一位开发者借助 CLIP 神经网络,在谷歌 Colab notebook 上实现了对 Unsplash 数据集中近 200 万张免费图片的精准文本 - 图片检索匹配。
本月初,OpenAI 同时发布了两个连接文本与图像的神经网络:DALL·E 和 CLIP。其中,DALL·E 可以基于文本直接生成图像,CLIP 能够完成图像与文本类别的匹配。这两个模型发布之后,机器学习社区出现了一些复现 DALL·E 模型的尝试,如开发者 Phil Wang 的 GitHub 项目 DALLE-pytorch,短短二十余天就收获了 1.9k star。
DALLE-pytorch 项目地址:https://github.com/lucidrains/DALLE-pytorch
近日,又有开发者创建了一个利用 CLIP 模型搜索文本精准匹配图片的项目。该项目所有图片出自 Unsplash 数据集,大约有 200 万张,利用 CLIP 模型进行处理。项目既可以在给定的免费谷歌 Colab notebook 中运行,也可以在用户自己的机器上运行。
项目地址:https://github.com/haltakov/natural-language-image-search#two-dogs-playing-in-the-snow
在具体实现上,项目作者在 Colab Notebook 上将所有图片处理成了预计算特征向量,然后找到与自然语言搜索查询(即输入的文本)最匹配的图片。
项目作者提供了一些效果展示图,如输入搜索词条「"Two dogs playing in the snow"」,就会出现以下几幅图片:
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢