Github地址:https://github.com/librauee/Emojis 作者博客分享:https://www.shangyexinzhi.com/article/421754.html

概述 整个工程可以分为三个模块:

第一个模块是网络爬虫部分,在知乎的表情包相关问答中爬取了 50655 张表情包,这里我采用了一个简单的分布式爬虫,爬取 表情包的链接与通过链接下载图片这两个过程同步进行,下载这一部分利用了多线程进行下载的加速,另外还包含一些简单的数据预处理的过程; 第二个模块是特征提取部分,利用 Inception v3 已经训练好的网络结构,对表情包做特征提取; 第三个模块是表情包聚类部分,利用 K-means 算法做表情包的聚类。

成果展示

聚类完成的表情包: 链接:https://pan.baidu.com/s/1KfnjRA0gGeNg_GVNuy5pKA 提取码:s3rc