给 Crop-CLIP 一个口令,就能自动搜图,还能帮忙裁剪出图片中的关键部分。
项目地址:https://github.com/vijishmadhavan/Crop-CLIP
在线试用地址:https://huggingface.co/spaces/Vijish/Crop-CLIP





检测和裁剪对象 (yolov5s)
使用 CLIP 对裁剪后的图像进行编码
使用 CLIP 编码搜索查询
找到最佳匹配部分






Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
给 Crop-CLIP 一个口令,就能自动搜图,还能帮忙裁剪出图片中的关键部分。
项目地址:https://github.com/vijishmadhavan/Crop-CLIP
在线试用地址:https://huggingface.co/spaces/Vijish/Crop-CLIP
检测和裁剪对象 (yolov5s)
使用 CLIP 对裁剪后的图像进行编码
使用 CLIP 编码搜索查询
找到最佳匹配部分
现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。
(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。