神经网络实现image caption

zhanghuiming1215 2018-06-28 10:49:56

大家，现在有没有在研究神经网络实现image caption的，那个网络参数一般都怎么设置比较合理呀，求大神带，自己才疏浅薄

...全文

201 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Torrent_to_Drive 使用深度学习和Flickr-8k数据集进行自动图像字幕。还对Xception模型和Inception模型进行了比较。这是使用卷积神经网络和一种递归神经网络（LSTM）为所有类型的图像生成标题和替代文本的最简单方法。关于图像特征将从在imagenet数据集上训练的CNN模型中提取（请参见下文），然后将特征输入到LSTM模型中，后者将负责生成图像标题。此回购围绕Keras提供的2个模型进行。提取的功能可以在找到使用的数据集可以在找到 Jupyter笔记本可以在找到训练过的模型可以在找到需求和依赖关系可以在找到字幕生成器可以在找到想要贡献？建议，错误报告，错误解决受到高度赞赏，请打开问题和/或PR 建立设置虚拟环境（强烈推荐）激活环境。安装需求，使用pip3 install -r requirements.txt 注意：

文章目录多层递归神经网络LSTMLSTM-反向传播其他rnn 我们将把输入的图像通过卷积神经网络，不过我们不是使用从一个图像网络模型中得到的softmax分值，而是使用末端4096维向量我们将用这些向量来概述整个图像的内容。当我们讨论递归神经网络时，我们必须了解第一个初始化输入，来告诉它开始生成文字。为了添加图像的信息，一种方式是用完全不同的方式整合这些信息，一个简单的方式是加入第三个权重矩阵我们可以生成完整的句子了，一旦我们采样到特殊停止标记，就停止生成。多层递归神经网络 这是一个三层循环的神经网络结构，然后把输入输入，然后在第一层递归神经网络中，产生一系列的隐藏状态

利用深度卷积网络的图像超分辨率 Image Super-Resolution Using Deep Convolutional Networks (2016) 作者C. Dong et al. 摘要：我们提出了一种用于单图像超分辨率（SR）的深度学习方法。我们的方法直接学习低/高分辨率图像之间的端对端映射。该映射被表示为以低分辨率图像作为输入并输出高分辨率图像的深度卷积神经网络（CNN）。我们进一步表明，传统的基于稀疏编码的SR方法也可以看作是一个深层卷积网络。但不同于传统的分别处理每个组件方法，我们的方法联合优化了所有层。我们的深度CNN具有轻量的结构，但展示了最先进的恢复能力，并实现实际在线使用的高速度。我们探索不同的网络结构和参数设置，以实现性能和速度之间的权衡。此外，我们扩展我们的网络，以同时处理三个color channels，并显示了更好的整体重建质量。基于DNN的艺术风格生成算法 A neural algorithm of artistic style (2015) 作者 L. Gatys et al. 可生成图像说明的深度视觉-语义校准模型 Deep visual-semantic alignments for generating image descriptions (2015) 作者A. Karpathy and L. Fei-Fei 显示、注意以及说明：带有视觉注意模型的神经图像说明生成 Show, attend and tell: Neural image caption generation with visual attention (2015) 作者K. Xu et al. 显示和说明：一个神经图像说明生成器 Show and tell: A neural image caption generator (2015) 作者O. Vinyals et al. 用于视觉识别和描述的长期循环卷积网络 Long-term recurrent convolutional networks for visual recognition and description (2015) 作者J. Donahue et al. VQA：视觉问答 VQA: Visual question answering (2015) 作者S. Antol et al. DeepFace：在面部验证任务中接近人类表现 DeepFace: Closing the gap to human-level performance in face verification (2014) 作者Y. Taigman et al. 利用卷积神经网络进行大规模视频分类 Large-scale video classification with convolutional neural networks (2014) 作者A. Karpathy et al. DeepPose：利用深度神经网络评估人类姿势 DeepPose: Human pose estimation via deep neural networks (2014) 作者A. Toshev and C. Szegedy 用于视频中动作识别的双流卷积网络 Two-stream convolutional networks for action recognition in videos (2014) 作者K. Simonyan et al. 用于人类动作识别的3D 卷积神经网络 3D convolutional neural networks for human action recognition (2013) 作者S. Ji et al.

这是图像字幕的教程。这是我正在编写的第一篇，是关于如何使用令人惊叹的PyTorch库自己实现酷模型的。假定具备PyTorch，卷积和递归神经网络的基本知识。如果您是PyTorch的新手，请先阅读PyTorch的和。问题，建议或更正可以作为问题发布。我在Python 3.6使用PyTorch 0.4 。 2020年1月27日：添加了两个新教程的工作代码-和内容客观的为了构建可以为图像生成描述性标题的模型，我们提供了它。为了使事情简单，让我们实现“显示，出席和讲述”文件。这绝不是当前的最新技术，但仍然相当惊人。作者的原始实现可以在此处找到。该模型学习在哪里看。当您逐字生成标题时，可以看到模型的视线在图像上移动。这是有可能的，因为它具有“注意”机制，该机制可以使其专注于图像中与下一个要说的单词最相关的部分。以下是在训练或验证期间未看到的测试图

1、资源内容：DIP & NLP期末大作业-基于ClipCap实现中文Image Caption+源代码+文档说明 2、代码特点：内含运行结果，不会运行可私信，参数化编程、参数可方便更改、代码编程思路清晰、注释明细，都经过测试运行成功，功能ok的情况下才上传的。 3、适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 4、作者介绍：某大厂资深算法工程师，从事Matlab、Python、C/C++、Java、YOLO算法仿真工作10年；擅长计算机视觉、目标检测模型、智能优化算法、神经网络预测、信号处理、元胞自动机、图像处理、智能控制、路径规划、无人机等多种领域的算法仿真实验，更多源码，请上博主主页搜索。 -------------------------------------------------------------------------- -

590

社区成员

254,050

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章