Learning Invisible Markers for Hidden Codes in Offline-to-online Photography 论文笔记

Learning Invisible Markers for Hidden Codes in Offline-to-online Photography 论文笔记

本文的主要贡献如下:

  1. 提出一种不可见的信息隐藏结构,包括编码器、定位网络、矫正、解码器四个部分。
  2. 第一次在端到端的框架中加入了隐形定位标记模块。编码器和定位网络联合训练生成人眼不可见的定位标记,在不破坏视觉效果的情况下大大减少矫正几何失真的时间。
  3. 提出一种有效的多阶段训练策略,设置了一系列损失函数,使得包含的隐藏信息对于人眼来说是不可见的。

包含定位网络的信息隐藏结构

  1. 编码图像是原图像的某一个区域,M=256,N=96。将数据矩阵和编码图像放入U-net中编码,得到水印图像,然后覆盖原图像中编码图像的区域。
  2. 加入扰动后,图像会有所畸变。
  3. 将加噪图像放入定位网络后,会预测出编码图像区域。
  4. 提取出编码图像,再放入解码器U-net中,从而解码出数据矩阵。

定位网络(HRNet)

  • 输入是一个256*256的图片,该图片有一个96*96的四边形区域,以这四个顶点为中心生成2D高斯分布,得到目标热力图(64*64)。
  • 该定位网络使用的HRNet包括四个不同规模的并行子网络(上图只展示了三个并行子网络)。为了监控模型预测,将预测的四个点坐标转化为64*64的预测热力图,计算与目标热力图的MSE损失。
  • 最后用预测热力图生成预测顶点,用逆透视变换得到96*96的目标图像。

多阶段的训练策略

第一阶段:只优化定位网络和解码器。定位损失函数是目标顶点热力图和预测顶点热力图的MSE。解码损失是目标数据矩阵和预测数据矩阵的交叉熵损失。

第二阶段:加入视觉损失。视觉损失包括编码图像与原图的l2损失和lpips的感知损失。

第三阶段:消除编码图像覆盖到原图像后产生的可见边界。是通过一个权重矩阵来实现的,该权重矩阵靠近图像边界权重越大,靠近图像中心权重越小。

总结

优点:

  1. 视觉质量好。PSNR达到32.95,SSIM达到0.9677。
  2. 直拍下定位精度高,数据矩阵恢复正确率高。
  3. 由于定位网络的存在,不需要人工选择图像四角,更加智能。

缺点:

  1. 抗噪能力弱,拍摄环境稍微恶劣一点,定位精度就会显著下降,完全不抵抗JPEG压缩。
  2. 恢复正确率非常依赖定位网络的发挥,参照第一点,恶劣拍摄环境下信息恢复效果差。
  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.

扫一扫,分享到微信

微信分享二维码
  • Copyrights © 2020-2023 YYz
  • Visitors: | Views:

请我喝杯咖啡吧~

支付宝
微信