亚太娱乐平台报道一键实现图像、视频卡通化,GAN 又进化了_亚太娱乐平台官网资讯

来自:CSDN 2020-08-07

作者 | Xinrui Wang, Jinze Yu

译者 | 刘畅

出品 | AI 科技大本营(ID:rgzani100)

卡通喜好者的福利来了。

现在,通过在 Cartoonize 这个应用上一键上传你拍摄的图像或视频,就能够在很短时间内将它卡通化。其核心技术来自 CVPR 2020 的通宝官网 客户端下载论文,作者的背景是字节跳动和东京大学,他们提出了用白盒卡通表征实现图像卡通化。

当前,这项工作已在 GitHub 获得 1400 个 Stars。作者称,他们还计划很快将开源一切代码。下一步,他们的目的是通过将模型移植到 tensorflow.js 来适应实时视频推理。

GitHub 链接:

//github.com/SystemErrorWang/White-box-Cartoonization

来看看这项工作的卡通化效果。

很有卡通化的味道吧?

视频卡通化的效果也能够。

当然,如果你想在这款应用上上传你拍摄的bet365网上娱乐 下载地点或视频来进行卡通化,这是地点:

//cartoonize-lkqov62dia-de.a.run.app/cartoonize

以下是详细的论文内容解读:

本文提出了一种将图像卡通化的方法。通过观察卡通绘画行为并咨询卡通艺术家,本文提出能够从图像中分别识别三个白盒表示:一是卡通图像腻滑外貌的轮廓表示,二是针对稀疏色块和全局内容的结构表示,三是在卡通图像中反映高频纹理,轮廓和细节的纹理表示。作者使用生成抵抗网络(GAN)框架来学习提取的表示并将图像卡通化。

本文方法的学习目的是分别基于每个提取的表示,从而使本文的框架可控和可调整。这使本文的方法能够满足差别风格和差别用处的艺术家的要求。最后,对本文方法进行了定性和定量的比较分析,以及用户研究,以验证这种方法的有效性。结果是本文方法在一切比较中均优于之前的方法。最后,消融实验表明了本文框架中每个局部的作用。

引言

卡通是一种流行的艺术形式,且已普遍应用于各种场景。尊龙国际娱乐 体验金卡通动画工作流程同意艺术家使用各种资源来创作内容。通过将真实世界的bet365网上娱乐 下载地点转换为可用的卡通场景素材,发明了一些著名的漫画,该进程称为图像卡通化。

各种卡通风格和用处需要基于特定任务或者先验知识才能开拓可用的算法。例如,某些卡通工作流程更加关切全局调色板主题,但是线条的清楚度却是次要问题。在别的一些工作流程中,稀疏和洁净的色块在艺术表示中起着主导作用,但是主题却相对较少强调。

这些变量因素给黑盒模型带来了不小的挑战,例如,当面对差别用例中艺术家的差别需求时,简单地更改训练数据集是无济于事的。因此有了用于图像卡通化的 CartoonGAN 网络,其中提出了一种具有新颖边缘损失的 GAN 框架,并在某些情况下取得了良好的效果。但是,使用黑盒模型直接拟合训练数据会降低其通用性和风格化质量,在某些情况下会导致较差的效果。

为了解决上述问题,本文对人们绘画的行为和差别风格的卡通形象进行了大批的观察,并咨询了少数几位卡通艺术家。依据本文的观察结果(如上图所示),本文建议将图像分解为几种卡通表征方式,并将它们列出如下:

第一步:提取一个带权重的低频内容表示bet365网上娱乐 下载地点的轮廓特征(surface representation)。这个低频内容保留了边缘 / 纹理等细节。这与艺术家画卡通时通常先描绘形状类似。

第二步:针对输入图像,提取一个分割图,并且在每个分割地区上使用一个自适应的色彩算法来生成结构表征(structure representation)。这是仿照画卡通画时,边界清楚且色块稀疏的胶片(celluloid)风格。

第三步:纹理表征(texture representation)是用来坚持绘画细节和边缘的。将输入图像转换为仅保留相对像素强度的图像,然后引导网络独立地学习高频纹理细节。这与艺术家素描与上色是独立的两个进程类似。

单独提取的卡通表征形式使卡通化问题能够在生成神经网络(GAN)框架内进行端到端的优化,使其可扩展和可控,更加适用于实际的使用场景,并能够针对特定任务进行微调以轻松满足多样化的艺术需求。本文在各种风格差别的场景中测验了本文的将真实bet365网上娱乐 下载地点卡通化的方法。

实验结果表明,该方法能够生成色彩和谐,令人愉悦的艺术风格,清楚锐利的边缘以及显著更少的伪影。本文还显示,通过定性定量的实验和用户研究,本文方法是优于之前的最新方法。最后,本文进行了消融实验以说明每种表征方式的作用。最后,本文的贡献如下:

依据对卡通绘画行为的观察,本文提出了三种卡通表示:轮廓表示,结构表示和纹理表示。然后引入图像处置模块以提取每个表示。

在提取表示的指导下优化了基于 GAN 的图像卡通化框架。用户能够通过平均每个表示的权重来调整模型输出的样式。

已经进行了普遍的实验,表明我们的方法能够生成高质量的卡通图像。我们的方法在定性比较,定量比较和用户偏幸方面均优于现有方法。

方法

图 4 显示了本文提出的图像卡通化框架。它将图像分解为轮廓表征,结构表征和纹理表征,并引入了三个独立的模块来提取相应的特征表示。GAN 的框架包含了一个生成器和两个判别器。一个判别器是区分卡通图的输出和轮廓特征,另一个判别器是区分卡通图的输出和纹理特征。预训练的 VGG 网络用于提取高级特征,并对提取的结构表示和输出之间以及输入bet365网上娱乐 下载地点和输出之间的全局内容施加空间约束。损失函数中每局部内容的权重都能够调整,这使用户能够操纵输出样式并使模型适应各种用处。

轮廓表征

作者定义了一个网络 F_dgf,以bet365网上娱乐 下载地点 I 为输入,并以它自己为 guide map,输出提取的去掉纹理和细节的外观特征 F(I,I)。同时定义了一个判别器 D_s,用以推断真实图和卡通图的输出分布是否一致。损失函数就是经典的 gan 的损失函数,如下,其中 Ic 为输入的卡通图,Ip 为真实图。

结构表征

一般超像素算法会把每个地区用地区内的均值来填充,但是作者通过实验发现这样效果不好。因此作者使用了改进的算法,他把算法称之为 "adaptive coloring",本来就是一个分段函数:

结构损失如下,其中 VGG_n 是使用 VGG16 预训练好的提取bet365网上娱乐 下载地点特征的网络,F_st 为专门处置结构损失的网络。

纹理表征

作者认为亮度和颜色信息会使人很容易分辨真实和卡通bet365网上娱乐 下载地点,因此在学习纹理特征的时刻,作者把 RGB 图转为了单通道的图,这样就排除了亮度和颜色信息的影响。

Frcs 公式如上图所示,把 RGB 三个通道分开处置,Y 表示的是 RGB 图转化成的灰度图。在本实验中 α 等于 0.8,而 3 个 β 值则在 -1~1 之间随机。此处也定义了一个 D_t 判别器,来推断通过 F_rcs 后的输出是来自生成器生成的还是动漫图。如下所示:

总的损失函数如下:

其中 TV 损失是为了降低总方差,能够促进生成图像的腻滑,并减轻高频的噪音。公式如下:

content 的损失是为了让通过生成器后的真实图语义稳定,这里也用到了预训练后的 VGG。

实验

本文算法是基于 tensorflow 实现的,代码已开源。训练的超参基本都是常规的训练参数,而 loss 权重的超参是基于对训练集的统计确定的。作者对模型的性能和效果均做了分析,效果如下,本文算法在对角的算法中,是最高效的。

下图效果展示了本文算法的泛化能力,能够处置多种纷乱的真实场景,包含人、动物、植物等。

接下来作者做了消融实验,以 FID 为评价标准,结果如表格 2 所示。计算出的 FID 度量标准表明,卡通表征是有助于缩小现实世界的图像和卡通图像之间的距离,因为与原始图像相比,一切三个提取的卡通表征都具有较小的 FID。

图 10 是显示消融实验中,每个特征表示的结果。图 8 展示了本文算法的可调控性。结果显示能够通过在损失函数中调整每个特征表征的权重来调整卡通化结果的样式。

图 9 与表格 3 是本文算法与其它算法定性定量的对角。能够看出,本文算法是更优的。

结论

本文中,作者提出了一种基于 GAN 的白盒可控的图像卡通化框架,该框架能够从真实图像中生成高质量的卡通化图像。输入图像被分解为三个卡通表征:轮廓表征,结构表征和纹理表征。然后使用相应的图像处置模块来提取用于网络训练的三个表征,并且能够通过调整损失函数中每个表征的权重来操纵输出风格。最后进行了普遍的定量和定性实验,验证了本文方法的性能。同时消融实验也证明了每个特征表示带来的作用。

论文链接:

//systemerrorwang.github.io/White-box-Cartoonization/paper/06791.pdf

更多精彩推举

开源激荡 20 年:IT 江湖,谁主沉浮?

每个创始人都需要了解的来自 Y Combinator 的 13 个见解

那个从深圳流水线去了纽约做程序员的女工,最近失业了

没想到!!Unicode 字符还能这样玩?

亚太娱乐平台说机器学习是预防欺骗的最佳工具?

区块链是工业 4.0 的领引者

点分享

点点赞

点在看