人工智能内容生成元年—AI绘画原理解析_ai绘画技术原理-程序员宅基地

技术标签: 计算机视觉  人工智能  深度 学习论文与相关应用  AIGC  AI作画  

AIGC体验生成

  团队模型、论文、博文、直播合集,点击此处浏览

、背景

        2022年AIGC(AI生成内容)焕发勃勃生机,大有元年之势,技术与应用迭代都扎堆呈现。在各种新闻媒体处可以看到诸多关于学术前沿研究,以及相应落地的商用案例可谓出现了现象级的学术-商业共振。以往学术研究内容离商用一般较远,因为学术研究相应实验数据通常为闭集即固定数据场景,而商业应用则为开集即非固定数据场景(能见到各式各样、甚至乱七八糟的数据)。所以将学术研究内容转化为商业应用的时候,就需要以工匠精神去做产品化设计与迭代,主要目的就是不断提升其可用性以达到商业化标准(避免出现不符预期、甚至乱七八糟的结果)。

        但AIGC领域似乎大大缩短了这一转化进程,尤其以近期短时间内爆火的AI绘画、AI作画类应用为代表。这无疑是人工智能发展至今的巨大胜利时刻,这能建立极强、极快的螺旋式发展迭代循环,商业应用上的不足点能迅速反馈至学术研究侧,学术研究侧的优化改进也能迅速体现到商业应用侧,拉满学术研究能获得的成就感。接下来的篇幅将介绍现有AI绘画、AI作画背后的相应基本原理、应用、以及论文参考文献。更多技术与应用的有趣想法欢迎评论区留言

原理

技术脉络归纳:

        在AI内容生成制作爆火的2022元年在其基础框架技术部分,技术演进的脉络可以看作是不断寻找更可靠的特征域建模方式,亦可看作是不断寻找更合适的借鸡生蛋方式的过程。原始图像域的特征维度是很高的,直接来建模会有维度灾难的问题。需要不断找到可行的中间域来做对齐:

1.)CLIP可以看作是图像域与文本域特征对齐的大一统技术框架,文本域的原始特征空间跟原始图像域的特征空间比是相对更小的。所以在同等维度特征的表达下,文本相比图像是能更加容易被刻画好的,所以当align文本域特征到图像域特征时,图像域特征表达将无疑得到了更佳的富有语义的监督信号。这样获得更好的效果也就很自然了。

2.)diffusion可以看作是将原始图像域建模转变为噪声域建模的方法。噪声域有两个极大的好处:首先,它的特征空间比原始图像域要小的多,非常容易建模。其次,即使噪声域建模效果没能接近完美,它所呈现出来的差异也是噪声域的差异,而这个噪声差异在图像内容域上对人眼来说往往注意不到。所以从基本原理上来说,diffusion生成的图像细节无疑是会远远优于gan的。

基础技术部分:

        基础技术框架上大致可以分成如下几个标志性的阶段:

a)GAN阶段

        原理摘记生成与对抗网络图像特征域对齐,示意图如论文[1]中图所示:

b)Transformer阶段

        网络由self-Attenion和Feed Forward Neural Network组成,强力的文本、图像(ViT系列)编码网络框架。示意图如论文[3]中图所示:

c)CLIP阶段

        图像文本域特征对齐。基于文本、视觉transformer encode统一框架,训练阶段4亿文本图像配对数据训练至少100卡月V100。示意图如论文[4]中图所示:

d)Diffusion阶段

        原始图像特征域对齐转变为图像噪声域对齐。基于参数化马尔科夫链框架实现。示意图如论文[5]中图所示:

演化技术部分:

a)StyleGan

        基于adain思想,额外学习高斯分布到风格空间w的映射,然后风格空间的变量作用于合成网络中。示意图如论文[2]中图所示:

b)DALL-E 1

        网络可理解为VQVAE + Transformer。示意图如论文[6]中图所示:

c DALL-E 2

        网络可理解为CLIP + Diffusion。示意图如论文[7]中图所示:

d)Stable Diffusion

        网络可理解为VAE + CLIP + Diffusion + Unet,引入LDM等加速手段,显著降低计算复杂度。示意图如论文[8]中图所示:

三、应用

        目前可以看到,诸如文生图、图生图、图像编辑、图像修复、图像拓展等应用功能都已实现,国内的AI绘画特效类应用也结合国风、动漫等风格有了非常广泛的应用,这里面既有大厂也有创业公司等玩家的加入。于此同时,对创意行业设计者来说,AI绘画也正演变为最佳助手,大幅提高创意行业的生产效率。相应应用介绍如下:

1.) Disco Diffusion:CLIP + Diffusion。https://github.com/alembics/disco-diffusion。

2.) Stable Diffusion:https://github.com/Stability-AI/stablediffusion。

3.) Stable Diffusion 2:显著提升图像质量,采用LAION-5B 58.5亿个图像文本对,增加NSFW做了内容过滤。https://huggingface.co/stabilityai/stable-diffusion-2 。

4.) Imagic : gan DALL-E 2,基于扩散模型的真实图像编辑方法,用文字就能实现真实照片的 PS,比如让一个人竖起大拇指、让两只鹦鹉亲吻。示意图如论文[9]中图所示:

5.) Imagen:更强力的语言模型能获得更逼真的画作效果。相较于视觉部分模型来讲,语言模型size越大带来的画作逼真性越大。示意图如论文[10]中图所示:

6.) DreamBooth: 对输入图像中的主体能进行相应输入文本语义下的内容生成。示意图如论文[11]中图所示:

7.) Midjourney : https://midjourney.gitbook.io/docs。在美国科罗拉多州举办的艺术博览会,《太空歌剧院》的画作获得数字艺术类别冠军

四、文献

[1]Gan:https://arxiv.org/abs/1406.2661

[2]StyleGan:https://arxiv.org/abs/1812.04948

[3]Transformer: https://arxiv.org/abs/1706.03762

[4]CLIP:https://arxiv.org/abs/2103.00020

[5]Diffusion:https://arxiv.org/abs/2006.11239

[6]DALL-E 1:https://arxiv.org/abs/2102.12092

[7]DALL-E 2:https://arxiv.org/abs/2204.06125

[8]Stable Diffusion: https://arxiv.org/abs/2112.10752

[9]Imagic:https://arxiv.org/abs/2210.09276

[10]Imagen:https://arxiv.org/abs/2205.11487

[11]DreamBoothhttps://arxiv.org/abs/2208.12242

五、应用

        接下来给大家介绍下我们研发的各个域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/sunbaigui/article/details/128167000

智能推荐

运动耳机哪个品牌好?2022年值得入手的运动耳机推荐-程序员宅基地

文章浏览阅读150次。音质的表现还是很不错的,声音很清晰,听感有很大改善。越来越多人加入了运动中,运动不仅可以释放压力,还能加快新陈代谢,身体更加健康,当然,随着耳机越来越各样化,越来越难挑选,大家都不知道怎么找了,一款好的耳机其实并不难找,一般挑选耳机首先需要看它的防水性能高不高,高防水的耳机可以延长耳机的寿命,并且佩戴起来要稳固,运动的时候不会轻易甩掉,最后是音质的表现,下面我给大家分享几款还不错的运动耳机,看看有没有您喜欢的那款。采用的蓝牙5.0芯片,确保连接可以稳定,它的防水性能支持IPX4级,日常汗水是可以抵御的。

一种图像增广(Image Augmentation)方式 Mix Up 算法 附有代码解析_mix up增光-程序员宅基地

文章浏览阅读9.3k次,点赞3次,收藏33次。这是对facebook研究团队的一篇文章 Mixup: Beyond Empirical Risk Minimization 的解读这篇文章相对于之前提到的Sample pariring来说就不那么神奇了,因为毕竟文章作者在里面有一些相关理论的推导。文章开头通篇讲的是ERM也就是经验风险最小化原则是整个机器学习遵循的原则,作者正是基于此思想才提出了MixUp的方法。在一般的机器学习任务中,比如..._mix up增光

MATLAB 1-程序员宅基地

文章浏览阅读67次。short,long,shortE,longE,bank(两位),hex(十六进制),rat (分数)5.关键字:ans,i,j(虚数),inf(正无穷),eps,nan(未定式),pi。5.k=find(条件,n),返回满足条件的非零的前n个坐标。3.B=find(A==x),返回所有等于x的位置的编号。a(行,:)或a(:,列),冒号表示这一行或列的所有。2.[X,Y]=find(A),返回A非零的行和列。4.[X,Y]=find(A==x),返回行列。1.B=find(A),返回A中非零数的编号。

Week2实验C题 打牌_第一行输入两个整数,代表牌的数量n和牌面值之和的限制max-程序员宅基地

文章浏览阅读197次。题目:牌局由四个人构成,围成一圈。我们称四个方向为北 东 南 西。对应的英文是North,East,South,West。游戏一共由一副扑克,也就是52张构成。开始,我们指定一位发牌员(东南西北中的一个,用英文首字母标识)开始发牌,发牌顺序为顺时针,发牌员第一个不发自己,而是发他的下一个人(顺时针的下一个人)。这样,每个人都会拿到13张牌。现在我们定义牌的顺序,首先,花色是(梅花)<(方..._第一行输入两个整数,代表牌的数量n和牌面值之和的限制max

mtk 平台 TP 驱动框架对复位和中断的封装_mtk tp gpio-程序员宅基地

文章浏览阅读264次。介绍 mtk 平台 TP 驱动框架对触摸 IC 复位和中断的封装,并以 focaltech IC 为例介绍 TP 驱动对 TP 驱动框架的使用。_mtk tp gpio

从武汉远程医疗方案看,5G战“疫”是噱头还是福音?_武汉中国移动疫情5g远程诊疗-程序员宅基地

文章浏览阅读862次。新型冠状肺炎疫情爆发后,短时间增加数万病患,尤其是湖北地区。这不论是对患者识别、会诊、救治,还是对医院医生护士的检查、消毒、照顾、防护等工作,都带来巨大挑战。如今在抗疫进入攻坚阶段的重要时刻,我们必须尽可能避免接触行为,减少病毒传播,但人们又不能停止沟通,许多工作还要加速开展。所以,国家提倡科技战“疫”。5G这个热门技术,就在此次战“疫”工作的多个环节亮相。值得一提的是,三大运营商以及华为等企业,提供了5G智慧医疗、5G无人车等解决方案,增援湖北火神山医院和雷神山医院。这些方案被认为可以提高医救效率,减轻一_武汉中国移动疫情5g远程诊疗

随便推点

[译]Kinect for Windows SDK开发入门(五):景深数据处理 下-程序员宅基地

文章浏览阅读60次。1. 简单的景深影像处理 在上篇文章中,我们讨论了如何获取像素点的深度值以及如何根据深度值产生影像。在之前的例子中,我们过滤掉了阈值之外的点。这就是一种简单的图像处理,叫阈值处理。使用的阈值方法虽然有点粗糙,但是有用。更好的方法是利用机器学习来从每一帧影像数据中计算出阈值。Kinect深度值最大为4096mm,0值通常表示深度值不能确定,一般应该将0值过滤掉。微软建议在开发中使用1220...

JavaScript 总结【面试笔记 + 经典面试题 ,超全前端中高级面试复习大纲-程序员宅基地

文章浏览阅读823次,点赞19次,收藏18次。阿里十分注重你对源码的理解,对你所学,所用东西的理解,对项目的理解。CodeChina开源项目:【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】CodeChina开源项目:【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】

python爬虫入门--odoo内应用_odoo爬虫-程序员宅基地

文章浏览阅读506次。此文章向大家介绍一个python入门级爬虫,本人也是初次尝试,如有缺陷,欢迎指正。_odoo爬虫

关于DevExpress2011.1.8版本和NetFramework4.5框架的不兼容问题解决方法-程序员宅基地

文章浏览阅读224次。问题:安装完Vs2012后,发现DevExpress WPF的GridControl控件就不能正常加载了。折腾了好久好久,找控件提供商都解决不了这个问题,报这个错误: ”对类型“DevExpress.Xpf.Grid.GridControl”的构造函数执行符合指定的绑定约束的调用时引发了异常。“解决办法: 经过google查找(不得不说这方面google还是更好!)安..._devexpress 11.1.8

高德地图设置可视区域边界_高德地图设置显示边界-程序员宅基地

文章浏览阅读2.3w次。1、方法介绍2、示例代码 2.1通过include来设置可视区域 2.2通过西南角坐标和东北角坐标来设置可视区域_高德地图设置显示边界

亚马逊云科技 Build On-这可能是我离Amazon最近的一次_亚马逊colab-程序员宅基地

文章浏览阅读4.1k次。在Amazon云服务活动中,你能收到到什么。_亚马逊colab

推荐文章

热门文章

相关标签