小小前端如何在AIGC领域“乘风破浪” - 阿里技术

阿里妹导读

作者从7月份开始做AIGC相关的项目有了一些感触和经验总结分享给大家,生成图片的质量提升一方面来自于AIGC领域大模型和开源插件的飞速发展,一方面来自对于生成路线和参数的理解加深。

你以为的乘风破浪 实际上的“乘风破浪”不是在阳光☀️、沙滩🏖️上欣赏美图,而是在波涛汹涌的大海上狂风暴雨中瑟瑟发抖。前言

从7月份开始做AIGC相关的项目,至今已经4个月了。在整理生成文档时,可以明显的看到生成的图像质量有了很大的提升,突然有了很多感触,生成质量的提升一方面来自于AIGC领域大模型和开源插件的飞速发展,一方面来自对于生成路线和参数的理解加深。因此,想对于这几个月的项目内容和生成经验做一些总结。 原图 7月份生成图 10月份生成图

Cyber项目简介

Cyber是技术平台发起的一个专注于AIGC工程化的内部项目,包括生成流程Maas能力输出、模型训练、部署、测试等一系列解决方案。目前在AI模特方向和智能背景生成上技术相对比较成熟。

AI模特

##### 应用场景:

AI模特的生成可以to B也可以to C。to B可以帮助商家减少商拍成本,提高拍摄效率,只要商家提供若干张平铺的服装、或者穿在假人上的服装、或者是真人穿着的服装,就可以按需生成不同人种模特、不同背景的商品图。to C也有很多玩法,像妙鸭相机、AI试衣间等。##### 技术方案类型:

类型 SD Lora SD impainting Midjourney垫图 VITON/tryon GAN tryon Diffusion
适用范围及简介 平铺类服装需要输入多件训练,输出不能保证完全相同用户等待时间长 人台/真人穿着服装能够保证服装细节/图案完全一致 颜色+款式简单的服装mj生成模特效果比较自然,badcase少。但是无法保证服装细节完全一致。 上一代炼丹炉开源可以实现多角度、多形体 新一代,基于扩散模型,基于2个UNet的diffusion模型暂未开源,谷歌出品论文数据表明效果好于VITON/tryon GAN等
效果概览:
商家原图
Cyber生成图

智能背景

##### 应用场景:

智能背景一般针对静物,对于电子类、家居类、饰品、化妆品等进行背景美化。通过对商品进行品类匹配,推荐对应的AI背景。这个能力可以说是商家接受度比较高,使用频次比较高的场景,一般都是自动/手动抠图+画布定位+sd impainting+图像编辑。##### 效果概览:

商家原图(白底图+牛皮藓)
Cyber生成图

现阶段体验

行业现状

(the Industry Chain of AIGC,from AI-Generated Content (AIGC): A Survey)AI行业上游包括数据标注、数据供应、开源算法、电脑硬件等行业;中游则是云计算、效能提升、实时交互领域,例如谷歌、openAI等大型科技公司 ;下游则是内容生成平台、内容分发平台、内容检测平台等行业。大众还在兴奋狂欢抑或是抗拒时,行业巨头们已经完成了相关布局。不管用户接受度进展如何,芯片、云服务行业也已经实打实赚到了AIGC第一桶金。

用户接受度

AIGC火了之后,不一定每个人都用过aigc,但是大部分人可能都看过AI的生成结果。有人凭借AIGC创建个人IP成为博主,有人凭借一眼鉴AI diss AIGC成为博主。那么,对于电商领域用户是否能够接受AI生成的图呢?是否可以对于用户的购买决策起正向引导的作用呢?这个问题可能还需要时间和数据来回答,根据现有的数据,美化后的图片的确从一定程度上提高了点击量。也期待更多国内外电商行业内的AIGC数据共享。社交媒体正面关注 在社交媒体上上传AIGC生成的图片内容、AIGC生成教学等,都有不少博主取得了不错的关注度。现在也有很多AI主播,AI IP等,又美又不会翻车,还能24小时上班,谁能不爱!社交媒体负面评价 也会看到一些负面评价,主要担忧AIGC图片引起的版权问题,或者电商领域货不对板的问题。

灵魂发问前端在AIGC领域能干嘛?

为生成效果负责
因AIGC而出现的工作,一般前端可以负责前期的技术调研,设计师进行风格扩展(1)探索AI图像生成流程,针对不同类型业务场景输出稳定的生成工作流(AI模特生成流程示意图)(2)探索多领域AI生成,如宠物、二次元、视频等生成方式 古风 二次元 动物 GIF 静物 风景 LOGO 真人 壁纸
开放组件(生成交互/图像处理/图层合并/画布拖动/手动抠图等)、工程化产品

AI领域特有组件,如抠图、3d openpose编辑器、图像处理编辑器、画布拖动合图等AIGC相关组件将会整理并发布在《Cyber前端组件接入文档》中,多探索AIGC领域更丝滑的用户交互几个想法

版权问题引起的创意枯竭

作为野蛮生长的新兴领域,大家的使用场景和生成作品天马行空。但是毫无疑问,AI生成的大模型训练数据依赖现有的数据沉淀。如果大家都走AIGC生成的捷径,谁还会耐心的耗费大量的时间和心血进行创新,创造新的属于人类的知识财富。当然这个问题早已引起了很多关注,很多版权相关的限制已经出来,这个行业也会越来越规范。

审美疲劳

完美导致的不完美,和项目组的设计同学沟通也是有类似感受。看多了AIGC的图,会有一定程度的审美疲劳,分不出美丑。这也让我想到,真实世界正是因为其多元化才会充满吸引力和创造力。

工作机会变少还是变多

AIGC的出现,让很多行业感受到了威胁,岗位减少、门槛变高。也会有设计师将AI作为一个很好的创意提效工具,创作出让人耳目一新的作品。在C站看到很多利用photoshop+sd+midjourney+dall-e组合生成+后期的图/视频,非常惊艳。在AIGC的世界,大家不再是求图,而是求生产图片的工作流。

6