视觉产生
一、定义
通过一个/一系列视觉过程,产出新的视觉表达
产出:人或机器能够感知的图像视频,而不是标签火特征;
要求:新的,和输入的不一样的
在过去我们使用一些视频图像软件来生成他们,但是现在我们希望通过AI来自动生成这些。
视觉生产分类
生成:从0到1
拓展:从1到N
摘要:从N到1
升维:从An到An+1
增强/变换:从A到B
插入/合成:A+B=C
擦除:A-B=C
视觉生产通用框架
视觉生产五个关键维度
1.(可看)满足视觉/没学表现
2.(合理)合乎语义/内容逻辑
3.(多样)保证结果的多样性
4.(可控)提供用户预期的抓手
5.(可用)带来用户/商业价值
二、精细理解
分割抠图
1. 识别:知道是什么
例:人的识别、物的识别
2. 检测:识别+知道在哪
例:缺陷检测、多目标检测
3. 分割:识别+检测+知道每一个像素是什么
视觉分割是生产的必要前置步骤
例:全景分割、病灶分割
分割抠图难点
复杂背景
遮挡
边缘反色
透明材质
多尺度目标
精细抠图
主要问题:数据严重不足,标注成本高
解题思路:
**1. 复杂问题拆解:粗mask估计+精准matting
- 丰富数据样本:设计图像mask统一模型**
分割抠图模型框架
3.视觉生成—从无到有
视觉生产—框架流程
下面是一些例子:
鹿班场景智能美工
鹿班行业设计
视觉生产—AlibabaWood(短视频生成)
视频生成—框架流程
4.视觉编辑—移花接木
例1. 视频植入
视觉编辑—视频内容擦除
5.视觉增强—修旧如新
**例1. 人脸修复增强
例2. 渲染超分
例3. 视频超分
例4. 视频插帧
例5. HDR色彩拓展
例6. 风格迁移**
例7. 颜色拓展
6.视觉制造—由虚入实
实体设计制造缺点:
**效率低:多次打样,多次沟通(平均升级时间长)
协同差:设计、有效、生成脱节
定制难:无法实现柔性生产**
AI视觉核心逻辑:
解决方案示例:神荼