实现批量数据增强 | keras ImageDataGenerator使用

微信公众号：AI算法与图像处理

内容目录

什么是数据不均衡问题这里简单说明一下，重点是操作和应用：1、数据不均衡问题2、常见的解决方法函数说明准备工作功能说明参数说明参数完整代码效果展示总结

什么是数据不均衡问题

这里简单说明一下，重点是操作和应用：

1、数据不均衡问题

在大部分情况下，我们认为不同类别的数据是均匀分布的，很多算法也是基于这个假设，但是在真实的情况下，往往都不是如此的。例如，机器发送故障的情况是我们想要预测的，但实际上故障的概率是很低的，所以导致故障的样本量很少，即使你将所有的预测结果都设置为正常，准确率依然很高，但这个模型是一个没有用的模型，这种类似的例子是非常常见的。

2、常见的解决方法

解决的方案很多，主要从两个方面考虑（面试的时候可能会问）

在项目中，我们可能没那么多时间去思考从算法方面去解决，更多的时候想的是能用就行，但是网上很多的例子很多是基于内置的数据，这是非常让人难受的，或者是基于一张图片进行数据增强，很痛苦。更一般的情况是，对训练集下的某一个文件夹的所有图片进行数据增强，这就是我写这个的理由。

函数说明

准备工作

所使用的环境

功能说明

1）ImageDataGenerator 图片生成器

参数说明

备注：对于单张图片的数据增强，可以参看ImageDataGenerator和flow的使用说明

from keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(
        rotation_range=40,
        width_shift_range=0.2,
        height_shift_range=0.2,
        rescale=1./255,
        shear_range=0.2,
        zoom_range=0.2,
        horizontal_flip=True,
        fill_mode='nearest'，
        cval=0,
        channel_shift_range=0,
        horizontal_flip=False,
        vertical_flip=False,
        rescale=None)

参数

rotation_range：整数，数据提升时图片随机转动的角度

2）flow_from_directory

gen = datagen.flow_from_directory(
                           path,
                           target_size=(224, 224),
                           batch_size=15,
                           save_to_dir=dst_path,#生成后的图像保存路径
                           save_prefix='xx',
                           save_format='jpg')

for i in range(6):
    gen.next()
"""
path:文件读入的路径，必须是子文件夹的上一级（这里是个坑，不过试一哈就懂了）
target_size:图片resize成的尺寸，不设置会默认设置为（256.256）
batch_size:每次输入的图片的数量，例如batch_size=32，一次进行增强的数量为32，
个人经验：batch_size的大小最好是应该和文件的数量是可以整除的关系
save_to_dir:增强后图片的保存位置
save_prefix:文件名加前缀，方便查看
save_format:保存图片的数据格式
产生的图片总数：batch_size*6（即range中的数字）
"""

完整代码

from keras.preprocessing.image import ImageDataGenerator

path = 'E:/C3D_Data/train' # 类别子文件夹的上一级
dst_path = 'E:/C3D_Data/train_result'
# 　图片生成器
datagen = ImageDataGenerator(

    rotation_range=5,
    width_shift_range=0.02,
    height_shift_range=0.02,
    shear_range=0.02,
    horizontal_flip=True,
    vertical_flip=True
)

gen = datagen.flow_from_directory(
                           path,
                           target_size=(224, 224),
                           batch_size=15,
                           save_to_dir=dst_path,#生成后的图像保存路径
                           save_prefix='xx',
                           save_format='jpg')

for i in range(6):
    gen.next()

效果展示

总结

1、能基本实现我们需要的数据增强的要求

这里需要强调一点，ImageDataGenerator里面应该是每一张图片进去都会随机有可能受到所有的操作（例如裁剪，旋转等）的作用

希望每一篇用心写的推文都能帮助到你，可能你已经是大神了，这些对你没啥用，但是这却是新手一开始都会遇到的难题，不想大家因为一点小小的挫折就放弃，所以推文一方面是记录自己真实遇到的坑，另一面也希望能够提升自己的表达能力。

代码已经更新到：https://github.com/SCUTPZW/AI_study/tree/master

希望能够得到你们一颗真心的star（还没被点过）

实现批量数据增强 | keras ImageDataGenerator使用

END

实现批量数据增强 | keras ImageDataGenerator使用

实现批量数据增强 | keras ImageDataGenerator使用

内容目录

什么是数据不均衡问题

这里简单说明一下，重点是操作和应用：

1、数据不均衡问题

2、常见的解决方法

函数说明

准备工作

功能说明

参数说明

参数

完整代码

效果展示

总结

继续阅读

Kafka：Topic概念与API介绍

5G小型蜂应用指南

PAT (Advanced Level) Practise 1012 The Best Rank (25)

mysql5.7的sql优化

线程通信和进程通信区别（线程进程区别）

Matlab随机波动率SV、GARCH用MCMC马尔可夫链蒙特卡罗方法分析汇率时间序列

微信小程序前端解密获取用户信息

Spring MVC 自学杂记（五） -- SpringMVC与前台的json数据交互

《MySQL技术内幕：InnoDB存储引擎》笔记

扩容TIKV节点遇到的坑

PHP辅导代做编程：CS353 Database System

自学Zabbix3.10.2-事件通知Notifications upon events-Actions报警配置点击返回：自学zabbix集锦

HDU 5678 ztr loves trees

拓端tecdat|R语言弹性网络Elastic Net正则化惩罚回归模型交叉验证可视化

二叉树及其应用--二叉树创建

详解STM32单片机的堆栈