Bag-of-words模型入门介绍文章

<a target="_blank" href="http://blog.csdn.net/wsj998689aa/article/details/47089153">一篇给力的bag-of-words模型入门介绍文章</a>

引言

上述这4篇文章对sift算法的原理和c语言实现都做了详细介绍，用sift做图像匹配效果不错。现在考虑更为高层的应用，将sift算法应用于目标识别：发现图像中包含的物体类别，这是计算机视觉领域最基本也是最重要的任务之一。

且原经典算法研究系列可能将改名为算法珠玑--经典算法的通俗演义。改名考虑到三点：1、不求面面俱到所有算法，所以掏炼，谓之“珠玑”；2、突出本博客内算法内容的特色-通俗易懂、简明直白，谓之“通俗”；3、侧重经典算法的研究与实现，以及实际应用，谓之“演义”。

bag-of-words模型简介

bag-of-words模型是信息检索领域常用的文档表示方法。在信息检索中，bow模型假定对于一个文档，忽略它的单词顺序和语法、句法等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的，不依赖于其它单词是否出现。也就是说，文档中任意一个位置出现的任何单词，都不受该文档语意影响而独立选择的。例如有如下两个文档：

1：bob likes to play basketball, jim likes too.

2：bob also likes to play football games.

基于这两个文本文档，构造一个词典： dictionary = {1:”bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”, 8. “games”, 9. “jim”, 10. “too”}。

这个词典一共包含10个不同的单词，利用词典的索引号，上面两个文档每一个都可以用一个10维向量表示（用整数数字0~n（n为正整数）表示某个单词在文档中出现的次数）：

1：[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

2：[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]

向量中每个元素表示词典中相关元素在文档中出现的次数(下文中，将用单词的直方图表示)。不过，在构造文档向量的过程中可以看到，我们并没有表达单词在原来句子中出现的次序（这是本bag-of-words模型的缺点之一，不过瑕不掩瑜甚至在此处无关紧要）。

bag-of-words模型的应用

bag-of-words模型的适用场合

现在想象在一个巨大的文档集合d，里面一共有m个文档，而文档里面的所有单词提取出来后，一起构成一个包含n个单词的词典，利用bag-of-words模型，每个文档都可以被表示成为一个n维向量，计算机非常擅长于处理数值向量。这样，就可以利用计算机来完成海量文档的分类过程。

考虑将bag-of-words模型应用于图像表示。为了表示一幅图像，我们可以将图像看作文档，即若干个“视觉词汇”的集合，同样的，视觉词汇相互之间没有顺序。

图1 将bag-of-words模型应用于图像表示

由于图像中的词汇不像文本文档中的那样是现成的，我们需要首先从图像中提取出相互独立的视觉词汇，这通常需要经过三个步骤：（1）特征检测，（2）特征表示，（3）单词本的生成，请看下图2：

图2 从图像中提取出相互独立的视觉词汇

通过观察会发现，同一类目标的不同实例之间虽然存在差异，但我们仍然可以找到它们之间的一些共同的地方，比如说人脸，虽然说不同人的脸差别比较大，但眼睛，嘴，鼻子等一些比较细小的部位，却观察不到太大差别，我们可以把这些不同实例之间共同的部位提取出来，作为识别这一类目标的视觉词汇。

而sift算法是提取图像中局部不变特征的应用最广泛的算法，因此我们可以用sift算法从图像中提取不变特征点，作为视觉词汇，并构造单词表，用单词表中的单词表示一幅图像。

bag-of-words模型应用三步

接下来，我们通过上述图像展示如何通过bag-of-words模型，将图像表示成数值向量。现在有三个目标类，分别是人脸、自行车和吉他。

bag-of-words模型的第一步是利用sift算法，从每类图像中提取视觉词汇，将所有的视觉词汇集合在一起，如下图3所示：

图3 从每类图像中提取视觉词汇

第二步是利用k-means算法构造单词表。k-means算法是一种基于样本间相似性度量的间接聚类方法，此算法以k为参数，把n个对象分为k个簇，以使簇内具有较高的相似度，而簇间相似度较低。sift提取的视觉词汇向量之间根据距离的远近，可以利用k-means算法将词义相近的词汇合并，作为单词表中的基础词汇，假定我们将k设为4，那么单词表的构造过程如下图4所示：

图4 利用k-means算法构造单词表

第三步是利用单词表的中词汇表示图像。利用sift算法，可以从每幅图像中提取很多个特征点，这些特征点都可以用单词表中的单词近似代替，通过统计单词表中每个单词在图像中出现的次数，可以将图像表示成为一个k=4维数值向量。请看下图5：

图5 每幅图像的直方图表示

上图5中，我们从人脸、自行车和吉他三个目标类图像中提取出的不同视觉词汇，而构造的词汇表中，会把词义相近的视觉词汇合并为同一类，经过合并，词汇表中只包含了四个视觉单词，分别按索引值标记为1，2，3，4。通过观察可以看到，它们分别属于自行车、人脸、吉他、人脸类。统计这些词汇在不同目标类中出现的次数可以得到每幅图像的直方图表示（我们假定存在误差，实际情况亦不外如此）：

人脸：[3,30,3,20]

自行车：[20,3,3,2]

吉他： [8,12,32,7]

其实这个过程非常简单，就是针对人脸、自行车和吉他这三个文档，抽取出相似的部分（或者词义相近的视觉词汇合并为同一类），构造一个词典，词典中包含4个视觉单词，即dictionary = {1:”自行车”, 2. “人脸”, 3. “吉他”, 4. “人脸类”}，最终人脸、自行车和吉他这三个文档皆可以用一个4维向量表示，最后根据三个文档相应部分出现的次数画成了上面对应的直方图。

需要说明的是，以上过程只是针对三个目标类非常简单的一个示例，实际应用中，为了达到较好的效果，单词表中的词汇数量k往往非常庞大，并且目标类数目越多，对应的k值也越大，一般情况下，k的取值在几百到上千，在这里取k＝4仅仅是为了方便说明。

下面，我们再来总结一下如何利用bag-of-words模型将一幅图像表示成为数值向量：

第一步：利用sift算法从不同类别的图像中提取视觉词汇向量，这些向量代表的是图像中局部不变的特征点；

第二步：将所有特征点向量集合到一块，利用k-means算法合并词义相近的视觉词汇，构造一个包含k个词汇的单词表；

第三步：统计单词表中每个单词在图像中出现的次数，从而将图像表示成为一个k维数值向量。

下面我们按照以上步骤，用c++一步步实现上述过程。

c++逐步实现：bag-of-words模型表示一幅图像

在具体编码之前，我们需要事先搭配开发环境。

一．搭建开发环境

3. 运行vs2010，建立一个空的控制台应用程序，取名bow。

4. 配置opencv环境。在vs2010下选择project菜单下的bow property子菜单，调出bow property pages对话框，需要配置的地方有三处：在vc++ directory选项里需要配置include directories和library directories，在linker选项卡的input选项里需要配置additional dependencies。

至此，开发环境全部搭建并配置完毕。

二．创建c++类csiftdiscriptor

为了方便使用，我们将sift库用c++类csiftdiscriptor封装，该类可以计算并获取指定图像的特征点向量集合。类的声名在siftdiscriptor.h文件中，内容如下：

成员函数实现在siftdiscriptor.cpp文件中，其中，calculatesift函数完成特征点的提取和计算，其主要内部流程如下：

1) 调用opencv函数cvloadimage加载输入图像；

2) 为了统一输入图像的尺寸，calculatesift函数的第二步是调整输入图像的尺寸，这通过调用cvresize函数实现；

3) 如果输入图像是彩色图像，我们需要首先将其转化成灰度图，这通过调用cvcvtcolor函数实现；

4) 调用sift库函数sift_feature获取输入图像的特征点向量集合和特征点个数。

三．创建c++类cimgset，管理实验图像集合

bag-of-words模型需要从多个目标类图像中提取视觉词汇，不同目标类的图像存储在不同子文件夹中，为了方便操作，我们设计了一个专门的类cimgset用来管理图像集合，声明在文件imgset.h中：

loadimgsfromdir递归地从图像文件夹中获取所有实验用图像名，包括子文件夹。该函数内部通过循环调用windows api函数findfirstfile和findnextfile来找到文件夹中所有图像的名称。

四．创建chistogram，生成图像的直方图表示

Bag-of-words模型入门介绍文章

继续阅读

Windows下VS开发环境环境安装工程项目设置关于Debug和Release的提示

一文看懂字符串的加减乘除

极大似然法(ML)与最大期望法(EM)

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

C++ 第十五周报告1--《冒泡法排序》

C++实现简单顺序表

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

C经典书籍笔记——C陷阱与缺陷②(语法陷阱之优先级)一、错误案列二、优先级规律

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

线性表之顺序表的实现

C++判断素数、求最大公约数代码判断一个数是否为素数求两个数的最大公约数

SequoiaDB巨杉数据库C++驱动概述

hdu7108哈希