文章是下面这个公开课的个人笔记,推荐的笔记里记的比较全,完全依据视频课程(有少量小错误),我的笔记依据课程按自己的理解记录一些重点,方便快速回顾。另外自己开始学这门课时搜到的好的资料,推荐给大家:
|— Coursera上斯坦福大学Andrew Ng教授的“机器学习公开课”
|—- 类 别:适合入门
|—- 网页地址: https://www.coursera.org/learn/machine-learning/outline
|—- 学习笔记:推荐 @小小人_V 同学这门课程的学习笔记:http://vdisk.weibo.com/s/J4rRX/1373287206
|—- 网盘地址(全视频版和字幕,ppt和笔记):
百度云分享: http://pan.baidu.com/s/1i31QDTF 密码: 1a36
360云盘分享:http://yunpan.cn/cJYpBDKUqrzNR (提取码:6e99)
1 机器学习介绍
1.1 什么是机器学习?
机器学习:研究的是如何赋予计算机在没有被明确编程的情况下仍能够学习的能力。 Machine learning is the field of study that gives computers the ability to learn without being explicitly programmed.
机器学习:对于某个任务 T 和表现的衡量 P,当计算机程序在该任务 T 的表现上,经过 P 的衡量, 随着经验 E 而增长,我们便称计算机程序能够通过经验 E 来学习该任务。Computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
(在跳棋游戏的例子中,任务 T 是玩跳棋游戏,P 是游戏的输赢,E 则是一局又一局的游戏。)
机器学习的应用举例:
-  数据库挖掘
- 一些无法通过手动编程来编写的应用:如自然语言处理,计算机视觉
- 一些自助式的程序:如推荐系统
- 理解人类是如何学习的
1.2 监督学习(Supervised Learning)
监督学习:已有的样本已知要预测的变量。用已知来预测未知。
回归问题(Regression):预测的结果是连续地值。例如:预测房价
分类问题(Classification):预测的结果是离散有限的分类,能够学会如何将数据分类到不同的类里。例如:预测是否是恶性肿瘤
1.3 非监督学习(Unsupervised Learning)
非监督学习:现有数据中并没有结果,我们有的只是特征,因而非监督学习要解决的问题是发现这些数据是否可以分为不同的组。
在未知的数据中,依据数据特征,对数据分组。
聚类问题(Clustering):在未知的数据中,依据数据特征,对数据分组。
例子:
- 对一个大型的数据中心的网络传输数 据情况进行分析,发现那些多数时候是在协作的计算机。
- 根据是否具有某些基因而将这些人聚类
- 市场分类
-
鸡尾酒会问题:房间中有多个人在同时在讲话,利用多个麦克风来录音,分离出每个人的讲话。只有一行的机器学习算法(Octave)可以非常漂亮地将两个人的说话给分离开来:
[W,s,v]=svd((repmat(sum(x.∗x,1),size(x,1),1).∗x)∗x′);