Machine Learning(一) 机器学习的介绍
机器学习的初步概念
机器学习(Machine Learning)是人工智能领域的一个分支,其目的是使计算机系统能够利用数据和算法进行自动学习,以不断改进其性能和表现。粗略的讲,机器学习就是找出一种让计算机学习的方法,不直接人为地编写复杂的规则,而是让计算机从大量数据中自动找出规律和模式。
机器学习的应用可以举以下几个例子
- 数据挖掘(Database Mining):从大量的数据中通过算法搜索隐藏于其中信息的过程。
- 举例:网站浏览数据、医疗记录、生物学、工程学等
- 编写复杂程序:依据特定算法使得计算机学习如何完成复杂编程任务。
- 举例:手写数字识别、自然语言处理(NLP)、计算机视觉(CV)
- 个性化推荐系统:软件根据用户使用情况自动学习并推荐相关内容。
- 亚马逊、网飞、谷歌等软件的推荐系统
机器学习的定义
Arthur Samuel(1959) 曾对机器学习的定义如下
Field of study that gives computers the ability to learn without being explicitly programmed.
赋予计算机在没有明确编程指令下学习能力的研究领域。
Samuel 提出的此概念较为陈旧,于是作者吴恩达的好友 Tom Mitchell(1998) 重新叙述如下
Well-posed Lerning Problem is defined as: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
一个适当的学习任务定义如下:如果计算机程序在完成某类任务T时,通过经验E在某一表现度量P下的表现有所提高,则称该程序从经验E中学习。
举一个例子来说明这个定义。假设你的邮箱系统可以监测你将哪些邮件标记为垃圾邮件,并且基于这种偏好去学习如何在未来更好的自动过滤垃圾邮件,那么这个例子中
- 任务 :把某个邮件分类为“垃圾邮件”或“非垃圾邮件”
- 经验 :监测你将哪些邮件标记为垃圾邮件
- 度量 :完成任务 的正确率
机器学习的分类
机器学习算法可以主要分为以下几类
- 监督学习(Supervised learning):计算机在人为指导下进行机器学习
- 无监督学习(Unsupervised Learning):计算机自主进行机器学习
- 其他:如强化学习(Reinforcement Learning)、聚类算法等
监督学习
我们先举一个例子:假设你的朋友在某地有一所占地 750 平方英尺的房子将要卖出,他收集了当地部分已卖出房屋的数据,包括房屋尺寸和成交价(数据点坐标记为×)。
现在他想要知道自己的房子可以卖多少钱,我们可以使用两种拟合方法
- 线性拟合:用紫色的一次函数可以估算价格为150K美元。
- 二次多项式拟合:用蓝色的二次函数可以估算价格为200K美元。
在这个例子中,我们给的数据集(已卖出的房屋数据)是正确的,那么利用监督算法估算房屋出售价格就是要确定某个回归模型,并基于正确的指标数据集给出“相对正确”的输出,因此这类问题也称作回归问题(Regression)。在此问题中,回归输出是一个离散的数字(价格),而回归通常针对于连续数据。
现在再看另一个例子:某种癌症的肿瘤有良性和恶性之分,已知部分患者的肿瘤大小数据和他们的肿瘤性质(0对应良性,1对应恶性)。你的朋友不幸诊断出这种癌症,需要根据其肿瘤大小预测肿瘤是良性还是恶性。
这是一个典型的分类问题(Classification),需要计算机根据已有数据集指标分析给定输入的类别。在此问题中,肿瘤的大小是关键指标,肿瘤的性质是分类结果,输出值也就是离散的。
然而,通常的分类问题需要根据数据的多个属性进行分类。我们假设在上述问题的基础上,还知道每位患者的年龄,这样得到的数据集可以表示为二维平面上的一个离散点集。
我们可以尝试画一条直线,以尽可能区分开良性肿瘤数据点和恶性肿瘤数据点。当引入的数据属性种类越来越多时,可能需要用到平面甚至超平面(高维欧式空间中的线性子空间)进行划分。
无监督学习
与监督学习不同,我们给定的数据集没有标签。举例来说,在监督学习的肿瘤分类问题中,如果不标注每一位患者的肿瘤是良性还是恶性,那么在平面上展示的就是一堆用同样颜色标注的点,亦即没有标签的数据集。
此时,计算机能够做的就是执行聚类算法(Clustering)。在聚类过程中,算法会将数据点划分为多个簇,使得同一簇内的数据点相似度高,而不同簇间的数据点相似度低。









