加载中...

Machine Learning(一) 机器学习的介绍

发表于2026-04-24|更新于2026-05-22|AI机器学习

|总字数:1.5k|阅读时长:4分钟|浏览量:

机器学习的初步概念

机器学习(Machine Learning)是人工智能领域的一个分支，其目的是使计算机系统能够利用数据和算法进行自动学习，以不断改进其性能和表现。粗略的讲，机器学习就是找出一种让计算机学习的方法，不直接人为地编写复杂的规则，而是让计算机从大量数据中自动找出规律和模式。

机器学习的应用可以举以下几个例子

数据挖掘(Database Mining)：从大量的数据中通过算法搜索隐藏于其中信息的过程。
- 举例：网站浏览数据、医疗记录、生物学、工程学等
编写复杂程序：依据特定算法使得计算机学习如何完成复杂编程任务。
- 举例：手写数字识别、自然语言处理(NLP)、计算机视觉(CV)
个性化推荐系统：软件根据用户使用情况自动学习并推荐相关内容。
- 亚马逊、网飞、谷歌等软件的推荐系统

机器学习的定义

Arthur Samuel(1959) 曾对机器学习的定义如下

Field of study that gives computers the ability to learn without being explicitly programmed.
赋予计算机在没有明确编程指令下学习能力的研究领域。

Samuel 提出的此概念较为陈旧，于是作者吴恩达的好友 Tom Mitchell(1998) 重新叙述如下

Well-posed Lerning Problem is defined as: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
一个适当的学习任务定义如下：如果计算机程序在完成某类任务T时，通过经验E在某一表现度量P下的表现有所提高，则称该程序从经验E中学习。

举一个例子来说明这个定义。假设你的邮箱系统可以监测你将哪些邮件标记为垃圾邮件，并且基于这种偏好去学习如何在未来更好的自动过滤垃圾邮件，那么这个例子中

任务 $T$ ：把某个邮件分类为“垃圾邮件”或“非垃圾邮件”
经验 $E$ ：监测你将哪些邮件标记为垃圾邮件
度量 $P$ ：完成任务 $T$ 的正确率

机器学习的分类

机器学习算法可以主要分为以下几类

监督学习(Supervised learning)：计算机在人为指导下进行机器学习
无监督学习(Unsupervised Learning)：计算机自主进行机器学习
其他：如强化学习(Reinforcement Learning)、聚类算法等

监督学习

我们先举一个例子：假设你的朋友在某地有一所占地 750 平方英尺的房子将要卖出，他收集了当地部分已卖出房屋的数据，包括房屋尺寸和成交价(数据点坐标记为×)。

[{"url":"/img/mlearning/m1f1.png","alt":"房屋价格预测","title":""}]

现在他想要知道自己的房子可以卖多少钱，我们可以使用两种拟合方法

线性拟合：用紫色的一次函数可以估算价格为150K美元。
二次多项式拟合：用蓝色的二次函数可以估算价格为200K美元。

在这个例子中，我们给的数据集(已卖出的房屋数据)是正确的，那么利用监督算法估算房屋出售价格就是要确定某个回归模型，并基于正确的指标数据集给出“相对正确”的输出，因此这类问题也称作回归问题(Regression)。在此问题中，回归输出是一个离散的数字(价格)，而回归通常针对于连续数据。

现在再看另一个例子：某种癌症的肿瘤有良性和恶性之分，已知部分患者的肿瘤大小数据和他们的肿瘤性质(0对应良性，1对应恶性)。你的朋友不幸诊断出这种癌症，需要根据其肿瘤大小预测肿瘤是良性还是恶性。

[{"url":"/img/mlearning/m1f2.png","alt":"单属性的肿瘤预测","title":""}]

这是一个典型的分类问题(Classification)，需要计算机根据已有数据集指标分析给定输入的类别。在此问题中，肿瘤的大小是关键指标，肿瘤的性质是分类结果，输出值也就是离散的。

然而，通常的分类问题需要根据数据的多个属性进行分类。我们假设在上述问题的基础上，还知道每位患者的年龄，这样得到的数据集可以表示为二维平面上的一个离散点集。

[{"url":"/img/mlearning/m1f3.png","alt":"多属性的肿瘤预测","title":""}]

我们可以尝试画一条直线，以尽可能区分开良性肿瘤数据点和恶性肿瘤数据点。当引入的数据属性种类越来越多时，可能需要用到平面甚至超平面(高维欧式空间中的线性子空间)进行划分。

无监督学习

与监督学习不同，我们给定的数据集没有标签。举例来说，在监督学习的肿瘤分类问题中，如果不标注每一位患者的肿瘤是良性还是恶性，那么在平面上展示的就是一堆用同样颜色标注的点，亦即没有标签的数据集。

此时，计算机能够做的就是执行聚类算法(Clustering)。在聚类过程中，算法会将数据点划分为多个簇，使得同一簇内的数据点相似度高，而不同簇间的数据点相似度低。

[{"url":"/img/mlearning/m1f4.png","alt":"聚类算法","title":""}]

参考网站

吴恩达机器学习

吴恩达机器学习

文章作者: 時雨

文章链接: https://www.shiiyu.xyz/posts/MLearning1.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源時雨のBlog！

机器学习吴恩达

相关推荐

Machine Learning(六) 交叉验证与支持向量机

本节是吴恩达机器学习课程的学习日志(六)，主要介绍交叉验证的要点，以及支持向量机算法。

Machine Learning(二) 单变量线性回归与梯度下降

本节是吴恩达机器学习课程的学习日志(二)，主要介绍单变量线性回归模型和梯度下降算法。

Machine Learning(三) 多变量线性回归

本节是吴恩达机器学习课程的学习日志(三)，主要介绍多变量线性回归模型及多种回归算法。

评论

✨ 新内容上新！ 👉查看新内容

数据加载中