每日三思(5月20日)
每日三思(5月20日)
问题一:今天做了什么?
今天学习了朴素贝叶斯,对中级微观开始学习以及回顾,同时进行了翻译训练。
问题二:什么是朴素贝叶斯?
朴素贝叶斯是基于 贝叶斯定理 和 特征条件独立性假设 的概率分类算法。。它简单高效,广泛应用于文本分类、垃圾邮件识别、情感分析等场景。
朴素贝叶斯算法(Naive Bayes) 是一种基于 贝叶斯定理 和 特征条件独立性假设 的概率分类算法。它简单高效,广泛应用于文本分类、垃圾邮件识别、情感分析等场景。
一、基本原理
1. 贝叶斯定理回顾:
- :在给定输入特征 的情况下,属于类别 的后验概率。
- :类别 的先验概率。
- :似然,即在类别为 的条件下,出现特征 的概率。
- :所有类别的特征分布的总和(可视为常数)。
任务是:对每一个类别计算 ,选择最大值作为预测结果。
2. “朴素”从何而来?
“朴素”是指算法对特征之间做了条件独立性假设:
假设所有特征在给定类别标签下是相互独立的。
虽然这个假设在现实中往往不成立(比如“天气热”和“喝冰饮”通常是相关的),但实践证明该算法在很多任务中仍然表现良好,尤其是文本分类。
二、算法流程(以多项式为例)
步骤如下:
-
统计每个类别 出现的频率,得到先验概率 。
-
对于每一类 ,统计每个特征 在该类下的出现频率,得到似然 。
-
对新的样本 ,根据贝叶斯公式计算:
-
选择使 最大的类别作为预测结果。
三、常见的三种朴素贝叶斯模型
类型 | 全称 | 适用数据类型 | 特点 |
---|---|---|---|
BernoulliNB | 伯努利朴素贝叶斯 | 二值特征(0/1) | 适合稀疏的布尔特征,如文本是否包含某个词 |
MultinomialNB | 多项式朴素贝叶斯 | 离散特征(如词频) | 常用于文本分类,如垃圾邮件检测 |
GaussianNB | 高斯朴素贝叶斯 | 连续特征 | 假设特征服从正态分布 |
四、优点与缺点
优点:
- 训练和预测速度快。
- 对小规模数据和高维数据(如文本)效果好。
- 对缺失数据和噪声具有一定鲁棒性。
缺点:
- 条件独立性假设太强,在特征相关性强的情况下效果可能不佳。
- 对输入数据的分布敏感(尤其是高斯模型)。
问题三:极大似然估计(MLE)、贝叶斯估计(Bayesian Estimation)和极大后验估计(MAP)
一、基本概念回顾
我们考虑一个统计模型,其概率分布由参数 决定,观测数据为 。我们的目标是:根据观测数据 D 来估计参数 。
二、三种估计方法的对比
方法 | 全称 | 英文缩写 | 是否引入先验 | 输出结果类型 | 核心思想 |
---|---|---|---|---|---|
极大似然估计 | Maximum Likelihood Estimation | MLE | 否 | 点估计 | 找出使观测数据出现概率最大的参数 |
贝叶斯估计 | Bayesian Estimation | - | 是 | 概率分布(后验分布) | 把参数当作随机变量,求其后验分布 |
极大后验估计 | Maximum A Posteriori Estimation | MAP | 是 | 点估计 | 在先验知识下找出最可能的参数值 |
三、原理详解
1. 极大似然估计(MLE)
原理:
寻找使观测数据 出现概率最大的参数 ,即最大化似然函数:
- 不考虑任何关于 的先验信息。只依赖于数据本身。
举例:
如果样本服从正态分布 ,那么 MLE 就是通过最大化样本似然函数来估计均值 和方差 。
缺点:
- 当数据量小或噪声大时容易过拟合。并且对初始值敏感。
2. 贝叶斯估计(Bayesian Estimation)
原理:
将参数 视为一个随机变量,并结合先验知识 ,利用贝叶斯公式计算后验分布:
- :似然
- :先验
- :后验
- :证据(常数)
贝叶斯估计的结果是一个完整的后验分布,而不是单一的数值。
缺点:
- 计算复杂,尤其是高维参数空间。需要选择合适的先验分布。
3. 极大后验估计(MAP)
原理:
在贝叶斯框架下,MAP 是一种折中方案。它仍然是点估计,但考虑了先验信息:
即最大化后验概率,等价于最大化似然 × 先验。
说明:
- 如果先验是均匀分布(即无先验信息),则 MAP ≈ MLE。
- 可以看作带正则化的 MLE。
缺点:
- 先验的选择会影响估计结果。
- 仍然只是一个点估计,不能反映不确定性。
四、通俗理解类比
方法 | 类比 |
---|---|
MLE | “只相信眼见为实”——完全依赖数据 |
MAP | “既听数据说话,也参考经验”——数据 + 先验 |
贝叶斯估计 | “不仅知道最好是什么,还知道有多不确定”——给出完整信念分布 |
五、实际应用建议
- 数据充足且无需先验 → 用 MLE
- 数据较少但有先验知识 → 用 MAP
- 需要量化不确定性 / 做预测区间 → 用 贝叶斯估计
每日三思(5月20日)
https://github.com/DukeZhu513/dukezhu513.github.io.git/post/think-twice-every-day-may-20-pacri.html