`
blueyanghualong
  • 浏览: 221130 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

贝叶斯与向量机的理解

阅读更多

Bayes

Bayes是一种在已知先验概率与条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 

Bayes
方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本 足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。

 

 

 

 

 

先验概率和后验概率 
P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有 这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率。机器学 习中,我们关心的是P(h|D),即给定Dh的成立的概率,称为h的后验概率。

 

(1) 朴素贝叶斯算法

设每个数据样本用一个n维特征向量来描述n个属性的值,即:X={x1x2xn},假定有m个类,分别用C1, C2,…Cm表示。给定一个未知的数据样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则一定是

P(Ci|X)>P(Cj|X) 1jmji

根据贝叶斯定理

 

由于P(X)对于所有类为常数,最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组,计算P(X|Ci)的开销可能非常大,为此,通常假设各属性的取值互相独立,这样

 

先验概率P(x1|Ci)P(x2|Ci)P(xn|Ci)可以从训练数据集求得。

根据此方法,对一个未知类别的样本X,可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci),然后选择其中概率最大的类别作为其类别。

朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高,否则可能较低。另外,该算法没有分类规则输出

 

========================================================================

========================================================================

 


向量机

  支持向量机(Support Vector Machine)是Cortes 和Vapnik 于1995年首先提出的,它在解决

小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其

他机器学习问题中[10]。

   VC 维是对函数类的一种度量,可以简单的理解为问题的复杂程度,VC 维越高,一个问

题就越复杂

 

 结构风险 近似模型与问题真实解之间的误差,就叫做风险(更严格的说,误差的累积叫做风险)

 

泛化能力 亦是推广能力 真实风险应该由两部分内容刻画,一是

验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多大程度上可以

信任分类器在未知文本上分类的结果

 

 

置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可

能正确,此时置信风险越小;二是分类函数的VC 维,显然VC 维越大,推广能力越差,置信

风险会变大。

泛化误差界的公式为:

R(w)≤Remp(w)+Ф(n/h)

公式中R(w)就是真实风险,Remp(w)就是经验风险,Ф(n/h)就是置信风险。统计学习的目标

从经验风险最小化变为了寻求经验风险与置信风险的和最小,即结构风险最小。

 

SVM 正是这样一种努力最小化结构风险的算法。

 

线性可分 概念 ,在一个二维平面中它们的样本可以被中间的一条直线分类函数 分成两类,并且样本完全分开。就称这些数据是线性可分的,否则称为非线性可分的。

 

 

线性函数 在一维空间里就是一个点,在二维空

间里就是一条直线,三维空间里就是一个平面,可以如此想象下去,如果不关注空间的维数,这种线性函数还有一个统一的名称——超平面(Hyper Plane)!

g(x)=wx+b

 

关于g(x)=wx+b 这个表达式要注意三点:一,式中的x 不是二维坐标系中的横轴,而是样本

的向量表示,例如一个样本点的坐标是(3,8),则xT=(3,8),而不是x=3(一般说向量都是

说列向量,因此以行向量形式来表示时,就加上转置)。二,这个形式并不局限于二维的情

,在n 维空间中仍然可以使用这个表达式,只是式中的w 成为了n 维向量(在二维的这个

例子中,w 是二维向量,为了表示起来方便简洁,以下均不区别列向量和它的转置,聪明的

读者一看便知);三,g(x)不是中间那条直线的表达式,中间那条直线的表达式是g(x)=0,

即wx+b=0,我们也把这个函数叫做分类面。

 

分类间隔实际上很容易看出来,中间那条分界线并不是唯一的,我们把它稍微旋转一下,只要不把两

类数据分错,仍然可以达到上面说的效果,稍微平移一下,也可以。

 

 

总之浅显点说 向量机模型算法就是通过 核函数把线性不可分割的数据进行高维度化 使得 分割间距明显 然后在通过惩罚因子剔除脏数据 

 

 

 

分享到:
评论

相关推荐

    基于马尔可夫的贝叶斯图向量自回归模型,可用于国际间通货膨胀、股票波动等仿真分析

    马尔可夫贝叶斯图向量自回归模型(Markov Bayesian Graph Vector Autoregressive Model)是一种适用于经济类、经管类和金融类学生的模型。该模型可以用于国际间通货膨胀、股票波动等仿真分析,提供了一种有效的工具...

    机器学习 naive 贝叶斯分类器实现 (附原始matlab代码和数据集)

    朴素贝叶斯是一种构建分类器的简单技术:将类标签分配给问题实例的模型,表示为特征值的向量,其中类标签是从某个有限集合中提取的。训练此类分类器的算法不是单一的,而是基于共同原则的一系列算法:所有朴素贝叶斯...

    机器学习文本分类基于TF-IDF+手写朴素贝叶斯

    3. 选择分类算法(朴素贝叶斯、支持向量机),训练文本分类器,理解所选的分类算法的建模原理、实现过程和相关参数的含义;4. 对测试集的文本进行分类;5. 对测试集的分类结果利用正确率和召回率进行分析评价。 个人...

    Python代码实现基于朴素贝叶斯算法的垃圾邮件分类

    资源概要:Python代码实现基于朴素贝叶斯算法的垃圾邮件分类 资源内容: 1. SMS.txt文件:邮件数据集(包含4827封正常邮件和747封垃圾邮件,一共5574封...学习难度:简单(一共只有100多行代码,注释详细,容易理解)

    统计学习方法之朴素贝叶斯理解和代码复现

    直观理解一下这个式子,如下图,问题A在我们知道B信息之后概率发生了变化(图片来自于小白之通俗易懂的贝叶斯定理(Bayes’ Theorem) 1.后验概率推导 ​ 朴素贝叶斯条件:向量X的每一个特征项是独立同分布,这个...

    机器学习-监督学习-毒蘑菇分类-6大监督模型实现

    主要包含了逻辑回归、高斯朴素贝叶斯、支持向量机、随机森林、决策树和人工神经网络等六种监督学习模型的应用。 适用人群:对机器学习和分类算法感兴趣的学习者、数据科学家、机器学习工程师等。 使用场景及目标:本...

    西瓜书机器学习的学习笔记(十分详细)

    - 支持向量机 - 贝叶斯分类器 - 集成学习 - 聚类 - 降维与度量学习 - 半监督学习 - 概率图模型 涉及机器学习的基础理论和术语,和一些经典模型与方法。 内容充实详细,不仅有介绍,推理,还有分类以及总结内容。

    NLP技术相关经典面试题

    同时,这些问题也涉及到了与NLP相关的机器学习和深度学习技术,如朴素贝叶斯、支持向量机、深度学习模型等。总体而言,这些面试题旨在考察面试者对NLP领域的理解程度、技术掌握程度以及解决问题的能力,适用于面试...

    智能视频监控中目标检测与识别

    4.4.4 多摄像机系统总体设计与集成 参考文献 第5章 运动目标分类技术 5.1 目标分类方法 5.1.1 基于形状信息的分类 5.1.2 基于运动特性的分类 5.1.3 混合方法 5.2 分类的特征提取 5.2.1 视频图像的两种特征 5.2.2 ...

    Machine Learning for OpenCV__

    一旦涵盖了所有基础知识,您将开始探索各种算法,例如决策树,支持向量机和贝叶斯网络,并学习如何将它们与其他OpenCV功能相结合。随着本书的进展,您的机器学习技能也将如此,直到您准备好接受当今最热门的话题:...

    Data_Science_work:这是我在探索该领域时完成的一组数据科学项目

    统计,数据科学,AI和ML 创建该存储库是为了存储我与数据科学领域相关的项目,笔记...支持向量机 决策树 套袋-随机森林 增强-AdaBoost,梯度增强,XGBoost 无监督学习 KMeans / KPrototypes聚类 层次聚类 主成分分析

    统计机器学习理论综述

    目前机器学习的一个比较热门的方向是统计机器学习(另外一个可能是图模型,按照Jordan的说法是统计机器学习属于频率主义,而图模型属于贝叶斯主义),对于每一个做统计机器学习的研究者来说,他们大致可以分为两类:...

    数据挖掘分类算法研究

    决策树分类、贝叶斯分类、神经网络分类、支持向量机分类,对其中最常用的 决策树分类算法进行了深入地研究。决策树是分类应用中采用最广泛的模型之 一,与神经网络和贝叶斯方法相比,一决策树无须花费大量的时间和...

    百度、马蜂窝和大众点评数据集(情感分析)

    情感分析技术通常基于机器学习算法,如朴素贝叶斯、支持向量机(SVM)、逻辑回归等,以及深度学习模型,如循环神经网络(RNN)和卷积神经网络(CNN)。这些模型通过学习大量标注好的情感数据集,从中提取文本的特征...

    A毕业设计:毕业设计论文-中文谣言检测

    2. 文本分类算法:通过机器学习算法如朴素贝叶斯、支持向量机(SVM)或深度学习模型如循环神经网络(RNN)和卷积神经网络(CNN)等,可以对文本进行分类,判断是否属于谣言或虚假信息。 3. 数据挖掘和网络分析:...

    使用机器学习技术对社交媒体内容进行情感分析和文本分类-研究论文

    文本文本分类已被认为是... 实验结果表明,与朴素贝叶斯算法相比,支持向量机(SVM)方法在准确性方面要好于其他方法。 情感分析的应用将使业务竞争者更容易理解利益相关者的观点,从而增加收入并帮助他们制定决策。

    MachineLearning:该存储库包括我对机器学习中一些想法的理解

    支持向量机 K-均值聚类和主成分分析 异常检测和推荐系统 第三部分--->李飞飞的计算机视觉研究(CS231N) A1-1 KNN A1-2支持向量机 A1-3 Softmax A1-4 FCN A2-1 BN A2-2辍学 A2-3 SGD带动量 A2-

    结构之法算法之道blog博文集锦第7期CHM文件

    这其中包括:教你如何迅速秒杀掉:99%的海量数据处理面试题,程序员编程艺术第一~二十七章集锦与总结(教你如何编程)及PDF免分下载,从决策树学习谈到贝叶斯分类算法、EM、HMM,支持向量机通俗导论(理解SVM的三层...

    我对人工智能的理解与看法.pdf

    传统的算法包括k-邻近算法、决策树、贝叶斯分类、聚类、⽀持向量机等。 深度学习 是利⽤包含多个隐含层的神经⽹络结构的⼈⼯神经⽹络(深度神经⽹络),通过优化神经元的连接⽅法和激活函数等⽅⾯,来提⾼训练效果,...

Global site tag (gtag.js) - Google Analytics