西瓜书重读(十二) 发表于 2019-01-21 | 分类于 ML 字数统计: 2.4k 字 | 阅读时长 ≈ 8 分钟 概率图模型机器学习最重要的任务,是根据一些已观察到的证据(例如训练样本)来对感兴趣的未知变量(例如类别标记)进行估计和推测.概率模型提供了一种描述框架,将学习任务归结于计算变量的概率分布.在概率模型中,利用已知变量推测未知变量的分布称为”推断”,其核心是如何基于可观测变量推测出未知变量的条件分布.具 ... 阅读全文 »
西瓜书重读(十一) 发表于 2019-01-20 | 分类于 ML 字数统计: 3.1k 字 | 阅读时长 ≈ 10 分钟 半监督学习未标记样本我们有训练样本集$D_l=\{(x_1,y_1),(x_2,y_2),…,(x_l,y_l)\}$这l个样本的类别标记(即是否好瓜)已知,称为”有标记”(labeled)样本;此外,还有$D_u=\{(x_{l+1},x_{l+2},…,x_{l+u})\}$,l<< ... 阅读全文 »
西瓜书重读(十) 发表于 2019-01-18 | 分类于 ML 字数统计: 1.8k 字 | 阅读时长 ≈ 6 分钟 特征选择与稀疏学习子集搜索与评价魔门将属性称为”特征”,对当前学习任务有用的属性称为”相关特征”、没什么用的属性称为”无关特征”.从给定的特征集合中选择出相关特征子集的过程,称为”特征选择”。 特征选择是一个重要的”数据预处理”过程,在现实机器学习任务中,获得数据之后通常先进行特征选择,再训练学习器 ... 阅读全文 »
西瓜书重读(九) 发表于 2019-01-17 | 分类于 ML 字数统计: 2.8k 字 | 阅读时长 ≈ 10 分钟 降维与度量学习k近邻学习(KNN)KNN与Kmeans不同是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最近的k个训练样本,然后基于这k个”邻居”的信息来预测.通常,在分类任务中可使用”投票法”,即选择这k个样本中出现最多的类别标记作为预测加过;在回归任 ... 阅读全文 »
西瓜书重读(八) 发表于 2019-01-13 | 分类于 ML 字数统计: 2.3k 字 | 阅读时长 ≈ 9 分钟 聚类在”无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。 聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前驱过程 基于不同的学习策略,人们设计出多种类型的聚类算法。本章后半部分将对不同类型的代表性算法进行介绍 ... 阅读全文 »
西瓜书重读(七) 发表于 2019-01-12 | 分类于 ML 字数统计: 1.6k 字 | 阅读时长 ≈ 5 分钟 集成学习集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等。 集成只包含同种类型的个体学习器,这样的集成称为”同质”的。集成也可包含不同类型的个体学习器,这样集成是”异质”的. 一般经验中,把好坏不等的东西掺到一起,那么通常结果会是比最坏的要好一些,比最好的 ... 阅读全文 »
西瓜书重读(六) 发表于 2019-01-09 | 分类于 ML 字数统计: 3.5k 字 | 阅读时长 ≈ 13 分钟 贝叶斯分类器贝叶斯决策理论假设有N种可能的类别标记,即$y={c_1,c_2,…,c_N}$,$\lambda_{ij}$是将一个真实标记为$c_j$的样本误分类为$c_i$所产生的损失,基于后验概率$P(c_i|x)$可获得将样本x分类为$c_i$所产生的期望损失,即在样本x上的“条件风险” R( ... 阅读全文 »
数字图像处理笔记(六) 发表于 2019-01-05 | 分类于 Computer Vision 字数统计: 865 字 | 阅读时长 ≈ 3 分钟 频率域滤波 可以利用频率成分和图像外表之间的对应关系。一些在空间域表述困难的增强任务,在频率域中变得非常普通 滤波在频率域更为直观,它可以解释空间域滤波的某些性质 给出一个问题,寻找某个滤波器解决该问题,频率域处理对于试验、迅速而全面地控制滤波器参数是一个理想工具 一旦找到一个特殊应用地滤波器,通常 ... 阅读全文 »