西瓜书重读(三) 发表于 2019-01-04 | 分类于 ML 字数统计: 1.9k 字 | 阅读时长 ≈ 7 分钟 线性模型基本形式给定d个属性描述的示例$x=(x_1;x_2;…;x_d)$,其中$x_i$是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即$f(x)=w_1x_1+w_2x_2+….+w_dx_d+b$ 线性回归考虑一元线性回归的情况: f(x_i)=wx_i+ ... 阅读全文 »
西瓜书重读(二) 发表于 2019-01-03 | 分类于 ML 字数统计: 3.3k 字 | 阅读时长 ≈ 11 分钟 模型评估与选择基本概念 准确率=1-错误率 我们把学习器的实际预测输出与样本的真实输出之间的差异称为误差(error). 学习器在训练集上的误差称为”训练误差”或”经验误差”。 学习器在测试集上的误差称为”测试误差”。 学习器在新样本上的误差称为”泛化误差”。泛化误差≠测试误差 过拟合:学习能力过 ... 阅读全文 »
西瓜书重读(一) 发表于 2019-01-02 | 分类于 ML 字数统计: 1.2k 字 | 阅读时长 ≈ 4 分钟 绪论基本概念我们人类能做出有效的预判是因为我们已经积累了许多经验,而通过对经验的利用,就能对新情况做出有效的决策。 在计算机系统中,“经验”通常以“数据”形式存在,因此机器学习所研究的主要内容,是关于在计算机上从数据中产生”模型”的算法,即学习算法 本书用“模型”泛指从数据中学得的结果。有文献用” ... 阅读全文 »
数字图像处理笔记(五) 发表于 2018-12-28 | 分类于 Computer Vision 字数统计: 2.5k 字 | 阅读时长 ≈ 11 分钟 傅里叶变换为什么要在频域上研究图像增强 可以利用频率成分和图像外表之间的对应关系。一些在空间域表述困难的增强任务,在频率域中变得非常普通 滤波在频率域更为直观,他可以解释空间域滤波的某些性质 可以在频率域指定滤波器,做反变换,然后在空间域使用结果滤波器作为空间域滤波器的指导 一旦通过频率域试验选择了 ... 阅读全文 »
机器学习(五)——K-means 发表于 2018-12-28 | 分类于 Machine Learning 字数统计: 2.6k 字 | 阅读时长 ≈ 9 分钟 K-means 与KNN尽管K-means与KNN都是K字辈的算法,但这两个算法是完全不同的。KNN为监督学习中的一种分类算法,K-means为非监督学习中的聚类算法。 两者相同之处是均利用近邻信息来标注类别。但本质上还是有巨大的差别的。 引言在实际工作中,我们常会遇到这样一类问题:给机器输入大量的 ... 阅读全文 »
Natural-Language-Processing-with-PyTorch(九) 发表于 2018-12-28 | 分类于 Pytorch , NLP 字数统计: 4.9k 字 | 阅读时长 ≈ 17 分钟 由Yif翻译,仅供学习严禁任何商业用途 Chapter 9. Classics, Frontiers, and Next Steps在本章中,我们将从整本书的角度回顾前面的章节,并了解本书中讨论的看似独立的主题是如何相互依赖的,以及研究人员如何将这些想法混合和匹配以解决手头的问题。我们还总结了自然语 ... 阅读全文 »
Natural-Language-Processing-with-PyTorch(八) 发表于 2018-12-28 | 分类于 Pytorch , NLP 字数统计: 12k 字 | 阅读时长 ≈ 49 分钟 由Yif翻译,仅供学习严禁任何商业用途 Chapter 8. Advanced Sequence Modeling for Natural Language Processing在本章中,我们以第六章和第七章讨论的序列建模概念为基础,将它们扩展到序列到序列建模的领域,其中模型以一个序列作为输入,并产 ... 阅读全文 »
数字图像处理笔记(四) 发表于 2018-12-26 | 分类于 Computer Vision 字数统计: 2.1k 字 | 阅读时长 ≈ 7 分钟 基于内容的图像检索为什么需要基于内容的图像检索? 提供图像的检索功能 不需要人手工标准,计算机自动分析和检索,节省人力和时间 使海量图像的管理和索引成为可能 存在的问题:1.人类高级语义特征与计算机底层特征表示的矛盾;2.查询方式问题具体内容特征提取 颜色特征 纹理特征 形状特征 空间关系特征颜色空 ... 阅读全文 »
深度学习中各种Normalization 发表于 2018-12-26 | 分类于 DL 字数统计: 2.6k 字 | 阅读时长 ≈ 9 分钟 为什么需要Normalization独立同分布与白化独立同分布并非所有机器学习模型的必然要求(比如Naive Bayes 模型就建立在特征彼此独立的基础之上,而Logistic Regression和神经网络则在非独立的特征数据上依然可以训练出很好的模型),但独立同分布的数据可以简化常规机器学习模型 ... 阅读全文 »
Natural-Language-Processing-with-PyTorch(七) 发表于 2018-12-26 字数统计: 6.7k 字 | 阅读时长 ≈ 27 分钟 由Yif翻译,仅供学习严禁任何商业用途 Chapter 7. Intermediate Sequence Modeling for Natural Language Processing本章的目标是序列预测。序列预测任务要求我们对序列中的每一项进行标记。这类任务在自然语言处理(NLP)中很常见。一些 ... 阅读全文 »