特征选择方法 发表于 2019-04-03 字数统计: 4.2k 字 | 阅读时长 ≈ 15 分钟 参考:https://www.zhihu.com/question/28641663 机器学习中,有哪些特征选择的工程方法?什么是特征工程据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算 ... 阅读全文 »
C++知识点(三) 发表于 2019-04-02 字数统计: 5.2k 字 | 阅读时长 ≈ 23 分钟 KMP算法KMP主要解决的就是部分匹配时,原始串上的下标不回溯.只移动模式串在上的位置.主要就是挖掘模式串上的特点:如果部分匹配已经在模式串上匹配到了j位置,但此时不匹配了,则说明前面j-1个子串是完全匹配上了.此时我们需要找模式串上从后面的第几位开始到串尾,与模式串的开头部分匹配上.给出Next的 ... 阅读全文 »
菜鸟学NLP(一) 发表于 2019-04-02 | 分类于 NLP 字数统计: 1.9k 字 | 阅读时长 ≈ 6 分钟 文本预处理方法总结文本预处理的三个主要组成部分: 标记化(tokenization) 归一化(normalization) 替换(substitution) 标记化(tokenization)标记化是将文本中的长字符串分割成小的片段或tokens的过程.大段文字可以被分割成句子,句子又可以分割成 ... 阅读全文 »
初级算法梳理(二) 发表于 2019-03-31 | 分类于 Datawhale 字数统计: 4.6k 字 | 阅读时长 ≈ 17 分钟 逻辑回归算法梳理机器学习(二)———逻辑回归 逻辑回归与线性回归的联系与区别区别: 逻辑回归解决的是分类问题,线性回归解决的是回归问题 逻辑回归的因变量是离散值,线性回归的因变量是连续值(屁话) 逻辑回归的因变量假设是服从伯努利分布的,而线性回归的因变量假设是服从正态分布的. 逻辑回归的损失函数采 ... 阅读全文 »
葫芦娃的葫芦书刷题(六) 发表于 2019-03-31 | 分类于 面试 字数统计: 1.4k 字 | 阅读时长 ≈ 4 分钟 采样采样操作在许多机器学习的书籍中很少能看到,但是在我们实际的操作中常常会遇到。其主要作用有以下几点: 将复杂的分布简化为离散的样本点 可以用重采样对样本集进行调整以更好地适应后期的模型学习 用于随机模拟以进行复杂模型的近似求解或推理 用于可视化,帮助人们快速直观了解数据的结构和特性. 采样实际 ... 阅读全文 »
CV论文阅读(一)——FPN 发表于 2019-03-30 | 分类于 CV 字数统计: 1.5k 字 | 阅读时长 ≈ 5 分钟 FPNFPN应该算是CNN中的一个小部件,主要应用于目标检测等领域.主要的思想来源是传统的图像处理领域中一种常见的方法,image pyramid,也叫图像金字塔,就是将图像进行一层一层的下采样,图像金字塔可以广泛应用于图像识别,目标检测,还有光流匹配,块匹配都能看到它的身影。图像金字塔主要有两种, ... 阅读全文 »
Pytorch-tutorials-学习(六) 发表于 2019-03-28 | 分类于 pytorch 字数统计: 836 字 | 阅读时长 ≈ 3 分钟 Pytorch中如何处理RNN变长序列padding为什么RNN需要变长输入假设我们有情感分析的例子,对每句话进行一个感情级别的分类,主体流程大概是如下所示:思路比较简单,但是当我们进行batch个训练数据进行计算的时候,会遇到多个训练样例长度不同的情况,这样我们就会很自然的进行padding,将短 ... 阅读全文 »
初级算法梳理(一) 发表于 2019-03-28 | 分类于 Datawhale 字数统计: 3.1k 字 | 阅读时长 ≈ 11 分钟 Datawhale初级算法梳理(一)机器学习基本概念一些基本概念在统计学习方法(一)中有提及,主要是: 统计学习3要素(模型、策略[期望风险、经验风险、结构风险]、算法) 模型评估和模型选择(正则化、交叉验证) 泛化能力 生成模型与判别模型 再进行补充: 监督/无监督/半监督 无监督学习:K-m ... 阅读全文 »
Python中的__call__()函数 发表于 2019-03-26 | 分类于 Python 字数统计: 3.7k 字 | 阅读时长 ≈ 15 分钟 __call__()函数python中类的实例(对象)可以被当做函数对待.也就是说,我们可以将它们作为输入传递到其他的函数/方法中并调用它们,正如我们调用一个正常的函数那样。而类中的call()函数的意义正在于此.为了将一个类实例当作函数调用,我们需要再类中事先call()方法.假设x是X类的一个实 ... 阅读全文 »