C++知识点(四) 发表于 2019-04-10 字数统计: 2.1k 字 | 阅读时长 ≈ 7 分钟 C++的输入输出总结C++中的输入输出都是通过流来进行的.C++把输入输出看作字节流,输入时从字节流中抽取字节,输出时把字节插入到字节流中. 使用cin进行输入cin>>input,输入一个字符串,当遇到空白格、换行、制表之类的,输入都会停止.这里所谓的停止不是指停止键入,而是指停止从字 ... 阅读全文 »
菜鸟学NLP(四) 发表于 2019-04-09 | 分类于 NLP 字数统计: 292 字 | 阅读时长 ≈ 1 分钟 数据集IMDBIMDB是电影评论的二分类问题,就是NLP中常说的情感分析.IMDB数据集包含来自互联网的50000条严重两极分化的评论,该数据被分为用于训练的25000条评论和用于测试的25000条评论,训练集和测试集都包含50%的正面评价和50%的负面评价(正负样例很均衡啊!)。该数据集已经经过预 ... 阅读全文 »
菜鸟学统计(四) 发表于 2019-04-08 | 分类于 统计学 字数统计: 1.1k 字 | 阅读时长 ≈ 3 分钟 线性回归线性回归之前在初级算法梳理(一)中有介绍过,不过当时只是当机器学习方法来学习.看了可汗学院的视频,里面对待求系数就是采用直接求导为0的方式来求解m和b的。 另外可汗还讨论了下述问题:y的波动程度有多少百分比能被x的波动程度所描述. y的方差实际上是y的总波动的平均值,即$SE_{\over ... 阅读全文 »
数据清洗与预处理汇总 发表于 2019-04-07 | 分类于 数据分析 字数统计: 4.2k 字 | 阅读时长 ≈ 16 分钟 直观上来看,一个项目的流程可以用下图来表示:从上图可以看出,数据清洗是一个需要重复进行调整的过程.在整个流程中占据举足轻重的作用.当然从图上也可看出,特征工程和算法模型也很重要. 查看并分析数据拿到数据之后,首先需要对数据进行描述性统计分析,查看哪些数据是不合理的,也可以了解数据的基本情况.这里可以 ... 阅读全文 »
菜鸟学统计(三) 发表于 2019-04-06 | 分类于 统计学 字数统计: 1.7k 字 | 阅读时长 ≈ 6 分钟 假设检验上一部分提到了置信区间,这一部分提到的假设检验与置信区间一样都是深受中心极限定理的恩惠. 什么是假设检验?之前提到,我们手上数据实际并不能代表总体,它只是总体的一部分,是样本.而假设检验与置信区间一样,想通过样本数据来了解整体.假设检验是对对总体参数做了一个尝试性的假设,该尝试性的假设称为原 ... 阅读全文 »
菜鸟学NLP(三) 发表于 2019-04-06 | 分类于 NLP 字数统计: 5.1k 字 | 阅读时长 ≈ 24 分钟 不打算重新开一个系列了,直接在之前学习NLP的地方进行j记录学习,反正本来就是菜鸟. 本次任务是: Anaconda 安装 Conda 学习 Python编辑器安装与学习: jupyter notebook 或者 pycharm Tensorflow 库安装与学习安装的东西就不记录了网上的有,而 ... 阅读全文 »
菜鸟学统计(二) 发表于 2019-04-05 | 分类于 统计学 字数统计: 2k 字 | 阅读时长 ≈ 7 分钟 中心极限定理中心极限定理指的是给定一个任意分布的总体.每次从这些总体中随机抽取n个抽样,一共抽m次.然后把这m组抽样分别求出平均值,这些平均值的分布接近正态分布. 中心极限定理需要注意几点: 总体本身的分布不要求正态分布 样本每组足够大,但也不需要太大(不少于30) 用实际数据展示中心极限定理 ... 阅读全文 »
菜鸟学NLP(二) 发表于 2019-04-05 | 分类于 NLP 字数统计: 1.7k 字 | 阅读时长 ≈ 6 分钟 关于torchtext之前介绍过torchtext,在Pytorch-tutorial-学习(四)中,本以为可以省很多事,但用户体验太差….(也可能是我太菜). 它主要的流程是,先定义一个Field,在定义的同时可以包括各种文本预处理操作,比如分词、padding、初始化和,固定句长等.然后是将每一 ... 阅读全文 »
菜鸟学统计(一) 发表于 2019-04-04 | 分类于 统计学 字数统计: 4.2k 字 | 阅读时长 ≈ 16 分钟 统计学基本知识均值中位数众数 均值主要反映一系列数的平均程度,但及其容易受极端值的影响 中位数:将一系列数排序后,位于中间的数(如果是偶数个数则是中间的两个数,如果是奇数个数则是中间的那一个) 众数:一串数字序列中,出现次数最多的那个数。 12345678910111213nums=[1,2, ... 阅读全文 »
初级算法梳理(三) 发表于 2019-04-03 | 分类于 Datawhale 字数统计: 3.9k 字 | 阅读时长 ≈ 15 分钟 信息论基础熵如果X是一个离散型随机变量,其概率分布为:p(x)=P(X=x),x∈X.X的熵H(X)为: H[x]=-\sum_xp(x)lnp(x)约定0log0=0 联合熵如果X,Y是一对离散型随机变量X,Y~p(x,y),X,Y的联合熵H(X,Y)为: H(X,Y)=-\sum_{x∈X}\s ... 阅读全文 »