最大熵、逻辑回归的关系

发表于 2019-05-25 | 分类于 Machine Learning

字数统计: 1.8k 字 | 阅读时长 ≈ 7 分钟

最大熵最大熵原理最大熵原理是概率模型学习的一个准则:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型假设随机变量X的概率分布是P(X),则其熵为: H(P)=-\sum_xP(x)logP(x)熵满足不等式， 0≤H(P)≤log|X||X|为x的取值个数,仅当X服从均匀分 ...

阅读全文 »

Hadoop（一）

发表于 2019-05-22 | 分类于 Hadoop

字数统计: 2.2k 字 | 阅读时长 ≈ 7 分钟

Hadoop介绍需要Hadoop的初衷是：信息的爆炸式增长需要一种系统能够高效地存储管理和分析大量数据。采用的方法就是通过分布式存储方式来提高读写速度和扩大存储容量；用MapReduce整合分布式文件系统上的数据，保证高速分析处理数据；另外Hadoop这种系统还采用存储冗余数据来保证数据的安全性。 ...

阅读全文 »

腾讯广告算法大赛日志

发表于 2019-04-18 | 分类于算法竞赛

字数统计: 9.9k 字 | 阅读时长 ≈ 42 分钟

4月18日比赛第一天,刚拿到数据,简单粗略的看了一遍数据,已将uer,ad_operation,ad_feature三个文件的里的杂乱数据转换成csv下的数据. 发现的一些问题: User文件这里user_id 其实是乱排的,所以它不是连续的整型数据.所以如果用字符串处理它也是可以的,只要之后用s ...

阅读全文 »

时间序列相关算法与分析步骤(转)

发表于 2019-04-18 | 分类于时间序列

字数统计: 1.5k 字 | 阅读时长 ≈ 5 分钟

转自：https://blog.csdn.net/omnispace?t=1 时间序列相关算法与分析步骤从时间的相关性角度可以把一个序列基本分为3类: 纯随机序列(白噪声序列):这时候可以停止分析，因为就像预测下一次硬币哪一面朝上一样毫无规律。平稳非白噪声序列:它们的均值和方差是常数,对于这类序 ...

阅读全文 »

程序员代码面试指南（一）

发表于 2019-04-15

字数统计: 3k 字 | 阅读时长 ≈ 15 分钟

用一个栈实现另一个栈的排序只许申请一个栈,可以申请新的变量,但不能申请额外的数据结构.实现排序.1234567891011121314151617181920212223242526272829303132333435363738394041#include<iostream>#incl ...

阅读全文 »

笔试刷题（一）

发表于 2019-04-13 | 分类于笔试

字数统计: 2.9k 字 | 阅读时长 ≈ 13 分钟

字符串匹配题目描述牛牛有两个字符串A和B,其中A串是一个01串,B串中除了可能有0和1,还可能有’?’,B中的’?’可以确定为0或者1。寻找一个字符串T是否在字符串S中出现的过程,称为字符串匹配。牛牛现在考虑所有可能的字符串B,有多少种可以在字符串A中完成匹配。例如:A = “00010001” ...

阅读全文 »

菜鸟学NLP（六）

发表于 2019-04-12 | 分类于 NLP

字数统计: 1.1k 字 | 阅读时长 ≈ 4 分钟

Transformer模型结构：这是Transformer的网络结构,同样继承了先前的Seq2Seq模型的encoder(左侧)和decoder(右侧)结构.与之前的模型不同的是,Transformer中的encoder和decoder都不用RNN,而是换成了多个attention. Encoder ...

阅读全文 »