最大熵、逻辑回归的关系 发表于 2019-05-25 | 分类于 Machine Learning 字数统计: 1.8k 字 | 阅读时长 ≈ 7 分钟 最大熵最大熵原理最大熵原理是概率模型学习的一个准则:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型 假设随机变量X的概率分布是P(X),则其熵为: H(P)=-\sum_xP(x)logP(x)熵满足不等式, 0≤H(P)≤log|X||X|为x的取值个数,仅当X服从均匀分 ... 阅读全文 »
Hadoop(一) 发表于 2019-05-22 | 分类于 Hadoop 字数统计: 2.2k 字 | 阅读时长 ≈ 7 分钟 Hadoop介绍需要Hadoop的初衷是:信息的爆炸式增长需要一种系统能够高效地存储管理和分析大量数据。采用的方法就是通过分布式存储方式来提高读写速度和扩大存储容量;用MapReduce整合分布式文件系统上的数据,保证高速分析处理数据;另外Hadoop这种系统还采用存储冗余数据来保证数据的安全性。 ... 阅读全文 »
腾讯广告算法大赛日志 发表于 2019-04-18 | 分类于 算法竞赛 字数统计: 9.9k 字 | 阅读时长 ≈ 42 分钟 4月18日比赛第一天,刚拿到数据,简单粗略的看了一遍数据,已将uer,ad_operation,ad_feature三个文件的里的杂乱数据转换成csv下的数据. 发现的一些问题: User文件 这里user_id 其实是乱排的,所以它不是连续的整型数据.所以如果用字符串处理它也是可以的,只要之后用s ... 阅读全文 »
时间序列相关算法与分析步骤(转) 发表于 2019-04-18 | 分类于 时间序列 字数统计: 1.5k 字 | 阅读时长 ≈ 5 分钟 转自:https://blog.csdn.net/omnispace?t=1 时间序列相关算法与分析步骤从时间的相关性角度可以把一个序列基本分为3类: 纯随机序列(白噪声序列):这时候可以停止分析,因为就像预测下一次硬币哪一面朝上一样毫无规律。 平稳非白噪声序列:它们的均值和方差是常数,对于这类序 ... 阅读全文 »
推荐系统论文阅读(九) 发表于 2019-04-17 | 分类于 Paper 字数统计: 2.9k 字 | 阅读时长 ≈ 10 分钟 计算广告常用指标ROI (Return On Investment): 投资回报率 =订单额/消费量(即广告费用)=(单均额转化量)/(CPA转化量)=单均额/CPA CPC (Cost Per Click): 按点击计费(平均点击价格)=消费量/点击量 CPA (Cost Per Action): ... 阅读全文 »
程序员代码面试指南(一) 发表于 2019-04-15 字数统计: 3k 字 | 阅读时长 ≈ 15 分钟 用一个栈实现另一个栈的排序只许申请一个栈,可以申请新的变量,但不能申请额外的数据结构.实现排序.1234567891011121314151617181920212223242526272829303132333435363738394041#include<iostream>#incl ... 阅读全文 »
推荐系统论文阅读(八) 发表于 2019-04-15 | 分类于 Paper 字数统计: 5.3k 字 | 阅读时长 ≈ 19 分钟 计算广告中的CTRCTR预测是计算广告中的一项重要任务.所谓CTR就是根据用户的特征来估计用户点击广告的概率用于CTR是一项分类任务,主要用于预估是否点击.并且所得到的用户特征数据,广告数据等多为离散型数据.最基本的模型是采用LR模型. max_w\frac{\lambda}{2}||w||_ 2^ ... 阅读全文 »
笔试刷题(一) 发表于 2019-04-13 | 分类于 笔试 字数统计: 2.9k 字 | 阅读时长 ≈ 13 分钟 字符串匹配题目描述牛牛有两个字符串A和B,其中A串是一个01串,B串中除了可能有0和1,还可能有’?’,B中的’?’可以确定为0或者1。 寻找一个字符串T是否在字符串S中出现的过程,称为字符串匹配。牛牛现在考虑所有可能的字符串B,有多少种可以在字符串A中完成匹配。 例如:A = “00010001” ... 阅读全文 »
菜鸟学NLP(六) 发表于 2019-04-12 | 分类于 NLP 字数统计: 1.1k 字 | 阅读时长 ≈ 4 分钟 Transformer模型结构:这是Transformer的网络结构,同样继承了先前的Seq2Seq模型的encoder(左侧)和decoder(右侧)结构.与之前的模型不同的是,Transformer中的encoder和decoder都不用RNN,而是换成了多个attention. Encoder ... 阅读全文 »
菜鸟学NLP(五) 发表于 2019-04-11 | 分类于 NLP 字数统计: 1.7k 字 | 阅读时长 ≈ 6 分钟 基本文本处理技能 基于词典的分词方法(字符串匹配,机械分词方法)基于词典的方法:字符串匹配、机械分词方法按照扫描方向的不同:正向匹配 & 逆向匹配按照长度的不同:最大匹配 & 最小匹配按照是否与词性标注过程相结合:单纯分词方法 & 分词与标注相结合 正向最大匹配法算法流程:假 ... 阅读全文 »