笔试刷题（四）

发表于 2019-06-04 | 分类于笔试

字数统计: 1.2k 字 | 阅读时长 ≈ 3 分钟

迷宫问题https://mp.weixin.qq.com/s/b9E3oVZfLIGAgkeHQiu2Mw 迷宫问题总结: 搜索剪枝回溯这三点贯穿所有迷宫问题,包括其变形问题考虑一个简单的问题,从该迷宫中的起点走到终点.只需简单的查看是否碰到了墙,如果碰到了就换个方向走,同时要求不能往已 ...

阅读全文 »

Spark（四）

发表于 2019-06-03 | 分类于 Spark

字数统计: 5.8k 字 | 阅读时长 ≈ 21 分钟

Spark核心API高级编程Spark中的共享变量Spark API提供了两种在Spark集群中创建和使用共享变量(就是Spark集群中不同的工作节点都可以访问或者修改的变量)的机制.这两种机制是广播变量和累加器广播变量广播变量是由Spark驱动器程序设置的只读变量,可供Spark集群内的工作节点 ...

阅读全文 »

机器学习（七）——聚类总结

发表于 2019-06-02 | 分类于 Machine Learning

字数统计: 2.1k 字 | 阅读时长 ≈ 7 分钟

聚类总结聚类分析的思路：相似性衡量相似性衡量又可以细分为直接法和间接法:直接法是直接求取input data的相似性,间接法是求取data中提取出的feature的相似性.但无论是求data还是feature的相似性,方法都是这么几种: 距离.距离主要指Minkovski距离，Manhatt ...

阅读全文 »

Spark（三）

发表于 2019-05-31 | 分类于 Spark

字数统计: 6.9k 字 | 阅读时长 ≈ 25 分钟

Spark编程基础RDDRDD是Spark编程中最基本的数据对象。RDD是Spark应用中的数据集,无论是最初的加载的数据集还是任何中间结果的数据集,或是最终的结果数据集,都是RDD.大多数Spark应用从外部数据加载RDD,然后对已有的RDD进行操作来创建新的RDD.这些操作就是转化操作(trn ...

阅读全文 »

菜鸟学NLP（八）

发表于 2019-05-30 | 分类于 NLP

字数统计: 4.9k 字 | 阅读时长 ≈ 18 分钟

自然语言常识自然语言种的数据平滑算法Laplace smoothing(Add-one)于是对于n-gram的模型而言，假设V是所有可能的不同的N-gram的类型个数，那么根据贝叶斯公式有: P(w_i|w_{i-n+1},...,w_{i-1})=\frac{C(w_{i-n+1},..,w_i) ...

阅读全文 »

菜鸟学NLP（七）

发表于 2019-05-30 | 分类于 NLP

字数统计: 1.6k 字 | 阅读时长 ≈ 5 分钟

文本分类大纲文本分类这个系列将会有十篇左右，包括基于word2vec预训练的文本分类，与及基于最新的预训练模型（ELMo，BERT等）的文本分类。总共有以下系列： word2vec预训练词向量 textCNN 模型 charCNN 模型 Bi-LSTM 模型 Bi-LSTM + Attention ...

阅读全文 »

Spark（二）

发表于 2019-05-28 | 分类于 Spark

字数统计: 1.8k 字 | 阅读时长 ≈ 6 分钟

理解Spark集群架构无论是使用单机运行Spark,还是使用成百上千台机器组成额集群,Spark应用里始终存在几个组件.Spark应用组件包括：驱动器(driver)、主进程(master)、集群管理器(cluster manager)以及至少一个执行器(executor)[存在于工作节点(work ...

阅读全文 »

笔试刷题（三）

发表于 2019-05-28 | 分类于笔试

字数统计: 6.4k 字 | 阅读时长 ≈ 25 分钟

KMP实战旋转词问题‘34512’就是‘12345’的一种旋转词,因此给定一个序列可以有多个旋转词,为了判断我们手上的一个序列A是否是序列B的旋转词.可以考虑‘1234512345’中找’34512’这个字串.采用KMP方法斐波那契数列(矩阵乘法)复杂度log(n)当任何问题是递推式形式(固定递推 ...

阅读全文 »

笔试刷题（二）

发表于 2019-05-27 | 分类于笔试

字数统计: 1.9k 字 | 阅读时长 ≈ 7 分钟

堆堆排序堆排序是利用堆进行排序的堆是一种完全二叉树堆有两种形式:大根堆和小根堆大根堆：每个节点的值都大于或等于左右孩子节点小根堆:每个节点的值都小于或等于左右孩子节点如果给大小根堆的根节点从1开始编号,则满足下面关系左侧的是小根堆,右侧是大根堆堆的特点:这种结构处于一种半排序状态,它的存 ...

阅读全文 »

Spark（一）

发表于 2019-05-27 | 分类于 Spark

字数统计: 8.5k 字 | 阅读时长 ≈ 30 分钟

初识SparkSpark是一个开源的强大的分布式查询和处理引擎.他提供了MapReduce 的灵活性和可扩展性,但速度明显更高：当数据存储在内存中时,他比Hadoop快100倍,访问磁盘时高达10倍。 Spark允许用户读取、转换、聚合数据,还可以轻松地训练和部署复杂地统计模型. pandas处理千 ...

阅读全文 »