笔试刷题(四) 发表于 2019-06-04 | 分类于 笔试 字数统计: 1.2k 字 | 阅读时长 ≈ 3 分钟 迷宫问题https://mp.weixin.qq.com/s/b9E3oVZfLIGAgkeHQiu2Mw 迷宫问题总结: 搜索 剪枝 回溯 这三点贯穿所有迷宫问题,包括其变形问题 考虑一个简单的问题,从该迷宫中的起点走到终点.只需简单的查看是否碰到了墙,如果碰到了就换个方向走,同时要求不能往已 ... 阅读全文 »
Spark(四) 发表于 2019-06-03 | 分类于 Spark 字数统计: 5.8k 字 | 阅读时长 ≈ 21 分钟 Spark核心API高级编程Spark中的共享变量Spark API提供了两种在Spark集群中创建和使用共享变量(就是Spark集群中不同的工作节点都可以访问或者修改的变量)的机制.这两种机制是广播变量和累加器 广播变量广播变量是由Spark驱动器程序设置的只读变量,可供Spark集群内的工作节点 ... 阅读全文 »
机器学习(七)——聚类总结 发表于 2019-06-02 | 分类于 Machine Learning 字数统计: 2.1k 字 | 阅读时长 ≈ 7 分钟 聚类总结聚类分析的思路: 相似性衡量相似性衡量又可以细分为直接法和间接法:直接法是直接求取input data的相似性,间接法是求取data中提取出的feature的相似性.但无论是求data还是feature的相似性,方法都是这么几种: 距离.距离主要指Minkovski距离,Manhatt ... 阅读全文 »
Spark(三) 发表于 2019-05-31 | 分类于 Spark 字数统计: 6.9k 字 | 阅读时长 ≈ 25 分钟 Spark编程基础RDDRDD是Spark编程中最基本的数据对象。RDD是Spark应用中的数据集,无论是最初的加载的数据集还是任何中间结果的数据集,或是最终的结果数据集,都是RDD.大多数Spark应用从外部数据加载RDD,然后对已有的RDD进行操作来创建新的RDD.这些操作就是 转化操作(trn ... 阅读全文 »
菜鸟学NLP(八) 发表于 2019-05-30 | 分类于 NLP 字数统计: 4.9k 字 | 阅读时长 ≈ 18 分钟 自然语言常识自然语言种的数据平滑算法Laplace smoothing(Add-one)于是对于n-gram的模型而言,假设V是所有可能的不同的N-gram的类型个数,那么根据贝叶斯公式有: P(w_i|w_{i-n+1},...,w_{i-1})=\frac{C(w_{i-n+1},..,w_i) ... 阅读全文 »
菜鸟学NLP(七) 发表于 2019-05-30 | 分类于 NLP 字数统计: 1.6k 字 | 阅读时长 ≈ 5 分钟 文本分类大纲文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。总共有以下系列: word2vec预训练词向量 textCNN 模型 charCNN 模型 Bi-LSTM 模型 Bi-LSTM + Attention ... 阅读全文 »
Spark(二) 发表于 2019-05-28 | 分类于 Spark 字数统计: 1.8k 字 | 阅读时长 ≈ 6 分钟 理解Spark集群架构无论是使用单机运行Spark,还是使用成百上千台机器组成额集群,Spark应用里始终存在几个组件.Spark应用组件包括:驱动器(driver)、主进程(master)、集群管理器(cluster manager)以及至少一个执行器(executor)[存在于工作节点(work ... 阅读全文 »
笔试刷题(三) 发表于 2019-05-28 | 分类于 笔试 字数统计: 6.4k 字 | 阅读时长 ≈ 25 分钟 KMP实战旋转词问题‘34512’就是‘12345’的一种旋转词,因此给定一个序列可以有多个旋转词,为了判断我们手上的一个序列A是否是序列B的旋转词.可以考虑‘1234512345’中找’34512’这个字串.采用KMP方法 斐波那契数列(矩阵乘法)复杂度log(n)当任何问题是递推式形式(固定递推 ... 阅读全文 »
笔试刷题(二) 发表于 2019-05-27 | 分类于 笔试 字数统计: 1.9k 字 | 阅读时长 ≈ 7 分钟 堆堆排序 堆排序是利用堆进行排序的 堆是一种完全二叉树 堆有两种形式:大根堆和小根堆大根堆:每个节点的值都大于或等于左右孩子节点小根堆:每个节点的值都小于或等于左右孩子节点 如果给大小根堆的根节点从1开始编号,则满足下面关系左侧的是小根堆,右侧是大根堆 堆的特点:这种结构处于一种半排序状态,它的存 ... 阅读全文 »
Spark(一) 发表于 2019-05-27 | 分类于 Spark 字数统计: 8.5k 字 | 阅读时长 ≈ 30 分钟 初识SparkSpark是一个开源的强大的分布式查询和处理引擎.他提供了MapReduce 的灵活性和可扩展性,但速度明显更高:当数据存储在内存中时,他比Hadoop快100倍,访问磁盘时高达10倍。 Spark允许用户读取、转换、聚合数据,还可以轻松地训练和部署复杂地统计模型. pandas处理千 ... 阅读全文 »