一周小结（一）

发表于 2019-07-01 | 分类于知识总结

字数统计: 784 字 | 阅读时长 ≈ 3 分钟

Conv1d一维的卷积操作是一种比较常见的处理sequence和timeseries问题的方法，往往在后面跟上一个1维的池化层。卷积或者池化的维度就是timestep的维度，它可以学习到一些local pattern,这主要由其window大小而定。相比于LSTM，这种计算要快很多。常用的做法: ...

阅读全文 »

菜鸟学shell（一）

发表于 2019-06-23 | 分类于 Shell ， Linux

字数统计: 4k 字 | 阅读时长 ≈ 15 分钟

简单入门许多中型,大型的程序都是用编译型语言写成,例如Fortran、C、C++或者java.这类程序只要从源码(source code)转换成目标代码(object code),便能直接通过计算机来执行编译语言的好处是高效,缺点是：他们呢多半运作于底层,所以处理的是字节、整数、浮点数.而脚本编程 ...

阅读全文 »

菜鸟学NLP（十）

发表于 2019-06-20 | 分类于 NLP

字数统计: 5.1k 字 | 阅读时长 ≈ 18 分钟

Deep Contextualized word representations前奏Distributed Representations of Words and Phrases and their Compositionality目标：通过新提出的模型结构从大数据集中提取出单词的连续向量表示。特 ...

阅读全文 »

菜鸟学git（一）

发表于 2019-06-13 | 分类于 git

字数统计: 3.1k 字 | 阅读时长 ≈ 11 分钟

什么是GitGit是目前世界上最先进的分布式版本控制系统(没有之一)优势就是可以版本控制,不需要同时存储下多个文件。网上看到的毕业论文版本管理不善的后果：而用Git,不仅显得高大上,更重要的是,能记录你的改动,并且可以回撤到特定版本.这样，你就结束了手动管理多个“版本”的史前时代，进入到版本控制的2 ...

阅读全文 »

菜鸟学NLP（九）

发表于 2019-06-12 | 分类于 NLP

字数统计: 3.9k 字 | 阅读时长 ≈ 14 分钟

命名实体识别（Named-entity recognition,NER）什么是命名实体识别命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。实体是一个抽象的对象，并不指定描述它的 ...

阅读全文 »

菜鸟学docker（三）

发表于 2019-06-11 | 分类于 Docker

字数统计: 2.3k 字 | 阅读时长 ≈ 8 分钟

快速打造分布式深度学习训练平台转自快速打造分布式深度学习训练平台如何在开源技术的帮助下，快速搭建起一个分布式的深度学习训练平台，加速深度神经网络的训练，提高公司的竞争力。接下来我们从四个角度来谈一下这个深度学习训练平台：为什么需要分布式训练平台搭建这个平台需要使用什么关键技术和框架当前的 ...

阅读全文 »

菜鸟学docker（二）

发表于 2019-06-10 | 分类于 Docker

字数统计: 14.2k 字 | 阅读时长 ≈ 57 分钟

Docker中文文档Image 镜像介绍在 Docker 的术语里，一个只读层被称为镜像，一个镜像是永久不会变的。由于 Docker 使用一个统一文件系统，Docker 进程认为整个文件系统是以读写方式挂载的。但是所有的变更都发生顶层的可写层，而下层的原始的只读镜像文件并未变化。由于镜像不可写， ...

阅读全文 »

菜鸟学Docker（一）

发表于 2019-06-10 | 分类于 Docker

字数统计: 5.6k 字 | 阅读时长 ≈ 19 分钟

引言软件开发最大的麻烦事之一就是环境配置，操作系统设置，各种库和组件的安装。只有它们都正确，软件才能运行。如果从一种操作系统里面运行另一种操作系统，通常我们采取的策略就是引入虚拟机，比如在 Windows 系统里面运行 Linux 系统。这种方式有个很大的缺点就是资源占用多、冗余步骤多、启动慢。目 ...

阅读全文 »

Spark（六）

发表于 2019-06-06 | 分类于 Spark

字数统计: 1.5k 字 | 阅读时长 ≈ 5 分钟

使用Spark处理流数据与信息Spark Streaming简介事件处理也被称为流处理,是大数据平台的关键组件之一.Spark项目所包含所包含的子项目Spark Streaming提供了具有容错性和数据保证的低延迟处理Spark Streaming 提供了一个与Spark基于RDD的批处理框架整合在 ...

阅读全文 »

Spark（五）

发表于 2019-06-05 | 分类于 Spark

字数统计: 6.6k 字 | 阅读时长 ≈ 24 分钟

使用Spark进行SQL与NoSQL编程Spark SQL简介结构化查询语言(SQL)是最常用的定义和表达数据问题的语言.许多数据分析师拥有把复杂问题解构为一系列SQL数据操作语言(Data Manipulation Language,DML),也就是SELECT语句的能力. Hive简介大数据处理 ...

阅读全文 »