Too simple, sometimes naive


  • 28 Feb 2021
    Spark RDD简介

    我相信时至今日,应该没有人没有听说过Spark这个系统的大名。在众多的互联网企业中,或多或少都一定程度的部署或者使用了这套系统,应用相当广泛。

    more...

  • 21 Feb 2021
    大数据领域经典系统之FlumeJava

    发现接近有一年没有更新这个blog了,这一年里面变化了很多,最大的是成为了父亲、有了一个聪明可爱的女儿,另外也在年中的时候更换了工作。剧烈的身份变化,使得纯粹的技术学习有些停滞,因此准备重新捡起,继续找回之前的状态,希望自己能恢复到半月一更新的状态。

    more...

  • 21 Mar 2020
    经典分布式论文阅读之GFS

    GFS1发表于SOSP’03,与前面发布的MapReduce一道,是当时Google为了应对自身业务海量数据处理需求而研发的系统。在GFS之前,也存在不少NAS(Network Attached Storage)形态的分布式文件系统,那么GFS的不同体现在哪些方面呢?

    1. 本文是MIT-6.824课程的阅读作业 

    more...

  • 08 Mar 2020
    经典MapReduce论文阅读记录

    前一阶段将主要的学习精力放在了深度学习上,过了一遍Coursera上的deeplearning.ai系列课程,对DNN的基本概念有了一定的了解。近期会将技术学习的重心回归到我的本行分布式系统上。从某种程度上来说,技术热点什么的,随着行业的发展会不停的变化;但一些基础性的东西,却能够长期的存在下去,因此有必要每隔一段时间做一些基本功的夯实动作,结合当前时代特点,沉淀历史知识中最精华的部分。

    more...

  • 16 Nov 2019
    DNN训练的优化

    前面介绍了深度学习训练中使用的最基本的梯度下降法,在实际应用中,往往需要在基本的梯度下降法中做一些调整,以加速收敛、减少模型训练的时间。

    more...

  • 06 Nov 2019
    DNN训练与调优过程

    机器学习是一个持续迭代改进的过程。一般而言,我们需要先快速的构造一个基本满足需求的系统,得到第一个版本的模型。然后,尽快将其投入到测试或者线上环境中、测试这个模型执行情况、收集观测数据。而后根据观察到的指标情况分析下一步的优化方向,改进得到下一个版本的模型。

    more...

  • 31 Oct 2019
    什么是DNN?

    在人工智能发展的早期阶段,科学家们的大思路是通过构建完备的逻辑演化系统,将各种规则输入计算机后由计算机进行模拟计算。但现实世界是相当复杂的,基于规则演化模型的人工智能效果并不理想。因此,有人提出了仿生学的思路,即模仿人的大脑结构、仿真神经元组建而成的神经网络的工作过程,来实现人工智能的终极目标。

    more...

  • 02 Oct 2019
    关于DeepLearning.ai系列课程

    整个计算机行业正在经历从大数据时代向人工智能时代、消费互联网向产业互联网转型的变革时期。处于漩涡中心的深度学习(DNN)技术,出镜率极高。每次在网上闲逛看到相关材料,DNN的一些词汇反复出现却不知道是什么意思。因此,为防止被大潮甩落,我花了近半年的时间,在Coursera上系统的学习了大名鼎鼎的deeplearning.ai系列课程,算是给自己补补课。

    more...