关于大数据的随记
很久没有随意的写一些东西了,最近很忙,但不知道在忙什么,清除自己要学什么但学的却很无力,很乏味。初步把自己的方向定在大数据上,深入算法,了解Java,也许是换了Mac,最近浪费了很多的时间,做很多无意义的事情,书没有继续看下去,视频没有看完,题没有刷完,实习也没有认真的去找,庆幸自己还记得这些还记得顺便更一篇博客,也不算是毫无意义了。
在Mac里又重装了一遍大数据的环境,对这个流程更加了解,出现的一些问题能够自己去解决,重新写了代码,新建项目,一切都推掉再来一遍,这仿佛是程序员最爱干的事,也是学习最快的方法吧。在老师的灌输下,其实自己对大数据的理解并不是很深刻,Hadoop,HDFS,MapReduce,HBASE,HIVE,SPARK,Streaming,kafka,Scala,Yarn,Zookeeper,好多好多的名词,Hadoop生态环境的组件很多,各司其职,每个组件的概念,意义,用法,协同合作的过程,自己都不是很清楚,感觉在Hadoop中基于分布式存储的HDFS进行大数据分析计算会更加高效,快捷,比起用Python脚本来,数据量越大,优势也会更明显,而实时的流处理框架,日志消息实时处理,是我以前从未想到过能够实现的技术,大数据会是潮流,会是趋势,但我更希望能够通过大数据来切入自己想要深入的人工智能方向,把大数据作为基石,一个切入点,以算法作为护航,不断的去实现自己。