ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
etl包括大数据岗位中的离线数据开发,现在公司招聘写着etl开发,里面具体内容有hadoop那就一定是离线数据仓库开发.大概体的工作就是写sql或者脚本,然后建好调度任务,让他定时跑,很少设计到编程,也就是写代码
大概的学习路线就是linux->mysql/oracle->hadoop->hive,然后就是各种小工具,比如说抽数的kettle,datax,sqoop
调度任务的oozie,azkaban啊,这两个调度工具挺老了,现在最新的技术有dolphinscheduler,这种可视化的调度平台用起来比较舒服,不懂调度的意思只能自己学到这才能理解了
实时开发,基本都是写代码,我现在接触多的都是从数据线先放到消息中间件(kafka,rabbitmq,rocketmq,现在就这三大主流中间件,不懂的可以百度),然后从消息中间件取数后在代码中处理,用spark还是flink处理一般是看公司需求,然后根据业务需求放到hbase,clickhouse或者mysql,oracle等等,所以实时开发肯定比离线更难,离线开发的那一套你也得会
大概的学习路线就是离线开发那些肯定要的然后就是java,scala,kafka,hbase,spark,flink
最简单的我感觉应该就是bi了,只要会用简单的数据库和bi工具就行了,bi工具一般都有永洪啊,帆软啊,smartBI等等,这个学起来上手特别简单,在页面上拖拖拽拽就搞定了
etl包括大数据岗位中的离线数据开发,现在公司招聘写着etl开发,里面具体内容有hadoop那就一定是离线数据仓库开发.大概体的工作就是写sql或者脚本,然后建好调度任务,让他定时跑,很少设计到编程,也就是写代码
大概的学习路线就是linux->mysql/oracle->hadoop->hive,然后就是各种小工具,比如说抽数的kettle,datax,sqoop
调度任务的oozie,azkaban啊,这两个调度工具挺老了,现在最新的技术有dolphinscheduler,这种可视化的调度平台用起来比较舒服,不懂调度的意思只能自己学到这才能理解了
实时开发,基本都是写代码,我现在接触多的都是从数据线先放到消息中间件(kafka,rabbitmq,rocketmq,现在就这三大主流中间件,不懂的可以百度),然后从消息中间件取数后在代码中处理,用spark还是flink处理一般是看公司需求,然后根据业务需求放到hbase,clickhouse或者mysql,oracle等等,所以实时开发肯定比离线更难,离线开发的那一套你也得会
大概的学习路线就是离线开发那些肯定要的然后就是java,scala,kafka,hbase,spark,flink
最简单的我感觉应该就是bi了,只要会用简单的数据库和bi工具就行了,bi工具一般都有永洪啊,帆软啊,smartBI等等,这个学起来上手特别简单,在页面上拖拖拽拽就搞定了