前提你已经了解李航的(1)统计机器学习中大部分的模型原理,(2)中文自然语言处理,以及(3)吴恩达的深度学习中的神经网络的基础知识。跑过几个实战的例子和书籍。接下去如何进一步提升自己。
1:数据预处理和分析,Pandas 和Numpy 模块熟练使用,至少分析出数据分布和质量。trainset 和 devset 。因为tensor 基于np.array 进行初始化,np.array 类型数据直接可以送入tensorflow 和 pytorch 这种DL 框架,并且对于sklearn 和 lightGBM也是友好的。pandas 和numpy 建议在kaggle 或者ccks ,科大讯飞, 百度,天池这种比赛中,实战使用,一边使用一边总结。也可以使用matplot这种可视化框架,看起来比较炫酷。工作中大规模数据文本处理,我们可以用分布式的spark3.0 平台,也可能会接触到一些storm的数据流平台,还有Mars, CuML等加速分布式框架,也是我们进阶时可能会用到的框架。
2: DL 框架, 几大门派,基于transformer 或者tensorflowhub, pytorch_hub的相关tf2.x 和 tf 1.x,pytorch 的相关DL 框架使用和熟练程度。建议tf2.0 和 pytorch这几种开源的模型较多,几乎做任务都要用到别人的模型代码,这种时候就会体现出这两种框架的优势。Tensorflow 框架部署简单一些,pytorch 目前也有一些很好用高并发部署框架, 如 torch_serving 但是总体成熟度不够高。gunicorn+ngnix +flask 等做的部署套件,libtorch 部署pytorch模型等等。总体还是tf 模型的工业成熟度要高一些。
3: 预训练模型一系列的pretrain 和 finetune任务, 以及源代码的阅读,BERT,GPT(X)为代表的预训练模型是最好的分布式表示方法。
4: 顶会论文,和知名企业开源代码。
如果我们可以随心所欲的使用pandas