NLP进阶经验分享

前提你已经了解李航的（1）统计机器学习中大部分的模型原理，（2）中文自然语言处理，以及（3）吴恩达的深度学习中的神经网络的基础知识。跑过几个实战的例子和书籍。接下去如何进一步提升自己。

1：数据预处理和分析，Pandas 和Numpy 模块熟练使用，至少分析出数据分布和质量。trainset 和 devset 。因为tensor 基于np.array 进行初始化，np.array 类型数据直接可以送入tensorflow 和 pytorch 这种DL 框架，并且对于sklearn 和 lightGBM也是友好的。pandas 和numpy 建议在kaggle 或者ccks ，科大讯飞，百度，天池这种比赛中，实战使用，一边使用一边总结。也可以使用matplot这种可视化框架，看起来比较炫酷。工作中大规模数据文本处理，我们可以用分布式的spark3.0 平台，也可能会接触到一些storm的数据流平台，还有Mars, CuML等加速分布式框架，也是我们进阶时可能会用到的框架。

2： DL 框架，几大门派，基于transformer 或者tensorflowhub, pytorch_hub的相关tf2.x 和 tf 1.x，pytorch 的相关DL 框架使用和熟练程度。建议tf2.0 和 pytorch这几种开源的模型较多，几乎做任务都要用到别人的模型代码，这种时候就会体现出这两种框架的优势。Tensorflow 框架部署简单一些，pytorch 目前也有一些很好用高并发部署框架, 如 torch_serving 但是总体成熟度不够高。gunicorn+ngnix +flask 等做的部署套件，libtorch 部署pytorch模型等等。总体还是tf 模型的工业成熟度要高一些。

3: 预训练模型一系列的pretrain 和 finetune任务，以及源代码的阅读，BERT，GPT（X）为代表的预训练模型是最好的分布式表示方法。

4: 顶会论文，和知名企业开源代码。

如果我们可以随心所欲的使用pandas

NLP进阶经验分享

Similar Posts

Comments