总结一下L2 = |W1|2,L1 = |w1|+|w2|+|w3|+|w4|….+ 这种空间下的参数,是L1 惩罚项,也就是一个函数,我们可以参考台湾大学 林轩田的课程,
在实际的AI的落地产品中,低资源的问题是一直存在的,在各种NLP的应用场景下。中文在语言中应该说标注数据是相对较多的,仅仅低于英语的标注资源。但是实际落地的项目中,低资源的难题依然困扰着算法工程师和相关从业人员。由于CV中图像连续性数据,而NLP中数据为离散数据,因此当我们进行局部改变时非常容易引起,整体信息的巨大改变:如情感发生逆转、关键信息丢失严重等等。 以智能对话系统的意图识别和槽填充为例子。也就是Slot filling and 意图识别。这两个任务分别数于NLP的四大基本任务中的序列标注和文本分类。也是我近期项目中遇到的问题,实际场景下的问题是远离paper的,但是paper中的低资源技巧十分有借鉴意义。
如何从数据中更好地学习到更为普适的通用数据分布和相应得通用规律,将基于数据的学习方法分为, 终身学习、 迁移学习、 元学习、 机器学习。
DSL是最为全面的ES查询语言,研究DSL的相关使用方法对于用好ES,是十分重要,ELasticsearch是十分出色的开源搜索数据库。 原理: 主要倒排索引表,结合字典前缀树,KD-tree等加快查找速度。