006.35-中文信息处理@tj.md

第一周 0305

传统方法和深度学习结合。传统方法依然值得借鉴，深度学习囫囵吞枣，问题也不去分析，这样不妥。
发展历史
- 上世纪60年代计算能力太差，关键字匹配为主，70年代语法语义分析，80年开始繁荣，实用化、工程化，2018年BERT大幅提升，更多人对NLP感兴趣
- 基于统计的方法，也是随着硬件提升，因为需要语料库，需要有计算能力
- ELIZA
- 中文信息处理80年代起步，是因为几大障碍：1、输入，2、分词，3、句法分析（仍然困难）
  - 92年分词标准
  - 知网一开始是
  - 人日语料库也很重要
  - sig：特殊兴趣小组
应用领域
- 信息检索领域，微软为bing开研究院研究中文检索
- QA，闲聊还是特定领域开发时更困难？
发展趋势
- 深度学习好，但资源占用高，对于本模块资源少，或者语料少时，还是需要传统方法发挥作用。
- 基础领域已经有规范，但问答、摘要等，答案很有主观性的领域，还需要评价规范
课程安排
- 课程目的
  - 主题都明白，而且很多知识都能用得到
- 课程安排
  - 词法は分词、语法は词性标注（别的不太成熟，作为课程就不讲了）、语义分析跟语法分析是并列的是因为很多时候直接依靠词法（课上不大讲），2/3都是讲应用领域的内容
相关拓展
- 语言处理可以用文本的后处理来提升质量
- 时间接洽的话可以用比赛当大作业
第二章自动分词（传统方法）
- 要了解规范，知道自己的算法有没有错
- 不用词典只用语料库的为主流
- 机械分词（基于词典的）
  - 分词词典
  - 以后作业不用这个方法可能用不到这方面知识
  - 正/逆向最大匹配
    问题：为什么要设计正向、逆向、最大、最小的算法？为什么这么多种？
    我觉，最小匹配快，但会把长词组切碎；逆向比较适合常见的定中结构的名词
    歧义的解决方法之一，正逆向分词的结果不同是判断依据之一

Previous006.32-深学@tj.md Next028-作品推荐.md

Last updated 2 years ago