006.35-中文信息处理@tj.md

第一周 0305

  • 传统方法和深度学习结合。传统方法依然值得借鉴,深度学习囫囵吞枣,问题也不去分析,这样不妥。

  • 发展历史

    • 上世纪60年代计算能力太差,关键字匹配为主,70年代语法语义分析,80年开始繁荣,实用化、工程化,2018年BERT大幅提升,更多人对NLP感兴趣

    • 基于统计的方法,也是随着硬件提升,因为需要语料库,需要有计算能力

    • ELIZA

    • 中文信息处理80年代起步,是因为几大障碍:1、输入,2、分词,3、句法分析(仍然困难)

      • 92年分词标准

      • 知网一开始是

      • 人日语料库也很重要

      • sig:特殊兴趣小组

  • 应用领域

    • 信息检索领域,微软为bing开研究院研究中文检索

    • QA,闲聊还是特定领域开发时更困难?

  • 发展趋势

    • 深度学习好,但资源占用高,对于本模块资源少,或者语料少时,还是需要传统方法发挥作用。

    • 基础领域已经有规范,但问答、摘要等,答案很有主观性的领域,还需要评价规范

  • 课程安排

    • 课程目的

      • 主题都明白,而且很多知识都能用得到

    • 课程安排

      • 词法は分词、语法は词性标注(别的不太成熟,作为课程就不讲了)、语义分析跟语法分析是并列的是因为很多时候直接依靠词法(课上不大讲),2/3都是讲应用领域的内容

  • 相关拓展

    • 语言处理可以用文本的后处理来提升质量

    • 时间接洽的话可以用比赛当大作业

  • 第二章 自动分词(传统方法)

    • 要了解规范,知道自己的算法有没有错

    • 不用词典只用语料库的为主流

    • 机械分词(基于词典的)

      • 分词词典

      • 以后作业不用这个方法可能用不到这方面知识

      • 正/逆向最大匹配

        • 问题:为什么要设计正向、逆向、最大、最小的算法?为什么这么多种?

          • 我觉,最小匹配快,但会把长词组切碎;逆向比较适合常见的定中结构的名词

        • 歧义的解决方法之一,正逆向分词的结果不同是判断依据之一

Last updated