《数学之美》读书笔记（二）

备注：笔记类帖子只是在看书过程中的结构化树形缓存，以及少量评注，只做以后整理的素材之用。

图灵测试
达特茅斯夏季人工智能研究会议
基于规则的自然语言
- 人类学习语言
  - 语法规则（Grammar Rules）
  - 词性（Part of Speech）
  - 构词法（Morphologic）
- 早期对自然语言处理的分层
  - 应用层
    - 语音识别
    - 机器翻译
    - 自动问答
    - 自动摘要
  - 认知层：自然语言理解
  - 基础层
    - 句法分析
    - 语义分析
- 句法分析
  - 宾夕法尼亚大学的语言数据库（LDC）
  - 文法规则
    - 20世纪80年代之前，自然语言处理的文法规则大都是人工写的
    - 直到2000年后，很多公司，比如著名的机器翻译公司SysTran，还是靠人工来总结文法规则
- 乔姆斯基形式语言的编译器技术
  - 上下文有关文法（Context Dependence Grammar）
    - 可在多项式事件内解决问题（Polynomial Problem）
    - 复杂度是语句长度的二次方
  - 上下文无关文法（Context Independent Grammar）
    - 复杂度是语句长度的六次方
- 科学家们原本以为随着对自然语言语法概括得越来越全面，同时计算机计算能力的提高，这种方法可以逐步解决自然语言理解的问题。
  - 首先，要想通过文法规则覆盖哪怕20%真实语句，文法规则的数量也至少是几万条。
  - 其次，即使能够写出涵盖所有自然语言现象的语法规则集合，也很难用计算机来解析。
基于统计的自然语言处理
- 1970年以后统计语言学的出现使得自然语言处理重获新生，并取得了今天的非凡成就。
- 德里克·贾里尼克（Fredrick Jelinek）
  - 吴军
- IBM华生实验室（T.J.Watson）
  - 最初他们没有想解决自然语言处理的各种问题，而只希望解决语音识别的问题。
- 卡耐基·梅隆大学
  - 阿尔费雷德·斯伯格特（Alfred Spector)
  - 拉杰·雷迪（Raj Reddy）
    - 李开复
    - 洪小文
- 宾夕法尼亚大学
- 米奇·马库斯（Mitch Marcus）
- 基于规则和基于统计的派系分裂
  - 15年，对于一个学者来讲是一段非常长的时间，如果哪个人从博士开始就选错了方向并且坚持错误，到15年后才发现，基本上这一辈子可

能就一事无成了。 - 用基于统计的方法代替传统的方法，需要等原有的一批语言学家退休。这在科学史上也是经常发生的事。

对比
- 句法分析输入是一维，输出是二维
- 马尔科夫法，输入是一维，输出是一维
  - 语音，胜出
  - 词性
    - 一个语法成分对另一个语法成分的修饰关系不一定相邻，而是中间隔了很多短语
    - 只有基于有向图的统计模型才能很好的解决复杂的句法分析
  - 机器翻译
    - 输出虽然还是一维，但次序发生变化
    - 1988，彼得·布朗（Peter Brown）等人提出基于统计的机器翻译框架
      - 框架是对的，但没有足够的数据，也没有足够强大的模型来解决不同语言次序颠倒的问题
  - 2005年以后，随着Google基于统计方法的翻译系统全面超过基于规则方法的SysTran翻译系统。

现代自然语言处理
- 机器翻译
- 语音识别
- 文本到数据库的自动生成
- 数据挖掘
- 知识的获取
什么是人工智能

fanfeilong/math.note.2.md

Select an option

No results found

Select an option

No results found