Skip to content

Instantly share code, notes, and snippets.

@fanfeilong
Last active August 29, 2015 14:17
Show Gist options
  • Save fanfeilong/322c0c12b87246f1ad6e to your computer and use it in GitHub Desktop.
Save fanfeilong/322c0c12b87246f1ad6e to your computer and use it in GitHub Desktop.
《数学之美》读书笔记(二)

备注:笔记类帖子只是在看书过程中的结构化树形缓存,以及少量评注,只做以后整理的素材之用。

  • 图灵测试
  • 达特茅斯夏季人工智能研究会议
  • 基于规则的自然语言
    • 人类学习语言
      • 语法规则(Grammar Rules)
      • 词性(Part of Speech)
      • 构词法(Morphologic)
    • 早期对自然语言处理的分层
      • 应用层
        • 语音识别
        • 机器翻译
        • 自动问答
        • 自动摘要
      • 认知层:自然语言理解
      • 基础层
        • 句法分析
        • 语义分析
    • 句法分析
      • 宾夕法尼亚大学的语言数据库(LDC)
      • 文法规则
        • 20世纪80年代之前,自然语言处理的文法规则大都是人工写的
        • 直到2000年后,很多公司,比如著名的机器翻译公司SysTran,还是靠人工来总结文法规则
    • 乔姆斯基形式语言的编译器技术
      • 上下文有关文法(Context Dependence Grammar)
        • 可在多项式事件内解决问题(Polynomial Problem)
        • 复杂度是语句长度的二次方
      • 上下文无关文法(Context Independent Grammar)
        • 复杂度是语句长度的六次方
    • 科学家们原本以为随着对自然语言语法概括得越来越全面,同时计算机计算能力的提高,这种方法可以逐步解决自然语言理解的问题。
      • 首先,要想通过文法规则覆盖哪怕20%真实语句,文法规则的数量也至少是几万条。
      • 其次,即使能够写出涵盖所有自然语言现象的语法规则集合,也很难用计算机来解析。
  • 基于统计的自然语言处理
    • 1970年以后统计语言学的出现使得自然语言处理重获新生,并取得了今天的非凡成就。
    • 德里克·贾里尼克(Fredrick Jelinek)
      • 吴军
    • IBM华生实验室(T.J.Watson)
      • 最初他们没有想解决自然语言处理的各种问题,而只希望解决语音识别的问题。
    • 卡耐基·梅隆大学
      • 阿尔费雷德·斯伯格特(Alfred Spector)
      • 拉杰·雷迪(Raj Reddy)
        • 李开复
        • 洪小文
    • 宾夕法尼亚大学
    • 米奇·马库斯(Mitch Marcus)
    • 基于规则和基于统计的派系分裂
      • 15年,对于一个学者来讲是一段非常长的时间,如果哪个人从博士开始就选错了方向并且坚持错误,到15年后才发现,基本上这一辈子可

能就一事无成了。 - 用基于统计的方法代替传统的方法,需要等原有的一批语言学家退休。这在科学史上也是经常发生的事。

  • 对比
    • 句法分析输入是一维,输出是二维
    • 马尔科夫法,输入是一维,输出是一维
      • 语音,胜出
      • 词性
        • 一个语法成分对另一个语法成分的修饰关系不一定相邻,而是中间隔了很多短语
        • 只有基于有向图的统计模型才能很好的解决复杂的句法分析
      • 机器翻译
        • 输出虽然还是一维,但次序发生变化
        • 1988,彼得·布朗(Peter Brown)等人提出基于统计的机器翻译框架
          • 框架是对的,但没有足够的数据,也没有足够强大的模型来解决不同语言次序颠倒的问题
      • 2005年以后,随着Google基于统计方法的翻译系统全面超过基于规则方法的SysTran翻译系统。
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment