备注:笔记类帖子只是在看书过程中的结构化树形缓存,以及少量评注,只做以后整理的素材之用。
- 图灵测试
- 达特茅斯夏季人工智能研究会议
- 基于规则的自然语言
- 人类学习语言
- 语法规则(Grammar Rules)
- 词性(Part of Speech)
- 构词法(Morphologic)
- 早期对自然语言处理的分层
- 应用层
- 语音识别
- 机器翻译
- 自动问答
- 自动摘要
- 认知层:自然语言理解
- 基础层
- 句法分析
- 语义分析
- 应用层
- 句法分析
- 宾夕法尼亚大学的语言数据库(LDC)
- 文法规则
- 20世纪80年代之前,自然语言处理的文法规则大都是人工写的
- 直到2000年后,很多公司,比如著名的机器翻译公司SysTran,还是靠人工来总结文法规则
- 乔姆斯基形式语言的编译器技术
- 上下文有关文法(Context Dependence Grammar)
- 可在多项式事件内解决问题(Polynomial Problem)
- 复杂度是语句长度的二次方
- 上下文无关文法(Context Independent Grammar)
- 复杂度是语句长度的六次方
- 上下文有关文法(Context Dependence Grammar)
- 科学家们原本以为随着对自然语言语法概括得越来越全面,同时计算机计算能力的提高,这种方法可以逐步解决自然语言理解的问题。
- 首先,要想通过文法规则覆盖哪怕20%真实语句,文法规则的数量也至少是几万条。
- 其次,即使能够写出涵盖所有自然语言现象的语法规则集合,也很难用计算机来解析。
- 人类学习语言
- 基于统计的自然语言处理
- 1970年以后统计语言学的出现使得自然语言处理重获新生,并取得了今天的非凡成就。
- 德里克·贾里尼克(Fredrick Jelinek)
- 吴军
- IBM华生实验室(T.J.Watson)
- 最初他们没有想解决自然语言处理的各种问题,而只希望解决语音识别的问题。
- 卡耐基·梅隆大学
- 阿尔费雷德·斯伯格特(Alfred Spector)
- 拉杰·雷迪(Raj Reddy)
- 李开复
- 洪小文
- 宾夕法尼亚大学
- 米奇·马库斯(Mitch Marcus)
- 基于规则和基于统计的派系分裂
- 15年,对于一个学者来讲是一段非常长的时间,如果哪个人从博士开始就选错了方向并且坚持错误,到15年后才发现,基本上这一辈子可
能就一事无成了。 - 用基于统计的方法代替传统的方法,需要等原有的一批语言学家退休。这在科学史上也是经常发生的事。
- 对比
- 句法分析输入是一维,输出是二维
- 马尔科夫法,输入是一维,输出是一维
- 语音,胜出
- 词性
- 一个语法成分对另一个语法成分的修饰关系不一定相邻,而是中间隔了很多短语
- 只有基于有向图的统计模型才能很好的解决复杂的句法分析
- 机器翻译
- 输出虽然还是一维,但次序发生变化
- 1988,彼得·布朗(Peter Brown)等人提出基于统计的机器翻译框架
- 框架是对的,但没有足够的数据,也没有足够强大的模型来解决不同语言次序颠倒的问题
- 2005年以后,随着Google基于统计方法的翻译系统全面超过基于规则方法的SysTran翻译系统。
-
现代自然语言处理
- 机器翻译
- 语音识别
- 文本到数据库的自动生成
- 数据挖掘
- 知识的获取
-
什么是人工智能