NLP--自然语言处理简介
整理一下学习自然语言处理的笔记,第一课是简介.
自然语言处理的几个常见运用
1. 信息提取
如下面的这段话:
Hi Dan, we’ve now scheduled the curriculummeeting.
It will be in Gates 159 tomorrow from10:00-11:30.
-Chris
我们通过自然语言处理能够得出如下信息:
2. 语义分析
比如淘宝某个商品的评价,我们能够提取信息,并且根据语义来进行测评.
比如对于一个照相机
提取出如下的主要特征:
zoom ,affordability, size and weight, flash ,ease of use
我们根据语义分析,搜集到关于大小和重量的如下三个评价:
a.拿起来很好很舒适
b.好轻的照相机,我再也不用拿着又大又笨的机器到处跑了.
c.这个照相机太娇嫩了,拿在手上必须非常小心.
再进一步的,通过NLP,我们可以得出前两个是好的评价,最后一个是不好的.
通过这些,我们对于这款相机有了基于NLP的测评指标,如下:
3. 自动翻译.
这个不用解释了,百度翻译等等就是实例.
当前NLP发展研究的现状
很好解决了的问题:
1. 语言检测,判断某句话,某个词是什么语言.
如"spring"是英语,"春天"是中文.
2. 词性判定
动词,副词,形容词,主,谓,宾,等等.
3. 主题识别
时间,地点,任务等.
已经有了很好的效果:
1. 语义识别
如判断一句话是褒义还是贬义,是吐槽还是赞
2. 代词判断
如语言中的"他","它"指的是什么.
3. 二义性分析
像英语中的mouse有鼠标,老鼠两个意思.NLP要通过上下文判断具体是什么意思.
4. 解析语句
比如这句话:我能够通过这扇窗看到海.
NLP的任务是解析这句话的主谓宾,并得到其意思.
5. 自动翻译
6. 信息提取
就是一开始举的例子.提取出邮件的主要信息.
探索阶段问题:
1. 问答系统
2. 语义的总结归纳
如这样三句话:
沪深指数增长.
房价上涨
人民币增值
总结:经济很好.
3. 对话
类似于iphone的siri,人机对话.
为什么自然语言处理不容易?
1. 非标准话的语言
如火星语,省略句,语病等
2. 谚语,习语,地方性语言,新词.
3. 深层次的语言:
如:我和我的小伙伴们…
4. 专业语言:
如:KL距离,PCA
常用的解决方法.
运用机器学习,数据挖掘,统计学等等的方法来学习
接下来几篇blog继续NLP的讨论.