多国语言处理

开发平台：
Visual C++

产品介绍.txt：源码内容
							
海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果，共同提高中文信息处理水平，特此发布《海量智能分词研究版》，供专家学者和爱好者进行研究。
《海量智能分词研究版》仅供研究分析和学术交流，不能用于商业用途。
由于《海量智能分词研究版》仅供研究分析和学术交流，所以与正式版本在性能上有一定差别，如果需要正式版本用于商业用途，请与海量智能计算技术研究中心联系。
本次发布的海量智能分词研究版接口介绍: 
一、	海量智能分词基础件: 
何为分词? 中文分词与其他的分词又有什么不同呢? 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程. 我们知道, 在英文的行文中, 单词之间是以空格作为自然分界符的, 而中文只是字、句和段可以通过明显的分界符来简单划界, 唯独词没有一个形式上的分界符, 虽然英文也同样存在短语的划分问题, 但是在词这一层上, 中文比之英文要复杂的多、困难的多. 
解决的问题: 在所有需要计算机对中文文字信息进行进一步分析处理的领域均能应用分词技术, 如: 信息检索、信息挖掘、自动分类、自动聚类、自动校对、机器翻译、语音识别与合成、人工智能等领域. 
二、	分词颗粒度控制接口
我们认为各种应用对分词要求的颗粒度是不同的. 比如自动分类、关键词抽取比搜索需要的分词颗粒度要大, 因为这样表示文本语义特征时效果会更好, 而检索有一个查全率的要求, 就需要把分词单位做的更为细致, 不然就会造成漏查. 
海量系统现在提供了两种颗粒的规则, 其中, 默认的为大颗粒接口, 主要用于自动分类、信息挖潜、机器翻译、语音合成、人工智能等领域, 用于提升信息分析的有效性和准确性; 另外一种应用为小颗粒度分词也叫检索优化分词接口, 用于信息检索领域, 用于提升查全率. 
例如: 
对"中华人民共和国"进行分词: 
大颗粒度分词(默认方式)结果为: 中华人民共和国
小颗粒度分词(检索优化)结果为: 中华  人民  共和  国
三、	海量分词自定义词典接口
自定义词典就是允许用户自行定义在特殊领域中, 可以根据自己的需求定义新词, 利用该分词组件包的接口与分词系统进行挂接; 
可以应用于化工、医药等特殊行业的准确分词需求. 
例如: 
对"氯化聚氯乙烯"进行分词: 
未加载自定义词典时分词结果为:  氯化  聚氯乙烯
加载自定义词典时分词结果为: 氯化聚氯乙烯
四、	获取关键词接口
通过对分词结果与文章的內容进行分析计算, 从文章中选取指定个数的最相关的词, 即为该篇文章的关键词. 关键词分析技术是所有进一步智能分析技术的基础, 他可以应用在自动文摘、自动分类、自动聚类、信息挖掘等领域. 
五、	获取语义指纹接口
在基于內容的消重应用中, 基于字符串比对方式进行消重的应用一方面因为功能简单, 无法实现真正的內容消重, 另外一方面是文本比对的效率非常低, 无法在实际中进行应用. 因此我们提出了根据对文章內容的分析, 然后基于生成一个128bit(16字节)的数字指纹, 再对数字指纹进行比对的消重方式, 不但实现了真正意义上的內容消重, 而且大幅提升了消重的效率. 
六、	获取分词词性、属性接口
在词性的标注上, 我们参考了国家的相应规范以及其他研究单位的研究成果, 例如: 中科院计算所的汉语词性标记集等, 在此基础上我们制定了自己的汉语词性标记集, 该标记集包含了近30个标记符, 既包括了常用的名、动、形等词性, 也有一些特殊的属性标记(详细说明请参考"海量智能分词研究版接口手册.doc"), 如: 产品词的标注. 对于多词性的处理我们采用了马尔科夫统计模型, 依据语境及语法识别其正确的词性. 另外, 我们依据其应用特别对人名兼类、公司名兼类的情况进行了处理, 例如: 宁静(与人名兼类)、联想(与公司名兼类)等. 这些对于分类、检索等应用贡献很大.