ictclas_Source_Code.zip
上传用户:chen_dj
上传日期:2013-04-22
文件大小: 111k
下载次数:734
源码类别:

多国语言处理

开发平台:

C/C++

源码售价: 5 个金币 积分规则     积分充值
资源说明:计算所汉语词法分析系统ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。 计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。
    
  • IKAnalyzer3.2sc.rarIKAnalyzer中文分词器 v3.2
  • WebPages_InvertedFile.zip根据中文分词结果生成倒排文档,并将结果输出到文本文件中。 ...
  • segChnWord.rar中文分词评测系统,用于评测中文分词的质量,给出准确率等 ...
  • Cfenci.rar用C++编写的中文分词源码,分词的方法.rar
  • LanguageManager.zip用来构建多国语言的简单方案 库内包含了一个捕获页面控件显示字符串的方法以及一个自 ...
  • 2.rarc#中文分词源码,基于词频,词性等,可提取自定义数量的关键词
  • ICTCLASV1.2.rar中科院计算所的分词工具,可以进行分词工作
  • 11111111.rar从一段文章中分词,标注词出现的次数,程序短小精练,有利于学习使用,谢谢! ...
  • gbbig5.rarGB2312 和 BIG5 编码对照工具,含有二进制编码对照表及其 点阵字库。 ...
  • Language.rar简繁体转换工具,可以把big5编码和gbk编码转换成gb2312或者互逆。 ...
    
  • 824和16点阵汉字字库处理程序
  • fontcurve.rar万能字库生成工具: 将UNICODE,GB2312/GBK/BIG5码转换成任意尺寸的点阵字库,支持WIN ...
  • ChineseScape.zip支持Windows 3.x、Windows 9x平台上的中文(GB、Big5)、日文(Shift JIS、EUC JIS)、 ...
  • unicode码转换.rar此程序做了一些平常人容易犯的错误,由于编译系统不同,编码要转化, ...
  • Codes and Application.rar这是一个中科院中文词法分析器,能对输入的文本进行分词,词性标注,未登陆词识别等功 ...
  • MFC查词典、分词、词频统计程序.rarMFC编程,功能是查词典(用户可自己导入文本),分词,统计词频,还可以保存结果!我们MFC课 ...
  • ewb50.rar仿真软件,EWB5.0供大家下载,一起分享更多软件
  • ictclas_Source_Code.zip计算所汉语词法分析系统ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分。 但 ...
  • TextClassify.rar文本分类算法,含有三个分类算法,朴素贝叶斯,KNN,VSM
  • 基本词典程序.rar这是一个能吧中文信息处理中的以二进制形式存储的词典,以文字形式转换过来,方便我们 ...