资源说明:计算所汉语词法分析系统ICTCLAS介绍
词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。
计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。
- UnknowWord.h
- UnknowWord.cpp
- ICTCLAS_WIN.h
- ICTCLAS_Win.dsp
- ICTCLAS_Win.rc
- Span.cpp
- Span.h
- ICTCLAS_WIN.dsw
- ReadMe.txt
- ICTCLAS_Win.plg
- ICTCLAS_WINDlg.cpp
- StdAfx.h
- ICTCLAS_WIN.cpp
- ICTCLAS_Win.clw
- Result.h
- Result.cpp
- SegGraph.cpp
- DynamicArray.cpp
- Queue.cpp
- DynamicArray.h
- SegGraph.h
- NShortPath.h
- Segment.cpp
- Queue.h
- Segment.h
- NShortPath.cpp
- resource.h
- StdAfx.cpp
- Dictionary.cpp
- ContextStat.cpp
- Dictionary.h
- Utility.h
- ContextStat.h
- Utility.cpp
- ICTCLAS_WinDlg.h
- ICTCLAS_Win.rc2
-
- IKAnalyzer3.2sc.rarIKAnalyzer中文分词器 v3.2
- WebPages_InvertedFile.zip根据中文分词结果生成倒排文档,并将结果输出到文本文件中。 ...
- segChnWord.rar中文分词评测系统,用于评测中文分词的质量,给出准确率等 ...
- Cfenci.rar用C++编写的中文分词源码,分词的方法.rar
- LanguageManager.zip用来构建多国语言的简单方案 库内包含了一个捕获页面控件显示字符串的方法以及一个自 ...
- 2.rarc#中文分词源码,基于词频,词性等,可提取自定义数量的关键词
- ICTCLASV1.2.rar中科院计算所的分词工具,可以进行分词工作
- 11111111.rar从一段文章中分词,标注词出现的次数,程序短小精练,有利于学习使用,谢谢! ...
- gbbig5.rarGB2312 和 BIG5 编码对照工具,含有二进制编码对照表及其 点阵字库。 ...
- Language.rar简繁体转换工具,可以把big5编码和gbk编码转换成gb2312或者互逆。 ...
-
- 824和16点阵汉字字库处理程序
- fontcurve.rar万能字库生成工具: 将UNICODE,GB2312/GBK/BIG5码转换成任意尺寸的点阵字库,支持WIN ...
- ChineseScape.zip支持Windows 3.x、Windows 9x平台上的中文(GB、Big5)、日文(Shift JIS、EUC JIS)、 ...
- unicode码转换.rar此程序做了一些平常人容易犯的错误,由于编译系统不同,编码要转化, ...
- Codes and Application.rar这是一个中科院中文词法分析器,能对输入的文本进行分词,词性标注,未登陆词识别等功 ...
- MFC查词典、分词、词频统计程序.rarMFC编程,功能是查词典(用户可自己导入文本),分词,统计词频,还可以保存结果!我们MFC课 ...
- ewb50.rar仿真软件,EWB5.0供大家下载,一起分享更多软件
- ictclas_Source_Code.zip计算所汉语词法分析系统ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分。 但 ...
- TextClassify.rar文本分类算法,含有三个分类算法,朴素贝叶斯,KNN,VSM
- 基本词典程序.rar这是一个能吧中文信息处理中的以二进制形式存储的词典,以文字形式转换过来,方便我们 ...