UnknowWord.h
上传用户:sunyong76
上传日期:2021-10-03
资源大小:2236k
文件大小:3k
源码类别:

多国语言处理

开发平台:

Java

  1. //////////////////////////////////////////////////////////////////////
  2. //ICTCLAS简介:计算所汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),
  3. //             功能有:中文分词;词性标注;未登录词识别。
  4. //             分词正确率高达97.58%(973专家评测结果),
  5. //             未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%;
  6. //             处理速度为31.5Kbytes/s。
  7. //著作权:  Copyright?2002-2005中科院计算所 职务著作权人:张华平 刘群
  8. //遵循协议:自然语言处理开放资源许可证1.0
  9. //Email: zhanghp@software.ict.ac.cn
  10. //Homepage:www.nlp.org.cn;mtgroup.ict.ac.cn
  11. /****************************************************************************
  12.  *
  13.  * Copyright (c) 2000, 2001 
  14.  *     Machine Group
  15.  *     Software Research Lab.
  16.  *     Institute of Computing Tech.
  17.  *     Chinese Academy of Sciences
  18.  *     All rights reserved.
  19.  *
  20.  * This file is the confidential and proprietary property of 
  21.  * Institute of Computing Tech. and the posession or use of this file requires 
  22.  * a written license from the author.
  23.  * Filename: UnknowWord.cpp
  24.  * Abstract:
  25.  *           interface for the CUnknowWord class.
  26.  * Author:   Kevin Zhang 
  27.  *          (zhanghp@software.ict.ac.cn)
  28.  * Date:     2002-4-23
  29.  *
  30.  * Notes:  Unknown words recognition based on Role-tagging
  31.  *                
  32.  ****************************************************************************/
  33. #if !defined(AFX_UNKNOWWORD_H__84088A03_CF08_45A8_9AE0_086BE8F60566__INCLUDED_)
  34. #define AFX_UNKNOWWORD_H__84088A03_CF08_45A8_9AE0_086BE8F60566__INCLUDED_
  35. #if _MSC_VER > 1000
  36. #pragma once
  37. #endif // _MSC_VER > 1000
  38. #include "..\Tag\span.h"//CSpan class
  39. #include "..\Segment\SegGraph.h"//CSpan class
  40. class CUnknowWord  
  41. {
  42. public:
  43. //Judge whether the name is a given name
  44. bool IsGivenName(char *sName);
  45. bool Configure(char *sConfigFile,enum TAG_TYPE type=TT_PERSON);
  46. bool Recognition(PWORD_RESULT pWordSegResult, CDynamicArray &graphOptimum,CSegGraph &graphSeg,CDictionary &dictCore);
  47. //Unknown word recognition
  48. //pWordSegResult:word Segmentation result;graphOptimum: The optimized segmentation graph
  49. //graphSeg: The original segmentation graph
  50. //type: Unknown words type (including person,place,transliterion and so on)
  51. CUnknowWord();
  52. virtual ~CUnknowWord();
  53. CDictionary m_dict;//Unknown dictionary
  54. private:
  55. CSpan m_roleTag;//Role tagging
  56. int m_nPOS;//The POS of such a category
  57. char m_sUnknownFlags[10];
  58. protected:
  59. };
  60. #endif // !defined(AFX_UNKNOWWORD_H__84088A03_CF08_45A8_9AE0_086BE8F60566__INCLUDED_)