资源说明:价值3000元的图片提取文字工具
OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。
TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京文通信息技术有限公司开发的OCR软件。在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。
============================================================
TH-OCR XP 能够适应超过一百种Windows字体。
TH-OCR XP 能够识别全部简体国标一二级6763个字符,繁体13000多字符。
TH-OCR XP 能够识别彩色图象,并转换成带有彩色图片的RTF格式(WORD可编辑)。
TH-OCR XP 支持多任务,可以在识别一篇文章的同时扫描或编辑其它文档。
TH-OCR XP 中对于每个区域可以设定不同的字体,例如一篇文档中的大段英文可以设为英文识别,以提高识别率。
按住Ctrl键用鼠标拖动,可以移动区域。
按住Shift键用鼠标点取,可以选择多个区域,一起设置字符集和类型。
按住Shift键用鼠标右键拉直线可以进行手动倾斜校正。
版面分析前根据实际情况选择“报纸版面”或“杂志版面”可以提高版面分析正确性。
对一般文本识别扫描分辨率用300DPI比较合适,识别小于5号的字可选400DPI。
选择“简体全字集”或“繁体全字集”,能够识别更多的字体和全部字符集,但识别速度较慢。
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。