Mini Ocr图片文字识别
文件大小: 2822k
源码售价: 10 个金币 积分规则     积分充值
资源说明:本软件是飞涛软件工作室开发的一款免费Ocr软件,主要用于识别图像文件之中,出现的汉字显示字体。Ocr的中文含意是光学字符识别。 为什么叫Mini呢?因为现有的识别汉字的商业Ocr软件,动辄二三十兆,而本软件解 压后,也不过三兆多,身材比较纤小,再加上本软件主要用于识别字体比较小的汉字,所 以叫Mini,中文的发音是“迷你”,中文含义是超小型。 不同于商业Ocr软件,本软件是免费的,可以自由使用。第二个不同之处,本软件的 识别对象是屏幕出现的“显示汉字”,而不是针对扫描仪扫出来的“打印汉字”。二者有什 么不同呢?最重要的一点: 扫描出来的打印汉字的高度和宽度一般都在30多个像素点之 上,这是我用画图软件,打开某个商业Ocr的samples\sample1.tif,然后一点一点数出 来的。从文件名和目录名的中文含意可以看出,这个点数应该是一个典型值。那么,如果 用商业Ocr识别屏幕上出现的小五号字,汉字的高度是12个像素点,会出现什么情况呢? 测试方法:用记事本随便写几行汉字,设置字体为小五号字。这大概是看着还算舒服 的最小号的汉字字体了(高度是12个像素点),如果再小,字体就很难看了。然后,按拷 屏键PrtSc,把屏幕的图像拷贝、粘贴到画图软件中,修剪尺寸后,保存为bmp的格式。 然后,我找了两个国内最著名的Ocr软件进行测试,结果让人大吃一惊,识别率几乎为零。 把图像放大两倍,再测试,结果仍然很不理想,大概也只有百分之二三十的样子。 Mini Ocr进行汉字识别的策略: 1) 采用复合特征的分类方法。 2) 字符集选择3755个一级汉字。 3) 字体选择最常用的宋体。 4) 字号选择从小五号到一号汉字,主要针对20个点之内的小字体。 5) 英汉混排时,汉语优先。 6) 汉字粘连时,进行动态优化切分。
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。