开源图像识别引擎tesseract-ocr64是一款免费并且开源的图像识别OCR引擎,它最早由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。它可以读取各种格式的图像并将它们转换成超过60种语言的文本。2005年,开源图像识别引擎tesseract-ocr64由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。我们可以使用它制作拥有验证码识别、身份证识别、图像转文字等功能的软件。
常见问题
什么是OCR识别?
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料。目前国内水平较高的中文ocr有清华文通、汉王、尚书等,其产品各有千秋,价格不菲。国外OCR发展较早,像一些大公司,如IBM、微软、HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入了自身的软件系统。对于一般的程序员来说,一般用不到那么高级的,主要在开发中能够集成基本的OCR功能就可以了。