欢迎光临
我们一直在努力

Tesseract OCR图像识别类库

Tesseract OCR 包含了一个OCR引擎 – libtesseract和一个命令行程序 – tesseract。Tesseract 4添加了新的基于LSTM的OCR引擎,该引擎专注于行识别,但仍支持Tesseract 3的传统Tesseract OCR引擎,该引擎通过识别字符模式来工作。通过使用传统OCR引擎模式(–oem 0),可以与Tesseract 3兼容。它还需要训练有素的数据文件来支持旧式引擎,例如tessdata存储库中的文件。
Tesseract具有Unicode(UTF-8)支持,并且可以“开箱即用”地识别100多种语言。
Tesseract支持多种输出格式:纯文本,hOCR(HTML),PDF,仅不可见文本的PDF,TSV。master分支还对ALTO(XML)输出提供了实验性支持。
安装Tesseract:
您可以通过预建的二进制软件包安装正方体 或从源代码编译它。
支持的编译器是:
GCC 4.8及以上
lang 3.4及以上
MSVC 2015、2017、2019年
其他编译器可能可以工作,但未得到官方支持。
 收藏 (0) 打赏

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

未经允许不得转载:怀本博客 » Tesseract OCR图像识别类库

分享到: 生成海报
avatar
网络技术开发;网页设计;计算机软硬件的技术开发 。网站建设。

热门文章

  • 评论 抢沙发

    • QQ号
    • 昵称 (必填)
    • 邮箱 (必填)
    • 网址

    铭宇网络建站 专业 快捷

    联系我们联系我们
    切换注册

    登录

    忘记密码 ?

    切换登录

    注册

    我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活