Tesseract OCR 字符识别

明月乖乖00 2013-10-25 10:34:41
请问大家,对Tesseract OCR 算法原理了解吗?虽然也看过An Overview of the Tesseract OCR Engine和Adapting the Tesseract Open Source OCR Engine for Multilingual OCR 这两篇文章。但是具体的算法还是了解不了或者说是不理解,能不能请各位大神帮忙发表一下自己对Tesseract OCR 的算法原理的理解。谢谢啦!!
...全文
373 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
赵4老师 2014-06-23
  • 打赏
  • 举报
回复
VB实现OCR文字识别
原理: 利用微软OCR控件, 只需要不到10行代码就能够实现自已的OCR文字识别软件.
1. 添加控件,需要安装office2003, 没有安装office2003的可以从别人机子上拷贝相关文件,注册regsvr32.exe mdivwctl.dll,
控件一般在这个目录下:C:\Program Files\Common Files\Microsoft Shared\MODI\11.0, 只需要相关的几个文件就可以了, 此文件夹全部文件大概在21M左右.
工程->部件->添加这个控件:Microsoft Office Document Imaging 11.0 Type Library

2.在按钮的Click事件里:
    Dim strLayoutInfo As String, strLPN As String

     '初始化并加载文档
    Set miDoc = CreateObject("MODI.Document")            '创建对象
    miDoc.Create "D:\未命名.jpg"                         '加载图片文件

    Screen.MousePointer = vbHourglass                    '设置光标忙
    '识别
    miDoc.Images(0).OCR miLANG_CHINESE_SIMPLIFIED, True, True '有用的就此一句,识别为中文简体

    Set modiLayout = miDoc.Images(0).Layout              '读出数据
    strLayoutInfo = _
        "Language: " & modiLayout.Language & vbCrLf & _
        "Number of characters: " & modiLayout.NumChars & vbCrLf & _
        "Number of fonts: " & modiLayout.NumFonts & vbCrLf & _
        "Number of words: " & modiLayout.NumWords & vbCrLf & _
        "Beginning of text: " & Left(modiLayout.Text, 50) & vbCrLf & _
        "First word of text: " & modiLayout.Words(0).Text
    MsgBox strLayoutInfo, vbInformation + vbOKOnly, "Layout Information"
    Set modiLayout = Nothing
    Set miDoc = Nothing
    Screen.MousePointer = vbDefault

3. OK了, 是不是很简单

lovekid 2014-06-23
  • 打赏
  • 举报
回复
你好,楼主,文章你读懂了吗?
lovekid 2014-06-16
  • 打赏
  • 举报
回复
楼主对这个方法了解了吗?
赵4老师 2013-10-25
  • 打赏
  • 举报
回复
神经网络?

24,855

社区成员

发帖
与我相关
我的任务
社区描述
C/C++ 工具平台和程序库
社区管理员
  • 工具平台和程序库社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧