字級設定:
OCR 的流程

假设您的文件已经利用相机、扫描仪等设备输入到计算机系统中,并且该文件来源无特别污损,文字无模糊或是破损的情况,OCR 的软件处理流程主要如下列所示:

  1. 影像倾斜校正
    首先,OCR会先检查原稿是否倾斜,如原稿倾斜,此步骤将原稿旋转至水平或是垂直的位置,以提高识别率。
  2. 图文分析:
    利用图文分析技术,判定文字区与图像区,区分之后进一步摘取文字区的文字部分。
  3. 文字自动转正:
    选取部分文字区做0度、90度、180度、270度来选择识别率最高的角度,然后依照识别率最高的角度,将整个原稿转正。
  4. 分割单字:
    将文章段落中的所有的文字、数码、标点符号与空格切割出来。
  5. 撷取单字的特征点做文字比对:
    OCR运用各种方法特征摘取技术来撷取出单字最特别、最明确的部分,尤其是可以用来辨明与其它单字不同的特征,进行与 OCR 文字数据库比对的动作,并查看这个编译过后的信号,所相对应的最接近文字为何,而这个文字即是最后识别的结果。
  6. 输出识别结果:
    最后每一个文字都识别完了之后,即转换这一次的OCR 的文本文件。

 

贴心小叮咛:

  • 如果您的使用重点在于较高的文字识别效率,建议您在扫描文件时,采用黑白模式(Text mode),较高的解析度(300 dpi以上)。
  • 如果您的使用重点在于保留图文一致的文件,并且利于后续的搜索,建议您在数字化文件时,直接选择产出 Searchable PDF 档案格式,您可以兼顾「视觉」与「搜索」两个目的。

 

 

| More