Searchable PDF 介紹

什麼是 Searchable PDF?
Searchable PDF 如何完美達成圖文一致與內文搜尋的功能?
Searchable PDF 的檔案格式是如何產生的?
Searchable PDF 是知識管理的最佳利器,也是知識管理的解決方案


什麼是 Searchable PDF?

簡言之,Searchable PDF = 具備即時搜尋功能的PDF

在深入瞭解 Searchable PDF 之前,先瞭解一下 PDF 檔案格式。所謂 PDF,其實是「Portable Document Format」的縮寫,意思是「方便攜帶的文件格式」,簡稱「可攜式文件格式」,它是美國 Adobe 公司所開發的電子檔案格式,可以將難以處理的 PostScript 碼簡化成一個頁面與物件的資料庫,達到檔案電子化的目的。

簡單來說,即是將一份檔案中的文字、字型、格式、顏色與圖形圖像封裝在一個文件中後再加以圖像化,「忠實」並且「完整」的呈現在使用者的電腦畫面中,就像是將文件「」在電腦顯示螢幕裡頭一樣。一般常見的 PDF 檔案,其實大部分指的是 Image PDF

Searchable PDF,是一種更進化的 PDF 檔案格式,也就是具有「即時搜尋功能」的 PDF,它不但包含了 PDF 文件格式的所有優點,還增加了特別的「檢索戰力」,不需要記住檔案名稱,也不必費心記錄任何章節與頁數,只要輸入「關鍵字」,不費吹灰之力,即可輕鬆且正確的找到搜尋目標,而將包含此關鍵字的 Searchable PDF 文件檔案與標示的頁面呼叫出來,因而稱之為「最進化的檔案格式」。

 

小常識:

Searchable PDF 如何完美達成圖文一致與內文搜尋的功能?

Searchable PDF 格式中的每一個頁面,都是由「圖像層」 與「文字層」所組成的。

「圖像層;Image Layer」指的就是將紙本文件掃描所得未經編輯的圖像,所以它能忠於紙本文檔的原始樣貌,並採用高壓縮比的技術來保留與視覺原貌一致的特性,可以在不破壞圖像原本清晰度的情況下,將檔案壓縮到最小,完全擺脫失真的機會。

「文字層;Text Layer」則是相對應於圖像層的另一部份,能夠一一的與圖像層中的文字位置相互對應,讓使用者既可以讀取與圖像中的圖形與文字,又能運用文字層,直接對其中的內容進行檢索。

 

小常識:

  • PDF 被稱為「可搜式 PDF」。
  • 在日本,Searchable PDF 又被稱之為「透明文字 PDF」,彷彿將一層透明的字覆蓋在圖像之上,雖然表面上看不到,如此特別的組合方式,正是促成 Searchable PDF 能以文字層位置瞬間定位,達成即時搜尋的重要推手。
  • Image -Text PDF 或是 Text-Image PDF 都屬於 Searchable PDF。

 

Searchable PDF 的檔案格式是如何產生的?

目前製作 Searchable PDF 的方式有兩種:

方法一:

利用市售的套裝軟體來產出或二次轉檔成為 Searchable PDF 檔案格式

如果要將電腦中原有的電子檔案,或是已經利用數位相機或是掃描設備數位化的圖像檔案,如 JPG、Tiff…等圖檔格式,另外轉換成可以被檢索的 Searchable PDF 檔案,需要透過專業的製作軟體來執行,例如:ABBYY FineReader、IRIS ReadIRIS 或 Adobe Acrobat 等軟體,這些軟體主要是利用光學文字辨識(OCR)技術來達成轉換 Searchable PDF 格式的目的。但是,專業軟體價格昂貴,使用者需要學習複雜的軟體操作。

方法二:

利用已經整合 Searchable PDF 紙本數位化解決方案的掃描器設備,直接將紙本文件產出Searchable PDF。

完美的解決方案除了包含適合需求的掃描器硬體設備,還要附上辨識當地語言能力的文字辨識軟體(OCR),與簡單容易操作的特性,沒有複雜的學習過程,輕鬆產出Searchable PDF的檔案格式。

以台灣地區為例,完美的Searchable PDF紙本數位化解決方案,需包含符合使用需求的掃描器設備,辨識繁體中文的 OCR,與使用者友善的管理介面之外,另外額外考量 OCR 文字辨識的直向中文排版方式,與直覺的單鍵式按鍵使用。使用者只要利用一個按鍵One Touch,無論是報章雜誌、帳單收據、書籍文宣、公文等重要的紙本文件,即可立即數位化成 Searchable PDF 文件檔案。所有的文件掃描與產出 Searchable PDF 檔案的作業一氣呵成,輕鬆應用不必耗時學習,絕對是最聰明划算的選擇。

 

小常識:

  • OCR 是將紙本文件製作成 Searchable PDF 的幕後推手,OCR 是 Optical Character Recognition 的英文縮寫,意即光學字元辨識。更多 OCR 的資訊,請參考OCR 的介紹。
  • 直向中文排版,中文有直書方式,一般來說,是由右到左編寫,與一般橫向書寫,由左到右編寫順序相反。

 

貼心小叮嚀:

  • 在華文地區,請確認選購的 OCR 軟體或是掃描器設備搭載的 OCR 軟體能夠辨識繁體中文,否則您所需要的文字必須額外耗時 Key-in。
  • 除了特地替華文地區設計的 OCR 軟體外,一般 OCR 的辨識方向,主要以橫向排版為主,因此碰到直向的排版文字,會發生句子意義不連貫的狀況。這在文字部分的後續使用,或是資料搜尋上,會產生極大的問題。
  • 請特別留意 OCR 軟體的功能中,已經包含產出 Searchable PDF 的功能。大部分的 OCR 軟體,僅在專業版本中才提供 Searchable PDF 的製作功能。

 

Searchable PDF 是知識管理的最佳利器,也是知識管理的解決方案

只要將紙本文件全部數位化成為 Searchable PDF 檔案,才能讓這檔案不論是保存於個人電腦,或是公司的資料庫、網路硬碟,所有的使用者不需要費心記住檔案的名稱與實際儲存位置,只要利用「關鍵字」,透過簡易的作業系統的搜尋功能,或者是網站上免費的軟體資源,如:Google Desktop,即可將使用者所需要的資料呈現出來,而且畫面之中圖文的呈現與紙本完全一致,輕鬆達成知識管理的目的。

 

 

小技巧:

 

結論:

Searchable PDF 絕對是紙本文件數位化最完美的文件格式第一選擇。

>> 進一步瞭解 Plustek 的 Searchable PDF 紙本文件解決方案