Google 這家公司提供了許多免費的網路服務 (Web Services),除了最常用的搜尋引擎及 GMail 之外,Google Docs 文件服務也是每天必用的一項服務,因此已經有很長一段時間沒有使用 Microsoft Office 軟體了。在 Google 文件服務裡面就提供了免費的文字辨識 (OCR)功能,如果偶爾才需要做文字辨識處理的話,並不需要再去購買一套文字辨識軟體,透過 Google 文件服務就可以搞定了。
登入 Google 帳號進入文件服務,點選檔案上傳圖示 -> 選取欲文字辨識的 PDF圖檔。
接著在 [上傳設定] 的對話框內,勾選「 將 PDF 檔案或圖片檔案中的文字轉換為 Google 文件」。
上傳完成後,會自動將 PDF 或圖片中可以辨識的文字擷取出來,建立一份新的文件檔案。點選該檔案名稱 (如下方的招福招財.PDF) 在 Google 文件中做後續編輯。
經過實際測試, Google 文件服務對中文文字的辨識能力還算相當不錯。但與專業商用的文字辨識軟體相比較,該文件服務在表格與格式的處理能力 (英文亦相同) 就稍微差些,需要花點時間以人工編輯修正錯字 (圖片下方即是所擷取出的文字內容)。
如果你有微軟 Office 軟體 2003 以上的版本,其實在這套軟體裡面也有一個文字辨識軟體工具:Microsoft Office Document Imaging (藏在程式集 Microsoft Office 選單的 Microsoft Office工具裡)。使用這個 OCR 工具之前,必須將圖片轉檔成 tif 或 tiff 圖檔格式,開啟該工具後,點選 [工具] -> [使用 OCR 辨識文字] 進行文字辨識,辨識完成後會自動開啟 Office Word 讓你做後續的編輯修改。