在公開資訊觀測站上有提供股票上市、上櫃及興櫃公司的基本資料彙總,有位客戶需要將整個資料內容擷取下來用以製作地址名條貼紙,希望我們能夠幫忙資料處理和貼紙印製。經過一番網路搜尋和嘗試研究之後,下面三種方法可以達到所需要目的,但是各有其優缺點,還需要人工做後續整理 ,才能利用這些資料來印製地址名條貼紙。
- 最簡單的方式是在該網站網頁上,先按下 <Ctrl-A> 全選整個資料表格,或使用滑鼠選取所需要的資料表格,再 複製資料剪貼 至 MS Excel 的工作表,MS Excel 軟體會透過系統內建的 IE 瀏覽器功能來解譯 HTML格式,轉換到工作表的儲存格中。採用這種方式大部分網頁表格資料的顏色等排版樣式,在轉換時會被保留到 Excel 檔案裡,但不需要的合併儲存格的格式也被保留 (如下圖),需要人工解除合併儲存格的部分,資料筆數多時有點麻煩、累人又費時。
- 或者利用網路瀏覽器 (Browser) 的 [另存新檔] 功能,先將網頁存成網頁檔案 (只需要存 HTML,不需要圖片部分),再使用 MS Excel 軟體的 [開啟舊檔] 功能,來讀取所存的網頁檔案。這種方式的優缺點與第一種方法相同。
- 第三種方式是透過 MS Excel 軟體的 [資料] -> [匯入外部資料] 功能,來開啟所存的網頁檔案,並利用滑鼠選取所需要的表格 (如下圖) 有綠色打勾的淡藍色部分,然後按下 [匯入] 按鈕以讀入所選取的表格資料。
- 這種方式的好處是採用勾選方式很容易選取所需要的表格。一個 MSExcel 工作表裡面可以匯入多個網頁表格資料,放置在不同 (可指定) 的儲存格位置。而且合併儲存格的格式已被取消 (如下圖),方便於後續的編輯作業。唯一的問題是包含有數字的儲存格,假如儲存格資料的前面有數字零( ‘0’) 的話會被剔除,是這種方式美中不足之處,例如下圖之統一編號、公司代號等欄位 (請與第一張圖片做比對)。
其實網頁HTML表格資料的排列方式千變萬化,除了運用上述的幾種方法及軟體來轉換與擷取資料內容,或多或少還是需要人工進行編輯修改,或是另外撰寫 VBA 軟體程式作特別資料處理 (例如合併兩個儲存格資料再一起),不然去網路上購買相關的資料光碟也是另一個選項。