udn數位典藏歷程
如何把已經泛黃的數十年舊報紙,轉換為資訊時代可用的知識?如何把每天產生數十萬字報紙新聞有效地分類整理?即使資訊科技發展至今,仍沒有一項技術可以滿足上述需求。聯合知識庫整合國內外多項技術,克服各項技術障礙,自行開闢一條新途徑,造就最大的華文新聞資料庫。
(1)、OCR光學辨識技術
聯合知識庫以光學辨識技術(OCR)進行報紙的整版掃描,再用圖文切割方式,將報紙版面上的內容分區切塊辨識儲存,然後再以新開發的系統進行「自動為主、人工為輔」的兩套循環校對除錯,最後在使用上輔以人工智慧資料加值與搜尋引擎技術。
(2)、大量文字辨識校對及管理系統
在這條報紙數位化的生產線上,先透過大尺寸的數位掃描器將報紙影像掃入電腦中,後端的影像處理伺服器進行去除影像雜訊,接著切割報紙標題與內文區塊,校對版面,並逐版把切割完成的報紙影像登入資料庫中。文字條稿影像登入資料庫後,接著將依照定做的文字辨識核心進行辨識,此階段的正確率可以達到98%以上。製作過程,每篇文章錯誤不到一個字。
新聞內文的部分可以直接登入資料庫,但標題的部分卻需要人工輸入。這是因為報紙標題的欄位、字體、字形非常多元化。 下一步則是困難度甚高的「校對」,利用集字校對工具軟體將辨識出的相同文字排列,進行電腦自動比對,約可過濾出2%辨識上有疑問的文字及符號,然後進行人工確認,此階段的正確率約98.88%。接著再使用切字及難字校對,完成後的正確率約為99.62%。最後,還要進行─「逐字校對」,校對電腦挑選出來的可疑字。
更詳細的生產流程

(3)、技術效益

 速度正確率
人工打字48K/人日99.6%
UDN系統3M/人日99.91%

根據研究與統計,人工打字每人每天約可產出四萬八千字,一般錯誤率為千分之四至千分之五。

聯合知識庫目前採用的解決方案,單機每日可以產出一百卅六萬字,沒有進行校對前的正確率已達98%,經過兩次循環校對後,正確率可高達99.91%,在成本效益與執行績效上,可說是相當成功。在目前中文辨識的相關技術中,也已是辨識成功率最高的辦法。

聯合報系報紙數位化的工程,正以一步一腳印的精神,逐日逐月地、由近至遠回溯過去的報紙,每天新增資料量共有6,500筆,其中包括當天聯合報系國內五份報紙的約1,500則新聞,回溯資料約5,000則。

UDN數位典藏經驗
UDN數位典藏服務
UDN數位典藏成果
FAQ
客戶需求
相關網站