Open Access Open Access  Restricted Access Subscription Access

虛擬聯合目錄系統中擁有共同結構網頁文件之資料萃取

曾志軒(Chih-Hsuan Tseng),
黃夙賢(Su-Shang Huang),
柯皓仁(Hao-Ren Ke),
楊維邦(Wei-Pang Yang),

Abstract


所謂虛擬聯合目錄系統乃是從分散各處的圖書館館藏查詢系統中收集並整合館藏資料的系統。在虛擬聯合目錄系統建置的過程中,大多數的圖書館館藏查詢系統不允許直接去擷取底層資料庫內的資料,僅提供其在WebPAC上的查詢功能。這些WebPAC上的查詢功能所產生的網頁資料通常擁有共同的文件結構,而傳統的資訊擷取方式無法從這些擁有共同結構的網頁文件中萃取資料。為了讓虛擬聯合目錄系統能從個別的WebPAC傳回的網頁中萃取資料,本篇論文提出了一個Level-ID演算法來分析並萃取使用者感興趣的資料。Level-ID演算法配置唯一的Level-ID給每一個文件中的標籤元素,再由使用者標示欲萃取資料的Level-ID以及所代表的意義,並將資料欄位存成結構標記檔。最後系統就可參照結構標記檔來萃取擁有共同結構文件之資料。在資料萃取的過程,中所有的詮釋資料都以論釋資料描述語言(Metadata Modeling Language, MML)來描述與儲存,以達成資料交換及傳遞的一致性。本論文並驗證Level-ID的方法在交通大學虛擬聯合目錄系統(VUCS@NCTU)中的可行性。

Keywords


資料萃取; 結構化文件; 共同結構; 詮釋資料; 虛擬聯合目錄系統; Information Extraction; Structured Document; Common Structure; Metadata; Virtual Union Catalog System

Citation Format:
曾志軒(Chih-Hsuan Tseng), 黃夙賢(Su-Shang Huang), 柯皓仁(Hao-Ren Ke), 楊維邦(Wei-Pang Yang), "虛擬聯合目錄系統中擁有共同結構網頁文件之資料萃取," Journal of Internet Technology, vol. 2, no. 1 , pp. 59-68, Jan. 2001.

Full Text:

PDF

Refbacks

  • There are currently no refbacks.





Published by Executive Committee, Taiwan Academic Network, Ministry of Education, Taipei, Taiwan, R.O.C
JIT Editorial Office, Office of Library and Information Services, National Dong Hwa University
No. 1, Sec. 2, Da Hsueh Rd., Shoufeng, Hualien 974301, Taiwan, R.O.C.
Tel: +886-3-931-7314  E-mail: jit.editorial@gmail.com