首頁(yè) > 專家說(shuō)

什么叫信息資源的半結(jié)構(gòu)化?

來(lái)源:新能源網(wǎng)
時(shí)間:2024-08-17 11:55:01
熱度:

什么叫信息資源的半結(jié)構(gòu)化?【專家解說(shuō)】:文摘:要對(duì)網(wǎng)絡(luò)信息資源進(jìn)行更好的管理和查詢,首先要建立一種合理的信息資源描述機(jī)制。metadata是描述網(wǎng)絡(luò)信息資源的有力工具,但新的信息描

【專家解說(shuō)】:文摘:要對(duì)網(wǎng)絡(luò)信息資源進(jìn)行更好的管理和查詢,首先要建立一種合理的信息資源描述機(jī)制。metadata是描述網(wǎng)絡(luò)信息資源的有力工具,但新的信息描述機(jī)制--linking機(jī)制不僅能表述metadata的內(nèi)容,而義可以表達(dá)比metadata更豐富的語(yǔ)義,彌補(bǔ)metadata自身不能克服的一些缺陷。 關(guān)鍵詞:半結(jié)構(gòu)化信息 信息資源描述 metadata linking 隨著數(shù)字化、網(wǎng)絡(luò)化技術(shù)的飛速發(fā)展,數(shù)字圖書(shū)館建設(shè)成為圖書(shū)情報(bào)界重要的研究方向,其中網(wǎng)絡(luò)信息資源組織是數(shù)字圖書(shū)館建設(shè)的核心內(nèi)容。網(wǎng)絡(luò)信息資源的動(dòng)念性、分布性、多元性和無(wú)序性等特點(diǎn),使信息的查找和檢索變得越來(lái)越困難。對(duì)于21世紀(jì)的信息用戶和信息管理者來(lái)說(shuō),困擾他們的不是信息太少,而是倍息過(guò)多的問(wèn)題。因此,如何對(duì)網(wǎng)絡(luò)信息資源進(jìn)行合理的描述,組織、序化網(wǎng)絡(luò)信息資源,提高信息利用率,是當(dāng)前重要的研究課題。 1 網(wǎng)絡(luò)半結(jié)構(gòu)化信息資源 目前,網(wǎng)絡(luò)半結(jié)構(gòu)化數(shù)據(jù)日趨豐富。完全結(jié)構(gòu)化數(shù)據(jù)有非常良好的數(shù)據(jù)結(jié)構(gòu),如關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)中的數(shù)據(jù)。完全無(wú)結(jié)構(gòu)數(shù)據(jù)是指聲音、圖像文件等無(wú)模式數(shù)據(jù)。而半結(jié)構(gòu)化數(shù)據(jù)是介于完全結(jié)構(gòu)化數(shù)據(jù)和無(wú)結(jié)構(gòu)數(shù)據(jù)之間的一種數(shù)據(jù)類型。 半結(jié)構(gòu)化數(shù)據(jù)雖然有一定的結(jié)構(gòu),但卻是不嚴(yán)格的、多變的和不完整的。 從網(wǎng)絡(luò)的信息層次來(lái)看,網(wǎng)絡(luò)半結(jié)構(gòu)化信息的研究對(duì)象分為3個(gè)層面:網(wǎng)頁(yè)層面、網(wǎng)站層面、網(wǎng)絡(luò)層面。 --www網(wǎng)頁(yè):最主要的研究方向。 ● HTML(Hypertext Markup Language)--由于其在目前網(wǎng)絡(luò)資源描述格式中所占的比例最高,所以有關(guān)研究持別多。 ● XML(extensible Markup Language)--作為一種新的網(wǎng)上數(shù)據(jù)交換的標(biāo)準(zhǔn),正在引起人們極大的關(guān)注。XML是標(biāo)準(zhǔn)的通用標(biāo)記語(yǔ)言SGML(ISO8879)的一個(gè)子集,用于支持Internet亡有結(jié)構(gòu)文檔的交換。和HTML相比,XML是面向內(nèi)容的,它具有更多樣化的結(jié)構(gòu)和更豐富的語(yǔ)義,并具有可擴(kuò)展性良好、易于零握、自描述等特點(diǎn),適用于web上的數(shù)據(jù)交換??梢灶A(yù)言,川L將成為數(shù)據(jù)組織和交換的事實(shí)標(biāo)難,大量的XML數(shù)據(jù)將出現(xiàn)在Web上。XML數(shù)據(jù)模型與半結(jié)構(gòu)數(shù)據(jù)模型有著很多的相似性,即它既為半結(jié)構(gòu)數(shù)據(jù)的研究提供了廣闊的應(yīng)用前景,同時(shí)也推動(dòng)了半結(jié)構(gòu)化數(shù)據(jù)研究的發(fā)展。 --網(wǎng)站的半結(jié)構(gòu)化研究:充分利用網(wǎng)頁(yè)內(nèi)容、錨文本、網(wǎng)頁(yè)鏈接、鏈接的兄弟關(guān)系等進(jìn)行導(dǎo)航。 --網(wǎng)絡(luò)的半結(jié)構(gòu)化研究:通過(guò)挖掘利用網(wǎng)絡(luò)信息半結(jié)構(gòu)化的特點(diǎn),設(shè)計(jì)智能搜索引擎,提供某一主題的高效檢索,要更好地組織網(wǎng)絡(luò)半結(jié)構(gòu)化信息.首先要對(duì)半結(jié)構(gòu)化信息進(jìn)行合理的組織描述。 2 半結(jié)構(gòu)化信息資源的描述 目前,大多采用帶標(biāo)記的有向圖作為半結(jié)構(gòu)化數(shù)據(jù)模型,最典型的就是OEM(對(duì)象交換模型)模型。概括地說(shuō),主要有兩種描述方法: 2.1 基于邏輯的描述形式 在已經(jīng)提出的半結(jié)構(gòu)化數(shù)據(jù)模式的描述形式中,基于邏輯的描述形式是重要的一類,如一階邏輯(first-order logic)、描述邏輯(description logic)以及Datalog等。它們非常類似,但在表達(dá)能力等方面有所差別,其中比較典型的是基于Datalog的模式描述形式。 2.2 基于圖的描述形式 由于半結(jié)構(gòu)化數(shù)據(jù)一般采用帶標(biāo)記的有向圖來(lái)表示,所以這種描述形式的一個(gè)顯著優(yōu)點(diǎn)是模式和數(shù)據(jù)采用同一種數(shù)據(jù)模型(圖模型).非常便于處理。模式圖通常是一個(gè)有根、邊上帶標(biāo)記的有向圖.其邊上的標(biāo)記可以與數(shù)據(jù)圖相同,也可以加以擴(kuò)充,如允許類似于“name | address”的形式,或采用特定形式的規(guī)則(如一元渭詞).等等。對(duì)模式圖中的節(jié)點(diǎn),可以加以一定的注釋.表明其代表的語(yǔ)義或其它特定的含義,其中最有代表性的是OEM。 此外,還有概念模型。通過(guò)一個(gè)自然簡(jiǎn)單的方法,了解HTML頁(yè)面的內(nèi)部結(jié)構(gòu)。它不同于OEM,而類似于人對(duì)文檔的概念化。它提供雖然很少卻十分有效的高層結(jié)構(gòu),用于描述文本的內(nèi)容(如通過(guò)引入LIST對(duì)象解決了圖、樹(shù)描述方法所不能解決的LIST表問(wèn)題)。另有一套相應(yīng)的規(guī)則,把內(nèi)容自動(dòng)映射到概念模型中。但到目前為止.還沒(méi)有相應(yīng)的查詢語(yǔ)言。 2.3 半結(jié)構(gòu)化模式的特點(diǎn) ● 先有數(shù)據(jù),后有模式。一般是先進(jìn)行查詢,查詢結(jié)果即為數(shù)據(jù)結(jié)構(gòu)及其模式。 ● 用于描述數(shù)據(jù)的結(jié)構(gòu)信息.而不是對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行強(qiáng)制性約束。 ● 規(guī)??赡芎艽?,甚至超過(guò)源數(shù)據(jù)的規(guī)模,而且因數(shù)據(jù)的不斷更新而處于動(dòng)態(tài)的變化過(guò)程之中 ● 不講求精確性,可能描述其中一部分結(jié)構(gòu),也可能根據(jù)數(shù)據(jù)處理的不同階段的視角而不同。 ● 非常靈活,能滿足網(wǎng)絡(luò)這種復(fù)雜分布式環(huán)境的要求。 ● 加大了數(shù)據(jù)處理的難度。 3 從metadata到linking的組織描述 為了描述網(wǎng)頁(yè)半結(jié)構(gòu)化信息資源,人們提出了元數(shù)據(jù)(metadata)的概念。提出metadata的目的.是將圖書(shū)情報(bào)領(lǐng)域的分類法和標(biāo)引技術(shù)普及到一般的網(wǎng)頁(yè)制作者,以組織龐大的網(wǎng)絡(luò)信息資源。metadata系統(tǒng)被認(rèn)為是一個(gè)用于抽取構(gòu)成對(duì)象的屬性和方便信息訪問(wèn)的強(qiáng)有力的通用機(jī)制。 較早出現(xiàn)的元數(shù)據(jù)格式是MARC(主要被用來(lái)詳細(xì)著錄書(shū)目),它是全球范圍內(nèi)公認(rèn)的較為成熟的傳統(tǒng)機(jī)讀編目格式.其結(jié)構(gòu)嚴(yán)謹(jǐn).類目復(fù)雜;系統(tǒng)完善.但是并不適合對(duì)一般網(wǎng)絡(luò)信息資源的描述。首先,網(wǎng)絡(luò)信息資源描述格式并不需要那樣復(fù)雜;其次,網(wǎng)絡(luò)信息資源浩如煙海,讓編目人員對(duì)每個(gè)網(wǎng)頁(yè)都進(jìn)行詳細(xì)著錄.需耗費(fèi)相當(dāng)?shù)娜肆ξ锪Γ@是不合實(shí)際的。 為了研究一種適用于描述一般網(wǎng)絡(luò)信息資源的元數(shù)據(jù)標(biāo)準(zhǔn).制定一種通用的網(wǎng)絡(luò)著錄規(guī)則.1995年3月由OCLC與NCSA聯(lián)合發(fā)起,52位來(lái)自圖書(shū)館界和電腦網(wǎng)絡(luò)界的專家共同研究產(chǎn)生了都柏林核心元數(shù)據(jù)集(Dublin Core,簡(jiǎn)稱DC)。DC適合揭示各類型電子文獻(xiàn)的內(nèi)容和其它特性.能有效地對(duì)網(wǎng)上資源進(jìn)行組織、分類、索引。 DC由15個(gè)基本元素組成,分成三大部分:①內(nèi)容描述部分行題名、主題、說(shuō)明、來(lái)源、語(yǔ)種、關(guān)聯(lián)和覆蓋范圍;②知識(shí)產(chǎn)權(quán)部分有創(chuàng)建者、出版者、其他責(zé)任者和權(quán)限;③外形描述部分有日期、類型、形式和標(biāo)識(shí)符。 DC比較易于應(yīng)用到網(wǎng)絡(luò)信息資源的描述中,著錄數(shù)據(jù)與著錄對(duì)象可以存在于同一文件中,也可以存在于不同文件中。 3.1 DC的優(yōu)點(diǎn) ● 結(jié)構(gòu)簡(jiǎn)單:數(shù)據(jù)元素的含義,易學(xué)易記,非編目人員也能很快理解。對(duì)網(wǎng)絡(luò)資源的描述性編目,主要由資源制作者在制作資源的同時(shí)提供.這不僅降低了記錄的制作成本.又能適應(yīng)網(wǎng)絡(luò)信息資源巨量增長(zhǎng)的需要。在資源制作者描述的基礎(chǔ)上,信息工作者則把主要精力放在對(duì)質(zhì)量較高、穩(wěn)定性較好的網(wǎng)絡(luò)資源的標(biāo)引和規(guī)范控制上,為用戶構(gòu)建高效實(shí)用的檢索系統(tǒng)。 ● 可重復(fù)性。 DC規(guī)定所有入素都是可重復(fù)的,因而解決了多著者或多版本等重復(fù)元素的著錄問(wèn)題。 ● 可選擇性:著錄項(xiàng)目可以簡(jiǎn)化,只須確保最低限度的7個(gè)元素(題名、出版者、形式、類型、標(biāo)識(shí)符、日期和主題)即可。 ● 可擴(kuò)展性。各個(gè)DC地方版可以在15個(gè)元素的基礎(chǔ)上增加新的元素或新的修飾詞,允許資料以地區(qū)性規(guī)范出現(xiàn),并保持元數(shù)據(jù)的一些特性,以便日后有擴(kuò)充的余地。 ● 可以與其它元數(shù)據(jù)連接使用,以彌補(bǔ)其自身的不足。在統(tǒng)一資源描述框架(RDF)下,可以實(shí)現(xiàn)與其它元數(shù)據(jù)的連接。 3.2 metadata存在的兩大理由 ● 提供在一個(gè)系統(tǒng)內(nèi)擴(kuò)張對(duì)象的通用機(jī)制。要注意的是,這一對(duì)象不一定是文獻(xiàn)。 ● metadata在系統(tǒng)中可以用于分組、排序并訪問(wèn)對(duì)象,即提供信息檢索服務(wù)。 3.3 metadata的缺陷 ● 主要是對(duì)文獻(xiàn)的外部特征進(jìn)行描述,雖然采用了主題這個(gè)元素對(duì)文獻(xiàn)內(nèi)部特征進(jìn)行揭示,但描述得不夠詳細(xì) ● 沒(méi)有充分利用半結(jié)構(gòu)數(shù)據(jù)中的結(jié)構(gòu)信息。 ● metadata機(jī)制看不出所描述的對(duì)象類型。 ● matadata值對(duì)(名字和值)是不對(duì)稱的,單向可讀,域和域值角色不能交換。 實(shí)踐中,有的研究者把DC和全文檢索技術(shù)結(jié)合起來(lái)建立搜索引擎,但尚無(wú)實(shí)質(zhì)性進(jìn)展。故此,更切合對(duì)半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行描述的機(jī)制--聯(lián)接(1inking)機(jī)制應(yīng)運(yùn)而生。 聯(lián)接(1inking)機(jī)制和metadata之間具有相似性,即它同樣有能力抽取對(duì)象的屬性,并給用戶提供更有效的信息訪問(wèn)手段。 首先,metadata可以用1inking形式表示出來(lái)。 把metadata值對(duì)視為系統(tǒng)內(nèi)可以識(shí)別的子對(duì)象,這樣,metadata值對(duì)就成了對(duì)象的子對(duì)象,通過(guò)名字在錨(anchor)和metadata值對(duì)間建立映射。 示例1: <docl,<author,hq>>:其中<author,hq>為metadata值對(duì),用P表示,有<doc1,p>,p視為doc的子對(duì)象,從而與錨的表達(dá)一致。 其次,1inking機(jī)制可以表達(dá)比metadata更豐富的語(yǔ)義,能揭示關(guān)系對(duì)的類型,并且是對(duì)稱的。 示例2: <<“doc2”.“document”>, <”hq”,”author”>“documentAuthoredBy”> <<“hq”,“supervisor”>,<“l(fā)j”,”supervises”>,”supervises”> 第一句的語(yǔ)義為:doc2 is the document authored by hq。第二句的語(yǔ)義為hq supervises lj。 通過(guò)這個(gè)例子可以發(fā)現(xiàn),linking機(jī)制揭示了metadata模型不可能揭示的關(guān)系對(duì)的類型:document和supervisor。并且,它使metadata對(duì)稱化了,其中hq這個(gè)1ink中的“錨”既可以做第一個(gè)關(guān)系對(duì)doc2的域值,也可以做另一個(gè)關(guān)系對(duì)hq的域名。 分析表明,linking機(jī)制更適合對(duì)網(wǎng)絡(luò)半結(jié)構(gòu)化信息的描述。在對(duì)網(wǎng)絡(luò)半結(jié)構(gòu)化信息資源合理描述的基礎(chǔ)上,再進(jìn)行信息抽取和信息查詢,系統(tǒng)就可以提供更為精確的檢索結(jié)果,提供更有價(jià)值的信息。
  1. 在第36個(gè)“世界地球日”,我國(guó)國(guó)土資源部確定的主題為“善待地球-科學(xué)發(fā)展-構(gòu)建和諧”.你認(rèn)為下列行為中
    2024-08-17
  2. 下列地理概念,從大到小的排序正確的是 A. 國(guó)土資源——土地資源——耕地 B. 環(huán)境污染——大氣污染——水體污染 C. 能源資源——可
    2024-08-17
  3. 求助!!!《湖南省國(guó)土資源科學(xué)技術(shù)發(fā)展“十二五”規(guī)劃》在哪兒能找到?
    2024-08-17
  4. 2016年高密市國(guó)土資源局黨委成員
    2024-08-17
  5. 《國(guó)土資源部貫徹落實(shí)<國(guó)務(wù)院關(guān)于推進(jìn)海南國(guó)際旅游島建設(shè)發(fā)展的若干意見(jiàn)>政策措施的函》的正文跪求~~~
    2024-08-17
  6. 水資源是國(guó)土資源嗎
    2024-08-17
  7. 國(guó)土資源部近日公布第四批礦產(chǎn)資源節(jié)約與綜合利用先進(jìn)適用技術(shù)名單中,中國(guó)石化有哪些技術(shù)入選?
    2024-08-17
  8. 衛(wèi)星航天遙感技術(shù)幾乎應(yīng)用到地理學(xué)的所有研究領(lǐng)域。請(qǐng)擬出與下列三個(gè)應(yīng)用領(lǐng)域相關(guān)的課題名稱。 應(yīng)用領(lǐng)域課題名稱 例:防災(zāi)減災(zāi)長(zhǎng)江
    2024-08-17
  9. 結(jié)合下列材料,回答問(wèn)題。材料一:新華網(wǎng)??? 2009年6月18日電來(lái)自內(nèi)蒙古自治區(qū)國(guó)土資源廳的消息,目前內(nèi)蒙古自治區(qū)已探明石油天然氣
    2024-08-17
  10. 國(guó)土資源部是根據(jù)什么來(lái)評(píng)土地等級(jí)的?
    2024-08-17
  11. 國(guó)土資源資料
    2024-08-17
  12. 日本國(guó)土資源情況
    2024-08-17
  13. 各位大蝦:在定州一帶打一個(gè)2000米的地?zé)峋枰裁礂l件,以及價(jià)格?還要向國(guó)土資源局申請(qǐng)嗎?
    2024-08-17
  14. 日本國(guó)土資源情況
    2024-08-17
  15. 云陽(yáng)縣國(guó)土資源和房屋管理局關(guān)于印發(fā)《農(nóng)村宅基地登記發(fā)證操作規(guī)程》的通知
    2024-08-17