基于大數(shù)據(jù)挖掘的科技項(xiàng)目查重模型研究
發(fā)布時(shí)間:2017-11-16 10:12:10
摘要:科技項(xiàng)目查重是避免重復(fù)立項(xiàng)、重復(fù)建設(shè)的重要措施之一,目前缺乏行之有效的方法。文 章提出基于大數(shù)據(jù)挖掘和多源信息整合的項(xiàng)目查重方法,以科技項(xiàng)目的基本信息、發(fā)表論文信息、關(guān)鍵詞、負(fù)責(zé)人信息和承擔(dān)機(jī)構(gòu)等要素構(gòu)建的大數(shù)據(jù)網(wǎng)絡(luò)為研究對(duì)象,利用多源信息整合方法構(gòu)建 科技項(xiàng)目的相似度判別模型,并采用Hadoop框架實(shí)現(xiàn)海量數(shù)據(jù)的快速挖掘。文章介紹項(xiàng)目查重模型,重點(diǎn)討論需要解決的關(guān)鍵問題,為解決項(xiàng)目查重問題提供一種全新的思路和方法。
關(guān)鍵詞:大數(shù)據(jù)挖掘;多源信息整合;科技項(xiàng)目查重;Hadoop:架構(gòu);引用本文格式
引言為推動(dòng)科技創(chuàng)新,我國不斷加大對(duì)科研的資助規(guī)模和強(qiáng)度,科技項(xiàng)目的數(shù)量和經(jīng)費(fèi)在近 年均得到顯著提升,形成多層次的國家科技計(jì)劃資助體系,隨之而來的重復(fù)立項(xiàng)問題日趨嚴(yán)重。據(jù)統(tǒng)計(jì),我國科研項(xiàng)目重復(fù)率達(dá) 40% ,另外 60% 中與國外重復(fù)約占 30% 以上[1]。重復(fù)立 項(xiàng)不僅造成科技資源的浪費(fèi),也導(dǎo)致惡性科研 競爭,損害開拓創(chuàng)新的科研精神,對(duì)科技創(chuàng)新危害極大。早在2006年,科技部前部長徐冠華在《關(guān)于建設(shè)創(chuàng)新型國家的幾個(gè)重要問題》講話中指出,切實(shí)加強(qiáng)科技宏觀統(tǒng)籌協(xié)調(diào)的重要舉措之一就是“積極推動(dòng)建立跨部門的科技項(xiàng)目數(shù)據(jù)庫。針對(duì)科技項(xiàng)目立項(xiàng)中多頭立項(xiàng)、重復(fù)立項(xiàng)的問題,推進(jìn)科技項(xiàng)目共享數(shù)據(jù)庫的建立,為解決重復(fù)問題提供必要的技術(shù)支撐”。各級(jí)科技計(jì)劃主管部門對(duì)重復(fù)立項(xiàng)問題十分重視,研究了一些項(xiàng)目查重的方法和機(jī)制問題,取得了一定的進(jìn)展,但總體效果并不明顯。究其原因,主要在于以下3個(gè)方面:
(1)項(xiàng)目數(shù)量呈現(xiàn)逐年快速增長的態(tài)勢(shì)。僅國家自然科學(xué)基金委員會(huì)2013年度資助的項(xiàng)目就達(dá)3.5萬余項(xiàng)。數(shù)量龐大的項(xiàng)目為查重工作帶來很大挑戰(zhàn)。此外,基礎(chǔ)科學(xué)研究具有創(chuàng)新性、不確定性、學(xué)科交叉融合等特點(diǎn),不同學(xué)科領(lǐng)域的新觀點(diǎn)、新概念和新知識(shí)不斷涌現(xiàn),科研項(xiàng)目管理人員需要越來越多的專業(yè)知識(shí)才能準(zhǔn)確判斷項(xiàng)目的相似性,這也給項(xiàng)目查重工作帶來很大的困難。
(2)項(xiàng)目信息公開、共享和整合程度較低??萍加?jì)劃的項(xiàng)目信息和實(shí)施情況主要分散掌握在各計(jì)劃主管部門內(nèi)部,對(duì)外開放和共享的程度低,各計(jì)劃之間的項(xiàng)目信息無法進(jìn)行有效整合。如國家自然科學(xué)基金在立項(xiàng)審查時(shí)只能在該基金資助的項(xiàng)目范圍內(nèi)進(jìn)行重復(fù)性檢測(cè),而幾乎無法與其他科技計(jì)劃項(xiàng)目進(jìn)行檢測(cè)和查重。解決該問題的方法是在國家層面上建立統(tǒng)一的可對(duì)外公開的項(xiàng)目信息檢索平臺(tái),實(shí)現(xiàn)項(xiàng)目信息的共享和整合。
(3)項(xiàng)目相似性判別方法單一。目前科研重復(fù)立項(xiàng)檢測(cè)主要通過比對(duì)項(xiàng)目標(biāo)題或者比對(duì)項(xiàng)目申請(qǐng)書的內(nèi)容進(jìn)行甄別。前者只是進(jìn)行簡單的關(guān)鍵詞匹配,將項(xiàng)目標(biāo)題中包含指定關(guān)鍵詞集的項(xiàng)目定義為相似項(xiàng)目。一旦項(xiàng)目更換標(biāo)題,該方法則會(huì)失效。后者能夠較準(zhǔn)確地發(fā)現(xiàn)相關(guān)/相似的項(xiàng)目,但算法實(shí)現(xiàn)難度較大,并且項(xiàng)目申請(qǐng)書因涉密或保護(hù)知識(shí)產(chǎn)權(quán)等原因一般不對(duì)外公開,很難從公開渠道獲取這些信息。因此該方法只適用于在單個(gè)計(jì)劃主管部門內(nèi)部實(shí)現(xiàn)項(xiàng)目查重。
文獻(xiàn)調(diào)研發(fā)現(xiàn),國外沒有項(xiàng)目查重的概念,但在數(shù)據(jù)挖掘、文檔檢索等方面的研究起步早,進(jìn)行了大量的研究和探索,積累了豐富的經(jīng)驗(yàn)和成熟的技術(shù)[2-5]。國內(nèi)在方法研究方面起步晚,但有針對(duì)性地開展文本挖掘方法在科技項(xiàng)目管理中的應(yīng)用研究。姜韶華[6]提出一種基于文本挖掘的科研項(xiàng)目管理原型系統(tǒng),重點(diǎn)研究和解決科研項(xiàng)目文本的切分和特征建模等問題;左川[7]提出一種基于非分詞技術(shù)解決科技項(xiàng)目查重問題的方法,該方法不需要對(duì)文本進(jìn)行分詞處理,利用頻繁閉項(xiàng)集構(gòu)造向量空間模型對(duì)項(xiàng)目申請(qǐng)書進(jìn)行建模并計(jì)算相似度;方延風(fēng)[8]提出將一種改進(jìn)的TF-IDF方法用于科技項(xiàng)目查重,考慮了特征詞的位置和長度兩種因素;吳燕[9]提出一種基于層次聚類的科技項(xiàng)目分類和查重方法,在計(jì)算科技項(xiàng)目相似性時(shí)綜合考慮了應(yīng)用領(lǐng)域、研究內(nèi)容和技術(shù)來源等因素;林明才等[10]提出一種改進(jìn)的模糊聚類算法RM-FCM,在計(jì)算項(xiàng)目相似度時(shí)考慮了不同屬性的特征項(xiàng)對(duì)科研項(xiàng)目的重要性;劉蔭明等[11]從科技查新實(shí)踐、地區(qū)和部門多頭管理、科研論文所依托的基金項(xiàng)目數(shù)量等方面研究我國科研的重復(fù)立項(xiàng)現(xiàn)象,通過對(duì)科研項(xiàng)目的申報(bào)與審批流程進(jìn)行分析,提出避免重復(fù)立項(xiàng)的具體措施。
上述研究工作基本都是從項(xiàng)目申請(qǐng)書入手,對(duì)申請(qǐng)書進(jìn)行分詞或?qū)⑵渥鳛檎w處理,然后提取特征向量,利用特征向量的相似度表示項(xiàng)目的相似度。一方面不同計(jì)劃的申請(qǐng)書格式不同,學(xué)科領(lǐng)域差別較大,很難找到統(tǒng)一的描述模式;另一方面,項(xiàng)目申請(qǐng)書一般不對(duì)外公開,獲取難度很大。因此,該方法適應(yīng)于在單個(gè)計(jì)劃內(nèi)部進(jìn)行項(xiàng)目查重,很難進(jìn)行跨計(jì)劃的項(xiàng)目查重。基于上述分析,本文采用一種全新的思路解決項(xiàng)目查重問題,首先收集項(xiàng)目的標(biāo)題、項(xiàng)目所發(fā)表的論文、關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)機(jī)構(gòu)等要素的海量信息,構(gòu)建與項(xiàng)目查重相關(guān)的大數(shù)據(jù)網(wǎng)絡(luò),為后續(xù)的分析和挖掘提供數(shù)據(jù)支撐;然后利用多源信息整合技術(shù)構(gòu)建項(xiàng)目相似度模型,綜合考慮項(xiàng)目的研究內(nèi)容、負(fù)責(zé)人和承擔(dān)單位3種因素以提高計(jì)算項(xiàng)目相似度的準(zhǔn)確性和可靠性;最后采用Hadoop分布式處理技術(shù)加速項(xiàng)目相似度的計(jì)算過程,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的快速挖掘。
1. 大數(shù)據(jù)挖掘
隨著海量數(shù)據(jù)獲取、存儲(chǔ)與處理方法與技術(shù)的飛速發(fā)展,大數(shù)據(jù)時(shí)代來臨,并對(duì)眾多領(lǐng)域產(chǎn)生影響[12]。2007年計(jì)算機(jī)圖靈獎(jiǎng)得主JimGray在NRC-CSTB的演講報(bào)告中提出科學(xué)研究的第四范式[13]——數(shù)據(jù)密集型科學(xué)研究,以協(xié)同化、網(wǎng)絡(luò)化與數(shù)據(jù)驅(qū)動(dòng)為其主要特征,在學(xué)術(shù)界引起很大關(guān)注。世界頂尖科學(xué)期刊《Nature》和《Science》分別推出??瑖@科學(xué)研究中的大數(shù)據(jù)問題展開專題討論。美國政府于2012年3月29日發(fā)布的“大數(shù)據(jù)研究與發(fā)展計(jì)劃”[14]更是將大數(shù)據(jù)的發(fā)展和研究提高到國家戰(zhàn)略的層面,將其視為信息科學(xué)領(lǐng)域內(nèi)繼信息高速公路計(jì)劃之后的又一重大發(fā)展戰(zhàn)略。
大數(shù)據(jù)挖掘在近年發(fā)展迅速,基本思想是通過包括互聯(lián)網(wǎng)在內(nèi)的多種渠道收集研究對(duì)象的多維度數(shù)據(jù),通過對(duì)海量數(shù)據(jù)的關(guān)聯(lián)分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)被研究對(duì)象的潛在行為模式或規(guī)律。大數(shù)據(jù)挖掘的經(jīng)典應(yīng)用有Google公司推出的“流感趨勢(shì)預(yù)報(bào)服務(wù)”[15]和奧巴馬競選團(tuán)隊(duì)的“大數(shù)據(jù)選舉”[16]。Google公司認(rèn)為,用戶搜索的關(guān)鍵詞代表了他們的即時(shí)需求,通過對(duì)流感進(jìn)行關(guān)鍵詞建模,并對(duì)搜索這些關(guān)鍵詞的海量用戶進(jìn)行跟蹤分析,創(chuàng)建流感地圖。“谷歌流感趨勢(shì)”在測(cè)試過程中還顯示出反應(yīng)迅速的優(yōu)勢(shì),甚至能夠比疾病控制和預(yù)防中心提前1個(gè)星期到10天時(shí)間公布流感預(yù)報(bào)。美國總統(tǒng)奧巴馬的競選團(tuán)隊(duì)利用大數(shù)據(jù)驅(qū)動(dòng)的分析和決策為其成功連任發(fā)揮巨大的作用,競選團(tuán)隊(duì)創(chuàng)建了龐大的數(shù)據(jù)系統(tǒng),將民調(diào)者、注資者、工作人員、消費(fèi)者、社交媒體及“搖擺州”主要民主黨投票人的信息進(jìn)行關(guān)聯(lián)及整合,然后通過大量的數(shù)據(jù)挖掘和模擬運(yùn)算,對(duì)籌集競選資金、競選廣告精準(zhǔn)投放、模擬競選等提供決策支持服務(wù),取得了立竿見影的效果。
國內(nèi)的學(xué)者也開展了相關(guān)研究。孟小峰等[17]對(duì)大數(shù)據(jù)管理的概念、技術(shù)和挑戰(zhàn)等問題進(jìn)行了系統(tǒng)化的梳理和總結(jié);侯經(jīng)川等[18]研究了大數(shù)據(jù)時(shí)代的數(shù)據(jù)引證問題,對(duì)其研究現(xiàn)狀、最新進(jìn)展和未來展望進(jìn)行了深入的分析和討論??傮w來看,大數(shù)據(jù)挖掘的相關(guān)研究處于起步階段,國內(nèi)與國外差距還不大,這是我國在該領(lǐng)域追趕國際先進(jìn)國家的重要機(jī)遇。利用大數(shù)據(jù)的思想解決科技項(xiàng)目查重問題是一個(gè)全新的研究課題,有重要的理論和實(shí)踐意義。本文重點(diǎn)介紹基于大數(shù)據(jù)挖掘的項(xiàng)目查重模型,并探討其中涉及的關(guān)鍵問題,為解決項(xiàng)目查重問題提供一種新的視角和方案。
2. 項(xiàng)目查重模型
本文提出的項(xiàng)目查重方法的基本思路是從海量數(shù)據(jù)中挖掘出與項(xiàng)目查重緊密相關(guān)的研究內(nèi)容、負(fù)責(zé)人和承擔(dān)單位等信息,采用多源信息整合技術(shù)對(duì)上述信息進(jìn)行整合并判定項(xiàng)目的相似度。為加速海量數(shù)據(jù)的挖掘,筆者采用Hadoop分布式技術(shù)提高項(xiàng)目查重的計(jì)算速度。項(xiàng)目查重的架構(gòu)框圖如圖1所示,可分為任務(wù)解析、大數(shù)據(jù)文件、項(xiàng)目相似度判別模型、分布式調(diào)度和結(jié)果展示等5部分。任務(wù)解析模塊在收到用戶的查詢請(qǐng)求后將其解析和翻譯為機(jī)器可執(zhí)行的指令,并提交給分布式調(diào)度模塊執(zhí)行;分布式調(diào)度模塊負(fù)責(zé)利用Hadoop框架管理和調(diào)度計(jì)算機(jī)集群系統(tǒng)協(xié)同完成項(xiàng)目查重任務(wù);大數(shù)據(jù)文件模塊存儲(chǔ)了與項(xiàng)目查重相關(guān)的海量數(shù)據(jù),是該模型的數(shù)據(jù)基礎(chǔ);項(xiàng)目相似度判別模型通過綜合關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)單位等因素計(jì)算項(xiàng)目與查詢條件的相似度;結(jié)果展示模塊則通過可視化等手段將查詢結(jié)果反饋給用戶。
圖1 項(xiàng)目查重的架構(gòu)框圖
本查重模型所處理的數(shù)據(jù)對(duì)象包括5類:項(xiàng)目信息、論文題錄、關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)單位。5種數(shù)據(jù)對(duì)象間存在網(wǎng)狀的關(guān)聯(lián)關(guān)系,如圖2所示。通過對(duì)上述網(wǎng)狀數(shù)據(jù)進(jìn)行加工處理,提取出與項(xiàng)目查重密切相關(guān)的元數(shù)據(jù)描述:
項(xiàng)目ID是項(xiàng)目的唯一標(biāo)識(shí),是實(shí)現(xiàn)各類數(shù)據(jù)之間關(guān)聯(lián)的紐帶;關(guān)鍵詞集是一組用于描述項(xiàng)目研究內(nèi)容的術(shù)語,是對(duì)研究內(nèi)容的凝練和概括。該數(shù)據(jù)來源于兩部分:一部分來自于項(xiàng)目標(biāo)題,可通過自動(dòng)切分詞技術(shù)獲取;另外一部分則來源于由項(xiàng)目資助所發(fā)表論文的關(guān)鍵詞,可通過論文的資金資助信息建立項(xiàng)目ID與論文關(guān)鍵詞的關(guān)聯(lián)關(guān)系。由于項(xiàng)目數(shù)量和論文數(shù)量都十分龐大,關(guān)鍵詞集的構(gòu)建首先通過文本智能挖掘和抽取技術(shù)完成,然后輔以人工校驗(yàn)的方式保證數(shù)據(jù)的準(zhǔn)確性;負(fù)責(zé)人信息則直接從項(xiàng)目信息數(shù)據(jù)庫中抽取,但由于信息缺失,負(fù)責(zé)人身份的唯一性識(shí)別仍然是尚未得到有效解決的難題;承擔(dān)單位信息也存在上述類似的問題,機(jī)構(gòu)的更名、重組、簡稱全稱混用等因素為設(shè)定承擔(dān)單位的唯一性識(shí)別帶來很大的困難。
圖2 大數(shù)據(jù)構(gòu)建的示意圖
圖3 相似度判別模型
項(xiàng)目的相似度判別模型分別計(jì)算研究內(nèi)容、負(fù)責(zé)人和承擔(dān)單位3方面的相似度,并對(duì)上述結(jié)果進(jìn)行加權(quán)整合得到項(xiàng)目最終的相似度。其中,項(xiàng)目的研究內(nèi)容由一組關(guān)鍵詞進(jìn)行描述,因此其相似性轉(zhuǎn)化為檢索詞集合與項(xiàng)目關(guān)鍵詞集合之間的相似性。項(xiàng)目負(fù)責(zé)人和承擔(dān)單位存在的重復(fù)性直接通過檢索詞匹配的方式計(jì)算,即兩個(gè)項(xiàng)目的負(fù)責(zé)人或承擔(dān)單位相同,則存在重復(fù)立項(xiàng)問題的可能性較高。三個(gè)維度的匹配度計(jì)算完成后,通過加權(quán)的方式進(jìn)行整合,最終得到與檢索條件匹配度由高到低排序的項(xiàng)目集合。
本模型解決的是大數(shù)據(jù)場(chǎng)景下的項(xiàng)目查重問題,要在短時(shí)間內(nèi)完成對(duì)海量數(shù)據(jù)的檢索,需要借助于分布式計(jì)算技術(shù)。筆者采用Hadoop框架完成項(xiàng)目查重任務(wù)的分布式處理,其原理如圖4所示。Job Tracker是管理者的角色,負(fù)責(zé)任務(wù)的拆分和調(diào)度,維持與Task Tracker通訊并記錄其最新狀態(tài)信息。Task Tracker是工人的角色,負(fù)責(zé)具體子任務(wù)的執(zhí)行,從指定的位置讀取待處理的數(shù)據(jù),完成任務(wù)后保存中間結(jié)果,并向Job Tracker提交狀態(tài)更新。子任務(wù)的類型有兩種:Map操作和Reduce操作。Map操作處理相應(yīng)的片段數(shù)據(jù),即對(duì)指定片段計(jì)算項(xiàng)目的相似度,并保存中間結(jié)果。Reduce操作則對(duì)中間結(jié)果進(jìn)行收集和合并,即對(duì)指定的項(xiàng)目集合完成相似度的加權(quán)計(jì)算,得到最終的判別結(jié)果。
圖4 Hadoop分布式調(diào)度原理
3. 討論
本文從大數(shù)據(jù)挖掘的角度提出了一種全新、可行的項(xiàng)目查重模型,能夠解決目前項(xiàng)目查重的諸多難題。然而,該方法涉及海量數(shù)據(jù)的采集、加工、關(guān)聯(lián)和挖掘等內(nèi)容,需要建立規(guī)范的工作機(jī)制和采用智能的挖掘技術(shù)以保證查重方法的切實(shí)可行。下面將重點(diǎn)介紹該模型需要解決的幾個(gè)關(guān)鍵問題:
(1)海量數(shù)據(jù)的采集和加工需要建立一系列的標(biāo)準(zhǔn)和規(guī)范來保證數(shù)據(jù)的準(zhǔn)確性。處理的數(shù)據(jù)涉及項(xiàng)目信息、論文題錄、關(guān)鍵詞、負(fù)責(zé)人和承擔(dān)單位等,數(shù)據(jù)量龐大,種類較多,且沒有固定的格式,因此,需要建立一套規(guī)范的工作機(jī)制,并嚴(yán)格按照指定的標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行加工和處理。此外,由于數(shù)據(jù)量巨大,需要大量的人力和財(cái)力作為支撐。
(2)數(shù)據(jù)的標(biāo)識(shí)、描述和關(guān)聯(lián)機(jī)制問題。數(shù)據(jù)標(biāo)識(shí)解決數(shù)據(jù)的唯一性標(biāo)志問題,目前在如何解決負(fù)責(zé)人、承擔(dān)單位的唯一標(biāo)識(shí)上仍存在很大的困難;數(shù)據(jù)描述用于揭示數(shù)據(jù)的內(nèi)容/屬性,需要對(duì)5種數(shù)據(jù)對(duì)象建立統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn);關(guān)聯(lián)機(jī)制則重點(diǎn)解決不同類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系問題,如項(xiàng)目與發(fā)表論文如何建立準(zhǔn)確的對(duì)應(yīng)關(guān)系等。
(3)研究文本智能抽取技術(shù)是處理海量數(shù)據(jù)必不可少的手段之一。該技術(shù)主要用于解決關(guān)鍵詞集的自動(dòng)生成問題:一方面,針對(duì)科技項(xiàng)目標(biāo)題的特點(diǎn)設(shè)計(jì)針對(duì)性的切分詞技術(shù),自動(dòng)從項(xiàng)目標(biāo)題中抽取關(guān)鍵詞;另一方面,從論文題錄的項(xiàng)目資助信息中自動(dòng)抽取項(xiàng)目編號(hào),建立項(xiàng)目與論文的關(guān)聯(lián)關(guān)系,并將論文的關(guān)鍵詞自動(dòng)加入到項(xiàng)目的關(guān)鍵詞集合中。關(guān)鍵詞集構(gòu)建的準(zhǔn)確與否直接關(guān)系到項(xiàng)目查重效果的優(yōu)劣。
(4)大數(shù)據(jù)挖掘需要處理海量的數(shù)據(jù),為提高項(xiàng)目查重的速度,需要分布式的處理架構(gòu)對(duì)海量數(shù)據(jù)進(jìn)行檢索和挖掘。Hadoop是一套通用的技術(shù)框架,應(yīng)用到項(xiàng)目查重場(chǎng)景中需要根據(jù)業(yè)務(wù)邏輯進(jìn)行適應(yīng)性改造。如何將項(xiàng)目查重的業(yè)務(wù)邏輯設(shè)計(jì)為分布式處理模式,并盡可能提高查重效率是需要解決的關(guān)鍵問題。
4. 結(jié)語
本文提出一種基于大數(shù)據(jù)挖掘的項(xiàng)目查重方法,利用大數(shù)據(jù)挖掘和多源信息整合等技術(shù)解決項(xiàng)目查重問題。該方法提供了一種全新的思路和方法,是對(duì)現(xiàn)有項(xiàng)目查重方法的促進(jìn),具有重要的理論意義與應(yīng)用價(jià)值?;谠撃P蜆?gòu)建切實(shí)可用的查重系統(tǒng)需要解決一系列關(guān)鍵的機(jī)制問題和技術(shù)問題,包括建立海量數(shù)據(jù)采集和加工標(biāo)準(zhǔn);構(gòu)建數(shù)據(jù)的標(biāo)識(shí)、描述和關(guān)聯(lián)機(jī)制;研究文本智能抽取技術(shù)和改進(jìn)Hadoop框架以適應(yīng)項(xiàng)目查重的業(yè)務(wù)需求等。
參考文獻(xiàn)
[1] 張金玲,黃長,陳如好,等. 深化科技查新工作 擴(kuò) 展社會(huì)化服務(wù)[J]. 圖書館論壇, 2011 (5): 122-124,137.
[2] H.Zhang,T.Chow,A multi- level matching method with hybrid similarity for document retrieval [J],Expert Systems with Applications,2012,39 (3):2710-2719.
[3] J. Reid, M. Lalmas, K. Finesilver, M. Hertzum, Best entry points for structured document retrieval--Part II:Types,usage and effectiveness [J],InformationProcessing & Management,2006,42 (1):89-105.
[4] J. Reid, M. Lalmas, K. Finesilver, M. Hertzum,Best entry points for structured document retrieval--Part I: Characteristics [J], Information Processing & Management,2006,42 (1):74-88.
[5] P.Kalczynski,A.Chou,Temporal Document R etrieval Model for business news archives [J], Information Processing & Management,2005,41 (3):635-650.
[6] 姜韶華. 科研項(xiàng)目管理中文本挖掘方法研究及應(yīng)用[D]. 大連:大連理工大學(xué),2006.
[7] 左川. 基于非分詞技術(shù)的科技項(xiàng)目查重研究與實(shí)現(xiàn)[D]. 重慶:重慶大學(xué),2010.
[8] 方延風(fēng). 科技項(xiàng)目查重中特征詞 TF- IDF 值計(jì)算方 法的改進(jìn)[J]. 情報(bào)探索,2012 (1):1-3.
[9] 吳燕. 基于層次聚類的科技項(xiàng)目分類與查重研究[D]. 天津:天津財(cái)經(jīng)大學(xué),2008.
[10] 林明才,康耀紅,張誠一. 基于科研立項(xiàng)管理應(yīng)用 的模糊 C 均值算法研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2010,31 (7):1570- 1572.
[11] 劉蔭明,張???,劉謙. 淺析科研管理之避免重復(fù)立項(xiàng)[J]. 科技管理研究,2010 (21):198- 200.
[12] L. Steve. The age of big data [N/OL]. The New YorkTimes.(2012-02-12) [2013- 03- 06].
[13] H.Tony,T.Stewart,T.Kirstin. The fourth paradigm:Data- intensive scientific discovery [M]. R edmond, WA:Microsoft R esearch,2009:19- 33.
[14] Fact Sheet: Big Data Across the Federal Government [EB/OL].(2012-03-29)[2013-03-06].
[15] Google Flu Trends. [EB/OL].
[16] M. Scherer. Inside the Secret World of the Data Crunchers Who Helped Obama Win. [EB/OL]. (2012-11-07) [2013-03-06].
[17] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展,2013,50 (1):146- 169.
[18] 侯經(jīng)川,方靜怡.數(shù)據(jù)引證研究:進(jìn)展與展望[J].中國圖書館學(xué)報(bào),2013 (1):112- 118.
Papertime論文檢測(cè)小編經(jīng)常與大家分享關(guān)于論文寫作等方面的信息~