數(shù)字化賦能新時代歷史學(xué)發(fā)展

作者:    發(fā)布時間:2024-01-22    來源:人民網(wǎng)-人民日報
分享到 :

習(xí)近平總書記指出:“當今世界,科技進步日新月異,互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等現(xiàn)代信息技術(shù)深刻改變著人類的思維、生產(chǎn)、生活、學(xué)習(xí)方式”。在新興數(shù)字技術(shù)的賦能下,古老的歷史學(xué)煥發(fā)出新的生機。如何把握數(shù)字技術(shù)對歷史研究的賦能作用?如何發(fā)揮好數(shù)字歷史研究方法的重要作用?如何正確認識和科學(xué)對待史料數(shù)字化?本期學(xué)術(shù)版圍繞這些問題進行探討。

——編  者  

助力歷史學(xué)繁榮發(fā)展

把握數(shù)字技術(shù)對歷史研究的賦能作用

王  濤

習(xí)近平總書記指出:“重視歷史、研究歷史、借鑒歷史是中華民族5000多年文明史的一個優(yōu)良傳統(tǒng)!弊鳛橐婚T古老的學(xué)問,歷史學(xué)生命力的延續(xù)源于自身的開放性。20世紀60年代,有歷史學(xué)家呼吁歷史學(xué)要與地理、生物等學(xué)科結(jié)成新同盟,展開跨學(xué)科研究,為歷史學(xué)帶來多樣性的發(fā)展。當今世界,科技進步日新月異,互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等數(shù)字技術(shù)深刻改變著人類的思維、生產(chǎn)、生活、學(xué)習(xí)方式。在數(shù)字技術(shù)不斷迭代的背景下,今天我國歷史研究工作者也在積極探索與數(shù)字技術(shù)融合的路徑,努力順勢而為、力爭乘勢而上,讓歷史研究更加多元化,進而推動歷史學(xué)繁榮發(fā)展。

數(shù)字技術(shù)賦能歷史學(xué),涵蓋史料挖掘整理、歷史問題研究、研究成果發(fā)布傳播等各個環(huán)節(jié)。數(shù)字技術(shù)可以幫助歷史研究工作者收集、量化、解釋和分享歷史資料,揭示其中蘊含的信息。同時,當數(shù)字技術(shù)成為自身技能的組成部分,歷史研究工作者也會自覺從算法等技術(shù)角度看待歷史問題研究,如此一來,歷史研究的路徑就會得到拓展,歷史書寫的方式也越來越多樣。此外,數(shù)字技術(shù)還能用可視化等方式將歷史研究成果呈現(xiàn)出來。從這個意義上說,數(shù)字技術(shù)能給歷史學(xué)帶來新的研究視野和方法,讓歷史研究工作者具備了更多的思維模式。

歷史史料使用的廣度與深度得到拓展。歷史研究需要立足史料展開。在數(shù)字技術(shù)的賦能下,史料的范疇得到了拓展,史料的使用效率得到了提升。數(shù)字技術(shù)幫助歷史研究工作者深化了對史料的認識,史料不再局限于文本材料,而是出現(xiàn)多元化的趨勢,圖像、物質(zhì)材料等在完成有效的數(shù)字化之后,都能夠進入歷史研究的視野。歷史研究工作者可以足不出戶使用各種類型數(shù)據(jù)庫,還能利用檢索技術(shù)快速定位獲取目標文獻。同時,一些此前無法獲取的史料,比如由于年代久遠或者因為外在因素(自然災(zāi)害、人為破壞等)遭到損壞的史料,還有容易損壞的脆弱歷史文獻,都可以用機器學(xué)習(xí)的方式得到重建。再如有研究團隊利用透視掃描技術(shù),結(jié)合機器學(xué)習(xí)算法,快速有效提取獲取書信等文獻內(nèi)容,使其成為歷史研究的材料。人工智能還能幫助歷史研究工作者翻譯古代文字,包括甲骨文、西夏文、殘缺希臘語銘文等在內(nèi)的古文字都在數(shù)字技術(shù)的協(xié)助下得到了一定程度的識別與釋讀,擴充了古代文獻的范疇。此外,之前由于數(shù)量太大無法得到有效使用的材料,也能在數(shù)字技術(shù)的協(xié)助下通過算法提煉出具有學(xué)術(shù)價值的信息。比如,歐洲中世紀的貴族家族留下的大量紋章素材,是研究近代早期歐洲文化與社會狀況的重要資料。但由于紋章材料過于龐雜,其形制與使用場景也不盡相同,研究難度極大。數(shù)字紋章項目使用機器學(xué)習(xí)以及語義網(wǎng)技術(shù),實現(xiàn)了對紋章的自動描述與識別,使相關(guān)研究得以順利開展。

歷史研究方式得到改進。在得到數(shù)字技術(shù)賦能后,歷史學(xué)的開放性讓歷史研究工作者可以充分利用不同學(xué)科的理念和方法來推進歷史研究,比如可以利用進行空間分析的地理信息系統(tǒng)、社會學(xué)中的社會網(wǎng)絡(luò)分析方法、計算語言學(xué)的主題模型模塊等進行分析研究。這些跨學(xué)科的方法與歷史研究結(jié)合能夠發(fā)揮學(xué)術(shù)效能,甚至能獲得具有顛覆性的發(fā)現(xiàn)。比如,國內(nèi)有學(xué)者利用數(shù)字技術(shù)確立了“數(shù)字概念史”的方法論,基于人機共讀,梳理了中國近代海量文獻中思想狀況的演變情況,追蹤“道”概念的變遷過程,得出了超越傳統(tǒng)認知的新發(fā)現(xiàn)。同時,在運用數(shù)字技術(shù)的情況下,歷史研究的工作流程有了更多合作需求。數(shù)字技術(shù)日新月異的發(fā)展意味著越來越多的數(shù)字技能需要被掌握,但歷史研究工作者不可能掌握所有數(shù)字技能,不同領(lǐng)域的學(xué)者進行合作研究就成為必然選擇。這不僅讓數(shù)字技術(shù)賦能下的歷史研究課題在形式上具有團體協(xié)作的必要,而且這種跨界融合的研究方式也在實質(zhì)上拓展和深化了歷史研究。當下,大語言模型如何接入歷史研究之中是熱門議題。單純從人工智能的角度看,在方法論上使用機器學(xué)習(xí)的方法,已經(jīng)說明人工智能可以與歷史研究緊密結(jié)合。國內(nèi)已經(jīng)有高校開發(fā)了基于中國古代文化典籍的大語言模型,能夠?qū)崿F(xiàn)點校、實體提取、翻譯等功能,學(xué)術(shù)意義重大。當前的問題在于,歷史研究工作者如何評估人工智能大模型生成的文字內(nèi)容,如何讓人工智能參與的歷史書寫具有更好的學(xué)術(shù)性并更好地遵循學(xué)術(shù)規(guī)范,如何與時俱進建立有效的同行評議機制。這些問題并不會阻礙歷史學(xué)家使用人工智能,但需要我們讓人工智能更加規(guī)范地扮演學(xué)術(shù)助理的角色,推動學(xué)術(shù)研究中人機協(xié)作穩(wěn)健發(fā)展。

歷史研究成果的發(fā)布傳播形式得到豐富。歷史研究工作從課題選擇開始,經(jīng)歷漫長而艱辛的研究過程之后需要將成果發(fā)布出來,整個研究工作的流程才能形成完整的閉環(huán)。傳統(tǒng)的學(xué)術(shù)發(fā)表體系具有相對封閉的特性,從形式上看,論文、專著、報告等形式比較單一,能夠呈現(xiàn)的內(nèi)容也十分有限,制約了研究成果社會效益的發(fā)揮;從效率上看,單一的出版媒介不利于歷史研究成果及時被學(xué)術(shù)圈外的大眾接受。數(shù)字技術(shù)讓學(xué)術(shù)成果的發(fā)布傳播擺脫傳統(tǒng)方式的束縛,讓歷史研究在內(nèi)容上更加豐富、在受眾上更加多元。比如,敦煌研究院推出的“數(shù)字敦煌”項目,充分挖掘數(shù)字技術(shù)對知識傳播的作用,用數(shù)字技術(shù)對敦煌石窟、壁畫等文化遺產(chǎn)進行數(shù)字復(fù)原,既在形式上更加多樣,也讓敦煌文化研究成果的傳播更加有效。可以預(yù)見,數(shù)字技術(shù)的不斷進步,必將進一步拓展歷史研究成果的發(fā)布傳播渠道。

(作者為南京大學(xué)歷史學(xué)院教授)

提供新機遇、新視角、新工具

發(fā)揮好數(shù)字歷史研究方法的重要作用

王旭東

學(xué)術(shù)的發(fā)展離不開創(chuàng)新。習(xí)近平總書記在強調(diào)“使中國特色哲學(xué)社會科學(xué)真正屹立于世界學(xué)術(shù)之林”時指出,要“不斷推進知識創(chuàng)新、理論創(chuàng)新、方法創(chuàng)新”;在對我國廣大歷史研究工作者提出殷切期望時強調(diào),要“著力提高研究水平和創(chuàng)新能力”。當前,信息革命的時代潮流浩蕩前行,有力推動人類社會向數(shù)字化、網(wǎng)絡(luò)化、智能化方向邁進。以大數(shù)據(jù)、云計算、人工智能等為代表的數(shù)字技術(shù)不僅深刻影響著人們的生產(chǎn)生活,也為哲學(xué)社會科學(xué)研究帶來了機遇和挑戰(zhàn)。近年來,數(shù)字史學(xué)、信息史學(xué)等蓬勃興起,充分表明數(shù)字技術(shù)為歷史研究提供了新機遇、新視角、新工具。其中,從方法論層面出現(xiàn)的數(shù)字歷史研究方法,即用數(shù)字技術(shù)收集、處理、分析和解釋歷史數(shù)據(jù),對廣大歷史研究工作者收集、提取、研究各類歷史資料具有變革性意義。

數(shù)字歷史研究方法,是一種將數(shù)字技術(shù)與歷史研究相結(jié)合的新興方法。它以數(shù)據(jù)驅(qū)動為基礎(chǔ)和前提,利用計算機技術(shù)和數(shù)字工具來收集、處理、分析和解釋歷史資料,對歷史事件提供趨勢性的定量或定性分析,使歷史研究更加準確、全面和深入,能夠助力歷史研究工作者開辟新領(lǐng)域、提出新問題,進而對歷史事件和歷史過程的復(fù)雜性提出新見解。具體而言,數(shù)字歷史研究方法包括以下幾個方面:一是數(shù)字化文獻建立,即將歷史文獻和檔案數(shù)字化,以便于存儲、檢索和分析;二是文本挖掘數(shù)字化,即利用自然語言處理和機器學(xué)習(xí)技術(shù),對歷史文獻進行文本分析和語義解析,從中提取有關(guān)歷史事件、人物和主題的信息;三是研究分析數(shù)字化,即通過構(gòu)建歷史人物、組織、事件等的網(wǎng)絡(luò)模型,分析它們之間的關(guān)系和影響,揭示歷史事件的復(fù)雜性和動態(tài)性;四是數(shù)據(jù)可視化,即利用圖表、地圖、知識圖譜等可視化方法,將歷史數(shù)據(jù)以直觀形式進行展示,幫助研究者理解和解釋歷史事件;等等。

當前,數(shù)字歷史研究方法正在迅速推廣和應(yīng)用。許多國家和地區(qū)的學(xué)術(shù)機構(gòu)和研究組織制定了數(shù)字歷史計劃,促進該領(lǐng)域的合作和交流。不少圖書館、檔案館和研究機構(gòu)都建立了數(shù)字化歷史資源庫,并提供在線訪問和使用的平臺,為研究人員提供大量的歷史檔案和文獻資源。同時,一些數(shù)字化歷史工具和軟件也得到了廣泛應(yīng)用,如嵌入式OCR技術(shù)(光學(xué)字符識別)、自然語言處理技術(shù)、數(shù)據(jù)可視化軟件、歷史地理信息系統(tǒng)平臺等,這些技術(shù)和工具助力歷史研究更加高效、精確和可視化。

面向未來,數(shù)字歷史研究方法必將隨其自身的發(fā)展以及與其他學(xué)科的不斷融合而發(fā)揮更大作用,進而為推動新時代歷史學(xué)繁榮發(fā)展作出貢獻。例如,人工智能的集成應(yīng)用將發(fā)揮更大作用。機器學(xué)習(xí)和自然語言處理技術(shù)將提供更加智能的數(shù)據(jù)處理和分析能力,不僅可以幫助廣大歷史研究工作者自動完成文檔分類、轉(zhuǎn)錄等任務(wù),還可以從大型數(shù)據(jù)集里生成假設(shè),從而在海量歷史數(shù)據(jù)中探索出新的分析模式和研究路徑,由此獲得對歷史事件和歷史過程的新見解。又如,數(shù)據(jù)的多樣性、開放性和可獲取性將創(chuàng)造更多研究機會。未來,越來越多的歷史研究資料將以開放數(shù)據(jù)的形式提供,這將促進學(xué)術(shù)合作和跨學(xué)科研究,實現(xiàn)數(shù)據(jù)、方法等的共享,為個體研究者跨時空參與相關(guān)研究提供可能。此外,數(shù)字歷史教育也將進一步發(fā)展,從而吸引更多人通過在線課程和教學(xué)工具參與各類歷史研究。再如,創(chuàng)建交互式、可視化情景能力的提升將開辟更多研究平臺。隨著增強現(xiàn)實、虛擬現(xiàn)實等技術(shù)的升級和普及,重建歷史環(huán)境和景觀將變得相對容易,廣大歷史研究工作者和公眾能夠以前所未有的沉浸式方式與過去互動,增強歷史研究的沉浸式體驗。

在信息時代的數(shù)字化轉(zhuǎn)型中,數(shù)字歷史研究方法正在用新興技術(shù)改造古老的歷史學(xué)。需要明確的是,無論數(shù)字技術(shù)怎么發(fā)展,我們都要始終保持對歷史資料的尊重,避免過度數(shù)字化而忽視歷史事件的復(fù)雜性和多樣性。更重要的是,要時刻清醒地認識到,無論數(shù)字歷史研究方法發(fā)展到何種程度,它始終是一種技術(shù)工具性質(zhì)的方法。在使用數(shù)字歷史研究方法時,作為研究主體的歷史研究工作者要始終堅持唯物史觀。唯有如此,才能科學(xué)有效地利用持續(xù)更新的先進技術(shù)手段,助力新時代中國歷史學(xué)繁榮發(fā)展。

(作者為中國社會科學(xué)院世界歷史研究所研究員)

堅持運用辯證唯物主義和歷史唯物主義

正確認識和科學(xué)對待史料數(shù)字化

董灝智

史料是歷史研究的基礎(chǔ)和前提。盡可能系統(tǒng)地搜集、整理、分析有關(guān)史料是歷史研究的基礎(chǔ)性工作。習(xí)近平總書記指出:“要堅持用唯物史觀來認識和記述歷史,把歷史結(jié)論建立在翔實準確的史料支撐和深入細致的研究分析的基礎(chǔ)之上!标P(guān)于史料的內(nèi)涵,學(xué)術(shù)界比較認可梁啟超給出的定義:“史料者何?過去人類思想行事所留之痕跡,有證據(jù)傳留至今日者也!睍r至今日,史料的分類越來越細,除了文獻史料、實物史料、口述史料等常規(guī)史料,還包括影像史料、音頻史料等,特別是數(shù)字技術(shù)的快速發(fā)展,不僅極大推動史料數(shù)字化構(gòu)建,也在生成大量原生的或外延的數(shù)字化史料。比如,史料數(shù)據(jù)庫的建設(shè)為歷史研究工作者檢索、復(fù)制文獻史料提供了極大便利,人工智能技術(shù)等對古籍文字進行識別排序進而激活古籍生命力,等等。同時要看到,隨著史料數(shù)字化發(fā)展向縱深推進,在歷史研究中也產(chǎn)生了“技術(shù)萬能主義”等錯誤認識。因此,無論是面對史料數(shù)字化還是數(shù)字化史料,我們都要堅持辯證唯物主義和歷史唯物主義,真正讓數(shù)字技術(shù)推動歷史學(xué)向更為寬廣的領(lǐng)域發(fā)展。

在歷史學(xué)發(fā)展史上,始于20世紀初期的西方“史料革命”倡導(dǎo)擴大歷史研究范圍,由政治史擴展至社會史、經(jīng)濟史、文化史、生態(tài)史等。在這一過程中,史料的范圍亦隨之擴大,不再局限于官方檔案和傳世歷史文獻,還包括書信、日記、碑刻、家譜、契約文書、賬本、回憶錄等。尤為重要的是,20世紀50年代計算機技術(shù)被引入歷史研究之中,使用計算機技術(shù)處理歷史數(shù)據(jù),把各種形式的文字史料轉(zhuǎn)化為數(shù)字信息并進行加工、處理、存儲,開啟了史料數(shù)字化的進程。史料數(shù)字化早期主要采用直接掃描的方式,將文獻史料逐頁傳輸至計算機內(nèi),存儲為圖像文件,不僅保存了史料的原貌,還使零散的史料集中起來。在此基礎(chǔ)上,計算機技術(shù)將文獻史料轉(zhuǎn)換成文本形式,建立了可以全文檢索的數(shù)據(jù)系統(tǒng),史料數(shù)據(jù)庫由此出現(xiàn),從技術(shù)層面進一步推動了“史料革命”。同時,互聯(lián)網(wǎng)技術(shù)的發(fā)展加快了數(shù)字化史料的傳輸速度、拓寬了史料的獲取渠道,促進各種“史料數(shù)據(jù)庫”的開發(fā)。就我國而言,史料數(shù)字化開啟于20世紀90年代,其發(fā)展脈絡(luò)與西方較為相似,也是采用先掃描、后文本化的形式將“二十四史”“十三經(jīng)注疏”“諸子集成”“四庫全書”以及近代報紙、雜志等史料大規(guī)模地數(shù)據(jù)化、信息化,并利用網(wǎng)絡(luò)技術(shù)開發(fā)了各種類型的史料數(shù)據(jù)庫。在近30年的時間里,中國國家圖書館、高校和科研機構(gòu)等先后建成了數(shù)以百計的全文檢索、高級檢索等多條件檢索的數(shù)據(jù)庫。以“中國基本古籍庫”和“全國報刊索引”為例,前者收錄了自先秦至民國時期的歷代文獻1萬多種,共計17萬卷,全文約17億字,數(shù)據(jù)量約330G,是中國最大的歷代典籍總匯;后者收錄的報刊數(shù)據(jù)可追溯至1833年,至今已累計收錄報刊5萬余種、文獻5000多萬篇,年更新數(shù)據(jù)量超過500萬條。此外,大量的國外史學(xué)數(shù)據(jù)庫引入國內(nèi),不僅促進了中國的世界史研究,更與國內(nèi)史料數(shù)據(jù)庫建設(shè)共同推動了史料數(shù)字化進程。

史料數(shù)字化使史料呈現(xiàn)出幾何級數(shù)增長的趨勢,極大擴充了歷史研究工作者可以使用的史料規(guī)模,在多個方面對歷史研究產(chǎn)生了深遠影響。第一,無論是史料數(shù)字化,還是數(shù)字化史料,都能讓歷史研究工作者占有越來越廣泛和豐富的史料,有助于實現(xiàn)研究對象從“宏觀”向“微觀”擴展。歷史研究工作者利用數(shù)據(jù)庫中的海量文獻,既可以對政治史、軍事史、思想史等進行宏觀研究,也可以對經(jīng)濟史、社會史、文化史等進行微觀研究,通過研究日記、書信、賬本等私人文獻,折射出大歷史背景下個人的生活與思考,進而理解歷史事件的復(fù)雜性,在一定程度上彌補了宏觀研究的不足。第二,史料數(shù)據(jù)庫改變傳統(tǒng)的歷史研究方式。史料數(shù)據(jù)庫將眾多史料融為一體,其中的全文檢索、高級檢索,為歷史研究工作者快捷查找史料提供了便利。數(shù)據(jù)庫使史料搜集方式從抄史料、做筆記等轉(zhuǎn)變?yōu)楸憬莼闹悄軝z索,在獲取史料的途徑、數(shù)量以及效率方面均得到了空前提高。第三,史料數(shù)字化進一步推動跨學(xué)科研究。比如,對歷史研究工作者而言,不但要掌握基本的數(shù)據(jù)挖掘、數(shù)據(jù)分析等方法,還要了解數(shù)字技術(shù)的最新動態(tài),從而實現(xiàn)歷史研究與數(shù)字技術(shù)緊密結(jié)合。此外,針對數(shù)字化史料的研究,還需要借助人類學(xué)、民族學(xué)、民俗學(xué)、人口學(xué)、統(tǒng)計學(xué)、生態(tài)學(xué)等學(xué)科的研究方法,通過對史料的定量、精準分析,得出相對客觀的結(jié)論,能夠促進歷史研究視角的多元化。

也要看到,史料數(shù)據(jù)庫在給歷史研究帶來極大便利的同時,其局限性也日益凸顯。史料數(shù)據(jù)庫只是歷史研究的輔助工具,并不是歷史研究的全部,檢索也無法代替閱讀和思考。若無扎實的史學(xué)基礎(chǔ)訓(xùn)練和對整體歷史脈絡(luò)的把握,經(jīng)由史料數(shù)據(jù)庫檢索得出的大多是不完整的信息,而僅僅依靠這些不完整的信息進行研究就會影響歷史研究的整體性、系統(tǒng)性。同時,雖然史料數(shù)據(jù)庫使用便捷,但如果歷史研究工作者沒有深入考察史料來源和真實性,便不能完全信任數(shù)據(jù)庫中的史料。特別是文書、賬本、日記、書信等私人史料或民間史料,若無相關(guān)史料的佐證,是不能視為權(quán)威的一手資料的。面向未來,廣大歷史研究工作者要加強史學(xué)訓(xùn)練,扎實提高史學(xué)素養(yǎng)和問題意識,在研究中始終堅持辯證唯物主義和歷史唯物主義,秉持正確的史料觀念,科學(xué)合理利用包括史料數(shù)據(jù)庫、人工智能大模型技術(shù)等在內(nèi)的各種數(shù)字技術(shù)。

(作者為東北師范大學(xué)歷史文化學(xué)院教授)

《 人民日報 》( 2024年01月22日 09 版)