毛泽东著作的版本学研究与数字化发展
毛泽东著作的版本学研究与数字化发展
周一平 钱崇君
(扬州大学 马克思主义学院,江苏 扬州225009)
摘 要:研究毛泽东著作的基础是搜集、研究毛泽东著作的版本。毛泽东著作的不同版本,特别是著作中的修改, 是能反映毛泽东的思想的变化、发展的,是全面、准确研究毛泽东思想的基础。进行毛泽东著作版本研究,需要研究世上留存的毛泽东各种论著的各种版本,研究毛泽东论著及不同版本产生并涉及的各种问题,研究毛泽东论著不同版本外形与内在的异同的各种问题,研究毛泽东论著不同版本的文字与内容修改所反映并涉及的各种问题。其中,需要注意确定作者、判定版本、鉴别版本的真伪以及研究毛泽东对文本的修改。推进毛泽东著作版本研究,最重要的是向数字化方向发展,这是大数据时代的必然要求。
关键词:毛泽东著作;版本学研究;数字化发展
搜集、研究马克思主义理论著作的版本是进行马克思主义理论研究的基础工作。不进行版本研究,马克思主义理论著作的研究是不深入、不全面的,是有局限性的,因为著作版本的变化,特别是著作的修改,是能反映作者思想的变化、发展的。研究毛泽东著作的基础是搜集、研究毛泽东著作的版本。毛泽东著作的不同版本,特别是著作中的修改,是能反映毛泽东的思想的变化、发展的,是全面、准确研究毛泽东思想的基础。要研究特定时期毛泽东的思想,必须以那个时期著作的版本为依据,而不能以后一个时期或另一个时期著作的版本为依据。比如,要研究大革命时期毛泽东对中国社会各阶级的认识,就必须以1925年版、1926年版的《中国社会各阶级的分析》为依据,而不能以人民出版社1951年版《毛泽东选集》收录的《中国社会各阶级的分析》为依据。龚育之曾说:“《中国社会各阶级的分析》, 《湖南农民运动考察报告》,还有《星星之火,可以燎原》、《在延安文艺座谈会上的讲话》,如果出了会校本,不但可以为历史研究者提供便利,而且可以使研究者明白修改的真相,客观地评论修改的得失,澄清关于修改的迷雾和胡乱的传言,我以为是值得做的。”(1)龚育之:《毛泽东文献编辑的文本选择》,《学习时报》2003年2月24日。这里所说的“会校本”,即把各种不同版本的不同之处一一列出,一一写成校勘记的版本研究著作。这里所说的“澄清关于修改的迷雾和胡乱的传言”,说明了毛泽东著作版本研究的重要意义。本文拟从版本学与数字化两个维度对此问题进行分析。
一、毛泽东著作的版本类型及其研究中的重要问题
进行毛泽东著作版本研究,需要研究世上留存的毛泽东各种论著的各种版本,研究毛泽东论著及不同版本产生并涉及的各种问题,研究毛泽东论著不同版本外形与内在的异同的各种问题,研究毛泽东论著不同版本的文字与内容修改所反映并涉及的各种问题,等等。
首先,需要研究各种类型的毛泽东著作版本。如不同载体(材质)的版本:纸本;电子本(镜像本、数字化本);录音;录像;木本(牌匾等);石本(石碑等)。如不同制作方法、技术产生的版本:写本(手稿、手抄本);仿制本;印刷本(油印本、铅印本、影印本等);扫描本等。如各种特别制作的毛泽东著作,如伪装本(1949年以前常见);挂历本等。如装订形式不同:线装本;平装本;精装本;塑料封皮本等。如开本不同:256开,128开,64开,大、小32开,25开,16开,8开等。如版式不同:竖排,横排,天地、左右加文字,加图案,加批语等。如文字、字体不同:中文,少数民族文字,俄文、英文、法文、日文等外国文字;繁体字本,简体字本,大字本。如体例、规模不同:单行本;合印本;文集、选集;丛书本;他人序跋本;批注(校)本。以上各种版本的书还可分:初版本;修订本、增订本;节本;残本等。
还有不同立场、观点的编印者编印的书,如1949年10月以前的民国政府编印的《赤匪反动文件汇编》六册(第一、二册党务,第三、四、五册政治,第六册军事)。这是一套论述性的书,在论说中国共产党各方面情况的同时,引录中国共产党的相关文件,其中有很多毛泽东的著作。胡乔木曾说过:毛泽东主持编《六大以来》《六大以前》等,曾从《赤匪反动文件汇编》中收集资料。(2)胡乔木说:“国民党出于其反共的需要在三十年代编辑了一套《赤匪反动文件汇编》,有五六本,收集了我党历史上大量的文件资料,这成了当时收集六大以来历史文献的主要途径。但从这个途径查找到的文献,特别是党的重要决议、命令、指示等,要看有没有被篡改,这个工作由毛主席亲自审核……”详见胡乔木:《胡乔木回忆毛泽东》,北京:人民出版社,1994年,第177页。各种版本的毛泽东著作都是毛泽东著作传播、影响的反映,都有各种问题可以研究,甚至会有各种故事可以研究,都是毛泽东著作版本研究的对象,都有版本研究的价值,也会有历史、社会的研究价值,包括少数民族文字本、外文本等毛泽东著作在内。
其次,在研究毛泽东著作的各种版本中需特别注意以下几个问题。
1.确定作者
确定文本的作者是不是毛泽东。文本的作者不是毛泽东,此文本自然就不能作为毛泽东的著作来进行版本研究。如竹内实主编(监修)的日文版《毛泽东集》10册(3)竹内实主编:《毛泽东集》,东京:北望社,1970-1972年;竹内实主编:《毛泽东集》,东京:苍苍社,1983年。(以下简称“日《集》”)、《毛泽东集补卷》10册(4)竹内实主编:《毛泽东集补卷》,东京:苍苍社,1983-1986年。(以下简称“日《补》”),收入1949年10月以前毛泽东文稿1 136篇(以目录为据统计,有的一个目录内有多篇文稿,有的文稿被重复收入),其中有的文稿并非毛泽东文稿。如日《集》第7卷收入了《国民党缺少什么》,日《集》第8卷收入了《精兵简政当前工作的中心环节》,日《集》第10卷收入了《蒋介石元旦演说与政治协商会议》,日《集》第10卷收入了《驳蒋介石》,日《补》第8卷收入的《无可奈何的供状——评美国关于中国问题的白皮书》等,是胡乔木的文稿,收于《胡乔木文集》第1卷,这些都不是毛泽东的文稿,不应该收入日《集》、日《补》。
没有署名“毛泽东”的文本,是不是毛泽东的论著务必从严从细查考。有的署名“毛泽东”的文本,也不一定就是毛泽东所写,这也务必注意查考。《解放》1938年第31期刊登《毛泽东的谈话》,编者按说,延安《新中华报》记者其光以近来报章上关于“一党专政”的一些说法,征询毛泽东的意见,毛泽东作了详细答复。此后很多报刊转载,有的题为《毛泽东先生与延安新中华报记者其光先生的谈话》(如1938年2月9日《新华日报》,《战地通信》1938年第17期等),有的题为《毛泽东先生与延安新中华报记者的谈话》(如《团结周报》1938年第14期等)。有的出版社出版了单行本《毛泽东同志与延安新中华报记者其光先生的谈话》(汉口统一出版社1938年版;辽东出版社1938年版等)。新华日报馆1939年版《毛泽东救国言论选集》、苏中出版社1945年7月版《毛泽东选集》等也都收入此篇谈话。以后日本《毛泽东集》第5卷(题为《与延安新中华报记者谈话(论一党专政)》)、《毛泽东全集》第11卷(润东出版社2013年版,题为《论一党专政》)等也都收入此篇谈话。中共中央文献研究室等编《建党以来重要文献选编(一九二一—一九四九)》第15册(中央文献出版社2011年6月版,题为《毛泽东同〈新中华报〉记者其光的谈话》),中央文献研究室等编《毛泽东新闻作品集》(新华出版社2014年10月版,题为《同〈新中华报〉记者其光的谈话》),也以毛泽东的著作收入此篇谈话。
实际上,毛泽东并没有与《新中华报》记者其光谈过话,这篇文章是王明在武汉以毛泽东名义写的,而且发表之前未征得毛泽东同意,毛泽东也未看过。1938年2月9日,王明等致电中央书记处解释:“关于一个党一个主义问题,已成街谈巷议之资料,对于这一切问题,我们已到不能不答复之机会。我们决定,对于党和主义问题,用泽东名义发表一篇2月2日与延安新中华报记者其光的谈话,此稿由绍禹起草……所以用毛泽东名义发表者,一方面使威信更大,另方面避免此地负责同志立即与国民党起正面冲突,不过因时间仓促及文长约万字,不及事先征求泽东及书记处审阅,请原谅。”(5)《王明的文章为何被编入〈毛选〉》,《江淮文史》1994年第1期。《江淮文史》此文转摘自《展望》1993年10月4日,没有署作者名。胡乔木早就指出,1952年再版《六大以来》时被毛泽东删除,“因为这不是毛主席本人写的,而是王明在武汉以毛主席名义写的”(6)胡乔木:《胡乔木回忆毛泽东》,第181页。《党的文献》编辑部等编:《党的文献是怎样编辑出版的》,北京:中央文献出版社,2006年,第511页。。此篇以毛泽东谈话为题的文章被毛泽东删除,即被毛泽东否定是自己文章,收入毛泽东的集子是不妥当的。
《基础战术》,据奚景鹏说,至少有三种版本,延安少年先锋社版、西安少年先锋社版、汉口自强出版社1938年3月版,其中前两个版本没有版权页,没有署明作者是谁,只有汉口自强出版社1938年3月版有版权页,版权页印有“讲述者毛泽东”。施拉姆曾问龚育之《基础战术》是不是毛泽东所写,龚育之说:“我们认为没有根据判定它是毛泽东写的或讲的,从内容和文字看,都不是毛泽东著作。”(7)龚育之:《关于〈毛泽东选集〉的版本等问题同施拉姆教授的谈话》,《马克思主义研究》1984年第3期。奚景鹏《〈基础战术〉不是毛泽东著作》进一步从多方面考证了《基础战术》不是毛泽东著作。(8)奚景鹏:《〈基础战术〉不是毛泽东著作》,《出版史料》2006年第4期。施金炎主编《毛泽东著作版本述录与考订》(海南国际新闻出版中心1995年版)等把《基础战术》作为毛泽东的著作,张迪杰主编《毛泽东全集》第11卷(润东出版社2013年版)收入《基础战术》,是不妥当的。
2.判定版本
研究毛泽东著作的版本,首先要确定书的出版单位、出版时间及版次等。关于书的出版单位、出版时间,有的书在封面、内封上标明,有的在版权页上标明,这样书的出版单位、出版时间就很明确,很容易确定。但有的书封面、内封、版权页上标明出版单位、出版时间不一致,怎么办?一般来说,应该以版权页为准。版权页文字是书的出版项(版本项)的正式、规范、具体的说明。例如,毛泽东著、何其昌编《抗战必胜论》,华光出版社出版,封面没有署时间,内封署“1938”,版权页署“民国二十六年十二月初版”,以版权页为准,出版时间为1937年12月。《论联合政府》,解放社出版,太岳新华书店印行,内封署“1949.1”,封底版权页署“一九四九年三月新版”,以版权页为准,出版时间为1949年3月。《论联合政府》,封面署“新华书店印行”,版权页“出版者”“发行者”都题“华北新华书店”。以版权页为准,出版者为华北新华书店。
版权页的记述也有不准确的。如人民出版社1953年出版的《毛泽东选集》第3卷的版权页标注的出版时间和版次,就出现了混淆现象。《毛泽东选集》第3卷由人民出版社1953年2月出版。第一批150万册,1953年4月10日起在大城市及交通便利的中、小城市的新华书店同时发行。第二批60万册,1953年下半年在边远地区及交通不便的城市发行。(9)详见《人民日报》1953年4月10日,第1版。在印第二批书时,进行了重排,这样有的书的版权页署:“1953年2月北京第1版1953年5月北京重排本 1965年6月北京第12次印刷”。因为重新排了版,署“第二版”也可以,所以北京新华印刷厂印的书有的署:“一九五三年二月北京第一版一九五三年五月北京第二版一九五八年八月北京第六次印刷”。这些版权页的标注是正确的。但一些会引起歧义的版权页标注也出现了。如中国人民解放军一二〇一工厂印的书署:“根据1953年5月北京第1版重排本1966年7月改横排本 1967年第1次印刷”。山西印的书,署:“根据1953年5月第1版重排本 1966年7月改横排本 1967年4月山西第2次印刷”(按:这里的“1953年5月第1版重排本”,漏“北京”二字,是疏忽)。这里的“1953年5月北京第1版重排本”,如理解为1953年5月根据北京第1版做的重排本,就不算错。但这样的署法容易产生歧义,即把“1953年5月北京第1版重排本”理解为1953年5月北京第1版的重排本,于是就导致有“1953年5月北京第1版”的误解。如有些《毛泽东选集》第3卷的版权页署:“根据1953年5月北京第1版重印 1966年10月郑州第2次印刷”;“根据1953年5月北京第1版重印 1966年10月长春第6次印刷”等。出现“根据1953年5月北京第1版重印”的署法,就是误解了“1953年5月北京第1版重排本”所致。1953年5月的版次是第2版或第1版重排版,不是第1版。《毛泽东选集》第3卷没有1953年5月北京第1版。至于施金炎《毛泽东著作版本述录与考订》说,《毛泽东选集》第3卷(第1版)是1953年12月出版(10)施金炎:《毛泽东著作版本述录与考订》,海口:海南国际新闻出版中心,1995年,第63页。,就更错得离谱了。
版权页残缺,封面不缺,如果不是孤本、少见本,比较容易找到相同版本的书,确定版本。版权页残缺,封面亦缺,可设法找版式相同、页面文字相同、页码相同的书,研究确定其版本。
3.鉴别版本的真伪
红色收藏热起来后,其中最热的是收藏毛泽东著作,毛泽东著作的价格不断高涨,于是有人造假牟利,于是伪造本出现了。孔夫子旧书网曾出现三套六卷本《毛泽东选集》,二种封面都署“晋察冀边区出版社 一九四七年十月出版”,三种的版权页都署“编者 中国共产党晋察冀中央局”,“印刷兼发行者 边区中央书局”。即三套书是同一出版社、同一时间出版。但三套书的封面不同,用了不同的毛泽东头像。这三套书,一看封面就可知道是伪造的书。一是同一时间、同一次出版的书怎么会做三个不同的封面?怎么似乎形成了三套书?二是这三套书封面的毛泽东头像,在1949年以前的出版物中从未出现过,前两种毛泽东版画头像,是在“文化大革命”时期常见的。后一种是人民出版社1951—1960年出版的《毛泽东选集》四卷的封面。显然是利用“文化大革命”时期的资料,利用人民出版社出的《毛泽东选集》的封面,造了封面。三是《延安时期中国共产党出版史研究(1937—1949)》(11)刘苏华:《延安时期中国共产党出版史研究(1937-1949)》,长沙:湖南师范大学出版社,2012年。,没有提到有“晋察冀边区出版社”,没有提到出过这三套书。《解放区根据地图书目录》(12)中国人民大学图书馆编:《解放区根据地图书目录》,北京:中国人民大学出版社,1989年。也没有著录这三套书。应该是伪造的。
孔夫子旧书网上还有提供虚假版本信息的情况。如某书商说《辩证法唯物论提纲》是1937年出版的,实际上《辩证法唯物论提纲》是1937年写作的,但孔夫子旧书网此本不可能是1937年出版的,因为书名中的几个字“证”“论”“纲”是简体字,不是繁体字,无疑应是19世纪60年代前后印刷的,说“1937年出版”,是造假。
4.研究毛泽东对文本的修改
研究毛泽东对文本的修改,是毛泽东著作版本研究一个极为重要的方面。1949年10月以前的毛泽东著作的各种版本之间的文字不同,大多由于编辑、排版、印刷等方面的问题,大多没有经毛泽东审定。1950年5月,《毛泽东选集》编辑委员会成立,毛泽东亲自参与了《毛泽东选集》编辑,亲自挑选、修改、审定每一篇论著。1951年至1960年人民出版社出版的第一版《毛泽东选集》1—4卷中的每一篇,毛泽东都有或多或少的修改,有的文章改动较大。这样,人民出版社出版的第一版《毛泽东选集》与此前的各种版本的毛泽东论著,不仅有不少文字的不同,内容方面也会有不同。对这些不同,不仅要研究文字、文句的不同,而且要研究思想内容方面的不同,并分析其不同即修改的原因、意义、合理与否,等等。下面举几例说明。
《中国社会各阶级的分析》,最早在1925年12月1日出版的《革命》半月刊第4期上发表,1926年2月1日《中国农民》第2期、1926年3月13日《中国青年》第116、117期合刊转载,后又有一些版本,1951年人民出版社出版的《毛泽东选集》第1卷收入。1951年《毛泽东选集》第1卷的《中国社会各阶级的分析》,对《革命》半月刊、《中国青年》的文本,有较大的修改。如:《革命》半月刊、《中国青年》本:
无论哪一个国内,都有大资产阶级,中产阶级,小资产阶级,半无产阶级,无产阶级五等人……五种人各有不同经济地位,各有不同的阶级性。因此对于现代的革命,乃发生反革命,半反革命,对革命守中立,参加革命和为革命主力军的种种不同的态度。
1951年《毛泽东选集》第1卷的《中国社会各阶级的分析》,删除了这一段,新写了:地主阶级和买办阶级“代表中国最落后的和最反动的生产关系,阻碍中国生产力的发展”,工业无产阶级“是中国新的生产力的代表者,是近代中国最进步的阶级,做了革命运动的领导力量”(13)《毛泽东选集》第1卷,北京:人民出版社,1951年,第3-8页。。这是经过长期的革命斗争,吸取了大量的经验教训后,对中国社会及各个阶级的新认识,强调了中国的无产阶级是新的生产力的代表者,是中国最进步的阶级,是革命的领导力量。
《战争和战略问题》是毛泽东1938年11月6日在中共六届六中全会上所作的结论之一。此文最早收入中共中央书记处1941年印的《六大以来选集》(下册),后有各种版本。1952年人民出版社出版的《毛泽东选集》第2卷收入。1952年《毛泽东选集》第2卷的《战争和战略问题》,对《六大以来选集》(下册)的文本,有不少的修改。如:《六大以来选集》(下册):“过去十年蒋介石是反革命的,但单拿他注重军事一点来说,他所创造的庞大的中央军,至今还是抗战的主力。”(14)中共中央书记处1941年印《六大以来选集》(下册)第473页。1952年《毛泽东选集》第2卷改为:“过去十年的蒋介石是反革命的。为了反革命,他创造了一个庞大的‘中央军’。”(15)《毛泽东选集》第2卷,北京:人民出版社,1952年,第510页。删除了民国民党军队“是抗战的主力”。强调蒋介石军队是“反革命”的。因为抗战胜利以后,国民党政府逆历史潮流而动,挑起了内战,要消灭中国共产党,转变成反革命政府。
《六大以来选集》(下册):“一九二七年的八七会议与一九三〇年的四中全会,反对了政治上的右的与左的机会主义,使党大大进步了。”(16)中共中央书记处1941年印《六大以来选集》(下册)第474页。对中共六届四中全会是肯定的。1952年《毛泽东选集》第2卷改为:“一九二七年八月七日党中央的紧急会议反对了政治上的右倾机会主义,使党大进了一步。一九三一年一月的六届四中全会,在名义上反对政治上的‘左’倾机会主义,在实际上重新犯了‘左’倾机会主义的错误。这两个会议的内容和历史作用是不一样的。” (17)《毛泽东选集》第2卷,第512页。否定了中共六届四中全会。1931年中共六届四中全会使王明取得了中共中央领导地位,是王明“左”倾路线上台的会议。1938年中共六届六中全会还未批判王明“左”倾路线,还没有否定中共六届四中全会,毛泽东在讲话中也没有否定中共六届四中全会。1942年整风运动以后,王明“左”倾路线是错误路线,给中国共产党造成了极大危害,在全党达成了共识。1945年4月20日中共六届七中全会通过的《关于若干历史问题的决议》,彻底否定、批判了王明“左”倾路线,否定、批判了中共六届四中全会。1952年《毛泽东选集》第2卷修改对中共六届四中全会的评价,否定中共六届四中全会,是自然的。
因为政治的原因,修改原有的文本,有的修改是正确的,有的修改把有价值的思想删除了。例如《论联合政府》的早期版本中有这样一段话:
为着发展工业,需要大批资本。从什么地方来呢?不外两方面:主要依靠中国人民自己积累资本,同时借助于外援。在服从中国法令,有益于中国经济的条件之下,外国投资是我们欢迎的。对于中国人民与外国人民都有利的事业,是中国在得到一个巩固的国内和平与国际和平,得到一个彻底的政治改革与土地改革之后,能够蓬蓬勃勃地发展大规模的轻重工业与近代化的农业。在这个基础上,外国投资的容纳量是非常广大的。
这种争取外援、吸收外资建设新中国的思想是有远见的,是正确的;但在人民出版社1953年出版的《毛泽东选集》第3卷中,这段话被删除了。之所以删除这段话,如胡乔木说的,与当时中国所处的国际环境有关,与毛泽东对这个问题的认识有关。(18)参见胡乔木:《胡乔木回忆毛泽东》,北京:人民出版社,1994年,第377页;《毛泽东50多年前就提出要利用外资》,《文汇报》1999年11月30日,第8版。1951—1960年人民出版社的第一版《毛泽东选集》出版后,也有过个别的修改。如“高饶事件”发生以后,《整顿党的作风》中删除了关于高岗的论述;“文化大革命”时期,《整顿党的作风》等文中引用刘少奇的话和提到刘少奇的地方被删除了。(19)参见张慎趋:《新中国成立后〈毛泽东选集〉出版概况》,《党史博览》2008年第11期;施金炎:《毛泽东著作版本述录与考订》,第26页。这类的修改是当时政治形势决定的。
二、推动毛泽东著作版本研究向数字化方向发展
21世纪以来,人文社会科学的资料数字化迅猛发展,检索、搜集资料的方便、快捷、全面、准确程度大幅度提高,给研究带来了极大方便,研究效率极大提高。推进毛泽东著作版本研究,有很多工作要做,而最重要的是向数字化方向发展,这是大数据时代的必然要求。
毛泽东著作的数字化也在历史资料的数字化大潮中有了一些发展,如人民出版社1951—1960年出版的《毛泽东选集》第一版,1991年出版的《毛泽东选集》第二版,已有电子版(镜像版)。1949年10月以前的毛泽东著作的电子版资料也已有一些。如超星数字图书馆、读秀学术搜索、中国国家图书馆民国图书数字化资源库、中美百万册书数字图书馆、翰文民国书库、爱如生数据库、国学数典、民国文献大全数据库、中共思想理论资源库等都有一些1949年10月以前的毛泽东著作的电子版(镜像版)资料。如1947年3月中共中央晋察冀中央局印的《毛泽东选集》、东北书店1948年5月出版的《毛泽东选集》,等等,在超星数字图书馆已可全文阅览并可下载。1949年10月以前,报刊上发表的毛泽东著作的电子版(镜像版)资料,有一部分已可在上海图书馆民国期刊全文数据库、大成老旧刊数据库、爱如生中国近代报刊库、瀚堂近代报刊数据库、翰文民国报刊库等一些数据库中查阅。人民日报图文数据库、申报数据库等,已是数字编码的全文文本智能版数据库,不仅可以看到图片资料,也可以看到文本化资料。
总体来看,1949年10月以前的毛泽东著作的电子版资料还不多,很多图书馆收藏了1949年10月以前的毛泽东著作,但还没有将馆藏的毛泽东著作数字化。有的图书馆已有馆藏图书数字化的计划,有的已开始实施。如韶山毛泽东图书馆,馆藏毛泽东著作数字化工程已完成。随着红色收藏的兴起,大量的1949年10月以前的毛泽东著作在各个收藏家手里,他们收藏的毛泽东著作的数字化还是个未知数。研究毛泽东,研究毛泽东著作,研究毛泽东思想,已有一些数字化的资料可以利用,但很有限,这些研究要完全实现数字化,还有很长的一段路要走。而毛泽东著作版本研究要完全实现数字化,就有更长的路要走。
版本研究的主要工作是:全面搜集版本;进行版本校勘——校异同,定是非;写校勘记。其中的关键环节是校勘。目前,具有校对功能的软件或数据库已有一些。如查重数据库,可以把被查文本与已有文本的相同之处找出来,有“校异同”的功能。但这样的校异同的基础是:一是被查文本与已有文本都是数字化的文本,被查文本必须是word文本,pdf文本、jpg(图片)文本无法检索。二是被查文本与已有文本都是横排本。三是被查文本与已有文本都是中文简体字。又如校对软件,如“黑马文字校对”“方正金山中文校对”“三欧”“文捷”“人工智能校对通”“啄木鸟”等系统,都可实现多种文本错误的自动校对。但以上系统基本上是基于“词组”校对的辅助校对系统,存在以下不足之处:表现出同样错误症状的一些字、词不能被发现;对涉及句法、语义的许多错误无法发现;误判率较高;纠错能力不强等。(20)常娥:《古籍自动校勘和编纂研究》,芜湖:安徽师范大学出版社,2012年,第41页。这些校对软件操作的基础也是校对与被校对的文本都必须是word文本,pdf文本、jpg(图片)文本无法检索,并且须是横排本。查重、校对等软件或数据库的算法设计,不是按文本校勘的要求设计的,还不能用于文本校勘。
毛泽东著作版本校勘的数字化怎么搞,中国古籍数字化校勘已带来了可资借鉴的经验。毛泽东著作,特别是1949年10月以前的版本,大量的是竖排本,全部是繁体字本。人民出版社1951—1960年出版的《毛泽东选集》第一版,也是竖排本、繁体字本(1991年出版的《毛泽东选集》第二版,是横排本、简体字本)。在这种情况下,毛泽东著作版本校勘的数字化,要做以下工作:
(1)建设数字影像(镜像)版本数据库。即把所有种类版本的毛泽东著作,每一种版本挑选出品相最好的本子,进行数字影像(镜像)化,比如进行数字化扫描,整理、加工成可检索、可使用的数字影像(镜像)版本数据库。这一步工作的难度在能不能搜集到毛泽东著作所有种类版本中品相最好的本子,而高清晰度、高速度的扫描,扫描后进行图像大小压缩的批处理,以便于查看传输,这方面的技术已很成熟。当然,扫描后文件的命名、编辑,还需要人工的支持。
(2)建设数字编码的全文文本智能版本数据库。即把所有扫描后的影像(镜像)文件文本化,比如转换成word文档。这一步工作,有的可以利用软件完成,有的则必须人工完成。目前,已有不少很优质的OCR文字识别软件,但一般只能对横排版的简体字、繁体字图像进行批处理文字识别(准确率一般在90%左右),对竖排版的简体字、繁体字图像进行批处理文字识别的软件目前还没有开发出来。所以竖排版的简体字、繁体字毛泽东著作转换成word文档,还须人工进行文字录入。当然,也希望对竖排版的简体字、繁体字图像能进行批处理文字识别的软件尽早开发出来。1949年10月以前,不少毛泽东著作的纸张质量差、印刷质量差,有的印刷本中有些文字,肉眼已看不清楚,扫描后的影像(镜像)本,其中有些文字就更模糊,再优质的文字识别软件也无法进行文字识别。还有一部分油印本,文字识别软件进行文字识别更难。这些毛泽东著作转换成word文档,也须人工进行文字录入。毛泽东著作还有很多手稿本,这些手稿本,不少都是草书,现在还没有什么文字识别软件可以对此进行文字识别。这些毛泽东著作转换成word文档,也须人工进行文字录入。
(3)建设版本校勘结构化的数据库。即运用校勘软件等进行已经文本化的不同版本的校勘。这个数据库含有校勘软件,还含有校勘辅助工具,如人名表、地名表、异体字表、繁简字对照表、清朝民国纪年表、阴历公(阳)历换算表、韵目代日表、中国共产党历次代表大会资料、中国共产党组织史资料、中国共产党武装部队史资料、中国共产党工人运动史资料、中国共产党青年运动史资料、中国共产党妇女运动史资料、毛泽东生平思想资料等辅助工具,这些辅助工具可以在校勘过程中列出异文的同时,提供一些相关的资料,帮助校勘者进行判断、定是非。
(4)不断完善版本校勘结构化的数据库。使这个数据库不断智能化,比如可以在校勘过程中列出异文的同时,自动生成简单的校勘记,然后由人工加工成完善的校勘记。
基金项目:国家社会科学基金重点项目(14AZD077)
(责任编辑 徐楷森 王浩斌)
页:
[1]