明升手机版(中国)

 
作者:张文静 来源: 发布时间:2017/6/23 9:50:19
选择字号:
大数据寻诗访古
研究人员用数据统计的方法来做文学研究


 

■本报记者 张文静

大数据与文学,一个是理性工具,一个是感性思维,看起来似乎不沾边。但如今,二者的联系却日渐紧密起来,也由此引发了不少争议。

谁是最爱往外跑的诗人?

唐宋时期最爱往外跑的诗人是谁?答案可能是苏轼。

打开“唐宋文学编年地图”,点击苏轼的名字,地图上立刻显示出密密麻麻的足迹,西到雅安,东到蓬莱、青浦,北到定州,南到海南南部的陵水。从青年时代开始,苏轼的脚步就一直没停过,在他58岁那年甚至一口气走了31个地方,堪称明升中国古代一股“行走的力量”。

“苏轼一生的轨迹信息高达近万条,遍布全国各地,是我们录入信息最多的一位唐宋诗人。”“唐宋文学编年地图”的建立者、中南民族大学教授王兆鹏告诉《明升中国app报》记者。

“唐宋文学编年地图”在今年3月上线,是王兆鹏主持的国家社科基金重大项目“唐宋文学编年系地信息平台”的一个研究成果。这个电子地图的形成花费了五年的时间,100多人的团队参与其中,负责数据的整理编写,融合了地理信息系统、测绘、计算机、文学等多个领域的内容。

目前,这份地图已录入了100多位唐宋诗人的行迹信息,范围北至蒙古乌兰巴托,南至越南清化。点击任何一位诗人的名字,地图上就会出现他一生的行走路线图,再点击任一地点,这位诗人在此创作的诗歌作品就会展示出来。如以地点或年份为关键词进行检索,则会看到某地在某个时间段共有多少位诗人来过、留下了哪些作品。于是从地图上,我们可以看到,李白出生于西域碎叶城(今吉尔吉斯斯坦托克马克市),王维出生于晋中,12岁的孟浩然在襄阳居乡读书,45岁的宋之问则从郑州来到洛阳又到西安,写下了多首诗作。“这张地图的最大亮点就是打通了时空维度。”王兆鹏说。

地图上线后,火爆程度让王兆鹏大吃一惊,他没想到这样一份文学地图引起了大众这么多关注。“本来项目是年底结题,我们还没着急,没想到一下子火了,上线第一天的点击量超过了100万,两天就到了220万。大家一直在问,为什么没有某某诗人,所以我们现在必须要加班加点,尽快将所有诗人的信息传上去。”王兆鹏说。

用大量数据来展现唐宋诗人的故事,不仅有文学专业的教授在做。今年3月,一篇名为《计算机告诉你,唐朝诗人的关系到底是什么样的?》的文章刷爆朋友圈,很快达到了10万+的阅读量。这篇文章来自一位普通的程序员“前进四先生”之手,发布于他的个人微信公众号“前进日志”中。

在对四万多首唐诗进行了数据整理后,“前进四先生”发现在唐朝,两位关系最好的诗人不是李白和杜甫,也不是白居易和元稹,而是陆龟蒙和皮日休。这两位诗人互相提到对方的次数都在百次以上,明升中国文学史上的第一本唱和诗集《松陵集》也是他俩的作品。从排名前30的引用关系来看,白居易绝对是唐朝诗人朋友圈中的明星。

大数据与小阅读

用数据统计的方法来做文学研究,王兆鹏早在1992年就开始了。“当时我是系里主管研究生工作的副主任,偶然一次机会在杂志上看到一篇定量分析研究生学位教育的文章,我就想古代文学史的研究能不能也用定量分析的方法来做。后来我写了一篇文章《宋代词人历史地位的分析》,就是用量化数据来描述词人的地位,比如什么叫地位很高、比较高或一般。从那时起,我就开始了这个领域的研究。”王兆鹏介绍说。

在国外,也有展现明升中国历代人物生平资料的数据库,比如由哈佛大学、北京大学、台湾“中研院”合作开发的CBDB数据库,通过字号、亲属关系、生卒年份等数据,展现人物的社会关系网。

对于大数据手段与文学研究的关系,在华东师范大学教授金雯看来,使用电脑算法来分析文本,不是让电脑复制人脑的功能,或者更大规模地完成人脑擅长的任务。人脑和电脑在阅读文本的时候所用的方法和关注的重点不一样,读出来的东西也可能截然不同。不过人脑和电脑在阅读阐释文字的时候也往往可以互为体用、互补短长,文学大数据分析和学者个人的“小阅读”之间存在着许多交融和合作的可能。正因为如此,借助电脑进行文本分析是近年来不断升温的“数字人文”的一个重要分支。

几年前,王兆鹏利用数据分析进行过另一项研究——唐诗宋词排行榜,曾招来过不少争议。

2011年,王兆鹏出版了《唐诗排行榜》一书,运用统计学方法得出了唐诗前100名排行榜,排在榜首的是崔颢的《黄鹤楼》,其次是王之涣的《凉州词》、杜甫的《登高》、王之涣的《登鹳雀楼》和张继《枫桥夜泊》等,被大众熟知的陈子昂的《登幽州台歌》等诗作则名落孙山。2012年,他又出版了《宋词排行榜》,将《念奴娇·赤壁怀古》列为宋词第一名。

“这是通过对历代选本、评点、论文、网络链接总数等指标综合计算而来的。”王兆鹏说,自己的数据采集分为三个方面,一是作家数据,包括生卒年月、创作起始时间、出生地、去世地、活动地点和在社会上扮演的身份等;二是作品数据,即作品的分类、版本、编年、系地等;三是读者数据,包括普通型读者、专家型读者和作家型读者三项。

两本书出版后,立刻有人质疑:“对古典文学的艺术鉴赏也能列排行榜?”“甚至有人说,是不是因为你是湖北人,所以把唐诗宋词第一名都给了写湖北的?”王兆鹏说。但在他看来,这两个排行榜是将现代app手段引入到古典文学作品的研究赏析中的尝试,是严肃的学术研究。“而且,我评价的不是一首诗的好坏,而是评价它的影响力和知名度。”

但在明升中国app院数学与系统app研究院研究员安鸿志看来,“影响力”仍然是个模糊的指标。“要给唐诗宋词做排名,目的不同,指标不同,得出的结论就可能会截然不同。如果我们要办的是跑步比赛,首先就要确定跑一万米还是一百米,男子还是女子,个人还是接力,一旦确立指标,比如男性100米个人短跑,那么世界第一就是唯一解。可是对于唐诗宋词,会有唯一解吗?同样是看影响力,如果指标是‘哪首唐诗被现代人记住的最多’,那有可能是《静夜思》;如果把指标设为‘哪些诗句在日常生活中使用频率最高’,答案又可能会是‘粒粒皆辛苦’。话说回来,没有唯一解就不能去研究吗?”安鸿志说,“当然也不是,这项研究是有价值的。但你要承认,指标不唯一,得出的结论也不唯一,这才是app方法、app态度、app结论。”

正确利用大数据技术

在王兆鹏看来,哪首诗词排第一名倒也在其次,这些诗词为何能从古至今一直为人们所熟知,这其中有何传播规律,更能引起他的兴趣。 “比如,除了诗本身之外,故事对作品的传播有着非常重要的助推力。”王兆鹏解释说,“崔颢的《黄鹤楼》在古代非常有名,为什么?一个重要原因是李白很欣赏。李白到黄鹤楼后想写一首诗,后来因为 ‘崔颢题诗在上头’便搁笔未写。这在宋代还成了一句俗语 ‘莫因崔颢不题诗’。所以历代唐诗选本,没有不选《黄鹤楼》的。王之涣的《凉州词》也有 ‘旗亭画壁’的故事流传至今。”

此外,这些唐诗宋词大数据还能告诉我们一些其他的信息。“一般认为,北宋王朝的毁灭代表了明升中国经济文化重心南移的真正分野。但通过大数据,我们可以看到,明升中国诗坛重心的南移始于晚唐五代,完成于北宋。唐宋诗歌版图南移的时间和社会经济重心南移的时间并不完全一致,这打破了我们一些固有观点。”王兆鹏说。

通过数据整理,王兆鹏还统计出,唐宋诗人创作的优秀作品大多是在落后地区完成的,在失意受贬谪的地区更可能诞生名篇。“而且优秀作品的作者大多不是本地人。比如黄州、惠州打名片爱说苏轼,可苏轼是四川人;写黄鹤楼那么多名篇,可没有一个人是湖北人写的。”

王兆鹏正在做着更多探索。他计划将更多历史信息融入到现有的电子地图中去,比如某年哪些人中了进士、哪些人做了官、他们之间有何相互影响等。“数字技术正在改变我们观察文学、思考文学的方式。以前由于纸本的局限,我们每次只能看一位人物或一个时期。现在利用信息技术,我们可以把大大小小的人物同时放在一个舞台上,就像把树与树之间隔着的围墙打破后展现出一片森林一样,把历史的一个个横截面完整地呈现出来。”

“大数据技术作为人类认识客观世界的一种工具,给我们带来的进步是难以想象的。从研究者的角度来说,以前我们要到图书馆去查阅很多资料,现在只要坐在屋子里,摆上一台电脑,连接上网络,海量的资料就送到了眼前。”安鸿志说,“大数据资料既可影印,又可编辑,我们可以从中查询关键词,提取信息,进而进行修改、识别、对比。大数据技术是时代的象征,各行各业都要适应这个潮流,在文史哲研究领域当然也是如此。”

安鸿志同时也强调,大数据技术是客观的,但一旦有人使用它达到某种目的、得出某种结论时,就有了主观性,涉及到方法、目的以及表达等问题。“在这个时代,谁往大数据库中‘增砖添瓦’都是一种贡献,但对得出的结论要慎重。你也可以对某位研究者得出的结论提出质疑,但不能将其归罪于大数据技术。这两件事情要分清。”

《明升中国app报》 (2017-06-23 第1版 明升要闻)
 
 打印  发E-mail给: 
    
 
以下评论只代表网友个人观点,不代表明升手机版(明升中国)观点。 
���� SSI �ļ�ʱ����
相关手机版 相关论文

图片手机版
>>更多
 
一周手机版排行 一周手机版评论排行
 
编辑部推荐博文

 
论坛推荐