您的位置:402cc永利手机版 > 互联网动态 > 科学家写论文,快乐就写在我们的语言里

科学家写论文,快乐就写在我们的语言里

2019-11-10 04:44

一项对10种不同人类语言的大数据分析表明,这些语言的常用词汇中,都是正面词汇更多,并且这种现象不受词汇使用频率的影响。[1]研究论文于2月10日发表在《美国科学院院刊》(PNAS)上。果壳网科学人对论文第一作者,美国佛蒙特大学的彼得·谢里丹·多兹(Peter Sheridan Dodds)进行了采访。

(Stella.S/译)一项对PubMed数据库中的论文的分析显示,科学家在描述自己的研究时,语气越来越乐观了。

早在1969年,就有心里语言学家提出了波丽安娜假说(Pollyanna Hypothesis),该假说认为人类在交际过程中,普遍更喜欢使用带有正面色彩的词汇。然而,以往的研究都没能对此进行有力证明。这一次,研究者们利用大数据分析,对这一假说进行了更深层次的探究。

据荷兰乌得勒支大学医学中心的研究者说,从1974年到2014年,积极正面的词汇——比如“新颖”(novel)、“鹅妹子嘤”(amazing,令人吃惊的)、“富有创新”(innovative)和“前所未有”(unprecedented)——在论文标题和摘要中的出现频率上升了将近九倍。诸如“令人失望”(disappointing)和“悲观”(pessimistic)这样的负面词汇的出现频率也增加了——虽然程度没有正面词汇那么大,但仍然是在统计上显著的。

研究者首先选取了10种来源和文化背景不同的语言,包括:英语、西班牙语(墨西哥)、法语、德语、葡萄牙语(巴西)、韩语、中文(简体)、俄语、印尼语和阿拉伯语。在这些语言中,研究者重点关注了那些使用频率最高的词汇,“但由于不可能将一种语言中的所有词汇都按使用频率排序,因此我们分语料库(corpus,在语言学上意指大量的文本,通常经过整理,具有既定格式与标记)进行研究。”多兹向科学人解释说。研究共使用了24个语料库,来源包括书籍、新闻报道、社交媒体、网络、电视剧和电影字幕以及歌词。

精神病学家克里斯蒂安•温克尔斯(Christiaan Vinkers)和他的同事们搜索了PubMed数据库中含有25个“积极”词汇和25个“消极”词汇的论文(这些词汇是作者们通过人工分析论文,以及查询thesaurus网站上的近义词列表挑选出来的)。他们发表在《英国医学杂志》(British Medical Journal )上的研究显示,在标题或摘要中包含其中任意一个积极词汇的论文比例,从1974年到1980年的平均2%,上升到了2014年的17.5%。在同一时期,有用到那25个消极词汇的论文比例,则从1.3%上升到了2.4%。

多兹表示:“我们以往对英语常用词汇的研究发现,带有正面色彩的词汇更多,在此基础之上,我们想要了解这一现象是否也存在于其它语言当中。”从各个语料库中,研究者们最终选取了每种语言最常用的约1万个词汇,并让以各语言为母语的人给每个词汇的正面程度打分。最终,每个词汇获得了50次评分,总评分次数为500万次。

www.402.com 1PubMed中1974-2014年发表的论文内,积极词汇(青色曲线,具体词汇见*所示)、消极词汇(红色曲线,具体词汇见**所示)以及“新颖”(novel)一词的出现频率变化。图片来源:Nature News

www.402.com 2评分示例。受调查者需要对每个词语的正面程度打分(1为最负面,9为最正面,5为中性)。图片来源:研究论文

作者表示,这一变化似乎是学术论文独有的趋势。他们分析了这些词汇在出版书籍中的出现频率(使用的是Google BooksNgram viewer),发现在上述时期并没有多大改变。研究者们还发现,一系列“中性”词汇,以及100个随机选取的常用名词和形容词,在论文中的使用频率也没有发生显著变化。

分析结果显示,所有语料库中都是正面色彩的词汇较多。不过,不同语言中词汇的正面程度分布之间还是存在一些微小差异。多兹指出:“拉丁美洲的语料库中(西班牙语、葡萄牙语),快乐程度的中值和其变化幅度(方差)都较大。而在快乐程度的方差上(下图右侧),4个英语语料库的都排得很靠前,而中文和俄文词语的方差则较小。”

www.402.com ,温克尔斯说,对这一研究结果最直白的解读是:这些词汇使用频率的上升反映了夸大其词日益盛行,而并非科学发现的数量和质量真的有所提高。他表示,研究结果“证实了我们的观察:要想发表论文,你就必须着重强调自己的研究中独一无二的地方”。研究者们可能会受到诱惑,想让自己的研究从上千篇论文中脱颖而出——这也能够解释消极词汇使用频率的少量上升。

www.402.com 310种语言,共24个语料库的词汇正面程度分布。从每个语料库选取了最常用的5000个词汇,黄色部分为得分>5的区域而蓝色部分为得分<5的区域,灰色线连接各分布之间的十分位点。左图为按评分中值大小(红色竖线)排列,而右图为按方差大小(分散程度)排列。图片来源:研究论文

现在,PubMed数据库中,超过7%的论文都会在标题或摘要中用到“新颖”(novel)这个词。研究者们开玩笑地推论,按这个趋势增长下去,到了2123年,每篇论文里都会有个“新颖”。

对各个语料库的进一步分析发现,每个词汇的正面程度得分与该词汇的使用频率基本没有联系。研究者们以语料库中使用频率排名连续的500个词汇为区间,发现各个区间内得分的十分位点基本一致,并未受到使用频率的影响。

温克尔斯的团队还分析了不同期刊影响因子和作者国籍的数据。他们发现,相较于近年来所有期刊的平均水平,在20份高影响力期刊中,积极词汇的使用频率上升得更少。与其他国家的作者相比,英语国家的作者在最近十年来使用积极词汇的增量也较少一些。

本文由402cc永利手机版发布于互联网动态,转载请注明出处:科学家写论文,快乐就写在我们的语言里

关键词: www.402.com 402cc永利手机版