最近看到一些人又在传这张“全球平均智商分布图”。图中,东亚人(包括中国人、日本人和朝鲜人等)拥有超过105的世界最高平均智商。
这是真的吗?
一、此说之由来
这张图(包括相似者)在中文互联网已流传至少十年之久,见过的人应该很多。图中数据,出自英国阿尔斯特大学退休教授理查德·林恩(Richard Lynn)2006年的著作《种族智力的差异:一种进化分析》(Race Differences in Intelligence:An Evolutionary Analysis)。在这本书里,林恩“收集研究了130个国家的智商测试”,然后列出了一个“世界各大种族智商排行榜”。根据这个排行榜:
“东亚人(包括中国人、日本人、朝鲜人)拥有全世界最高的平均智商,平均值(其实应该叫中位值)为105。而之后排位是欧洲人(100),爱斯基摩人(91),东南亚人(87),美洲本土印第安人(87),太平洋诸岛土著居民(85),南亚及北非人(84),撒哈拉非洲人(67),澳大利亚原住民(62)。而人种智商最低地区是南非沙漠高原的丛林人和刚果雨林地区的俾格米人,平均智商为54。”①
这个排行榜,在中文媒体及互联网上,被冠以“英国研究者称中国人是智商最高人种”之类的标题广泛传播——虽然在林恩的排行榜里,新加坡、朝鲜人和韩国人的智商数据,其实是高于中国人的。
二、不诚实的研究者
虽然中国媒体一再热炒林恩的上述论断(谁不喜欢这种赞美呢?),但林恩的研究,在处理材料时,却并不诚实。早已有人指出:
“林恩号称在收集研究了130个国家的智商测试后加以统计而得出结论。但是他在收集别人的研究成果时,做了巧妙的取舍,只选用有利于自己的结论的数据,而舍去不利的数据。这在处理非洲黑人的数据时表现得最为明显。例如,有一篇研究报告报道了两项对非洲黑人的智力测试结果,一项低于白人,一项高于白人,林恩便只选取前一项。更有甚者,在6项有关非洲黑人的测试结果中,林恩只从中选符合自己的结论的1项。《科学美国人》在1995年2月发表的一篇书评曾尖锐地指出:‘林恩对数据的歪曲构成了真正恶毒的种族主义行为,以及对科学客观性的可耻蔑视。’”②
这种结论先行、只选取对证实结论有利的材料的治学作风,贯穿了林恩的整个“智力研究”生涯。2013年,林恩发布了一篇题为《中国三十一个地区的智力差异及其经济、人口关系》的论文,试图在“包括中国人在内的东亚人智商全球最高”的基础上,进一步证明“在中国境内汉族的智商最高”。为证成该结论,林恩引用了很多中国学术界80、90年代关于智力测验的学术成果。据笔者观察比对,其引用同样非常地不诚实。③
比如,林恩在论文中提到:“有三份研究报告认为,汉族儿童平均智商高于蒙古族儿童。”
根据林恩的注释,这三份中文“研究报告”分别是:娜岱、欧尔兰的《新疆巴音郭楞蒙古自治州5~14岁蒙古族集体儿童瑞文测验》(1994)、杨蕴萍、龚耀先的《5-6岁蒙古族和汉族儿童智力的比较研究》(1994)、玉山的《汉、蒙、达斡尔、鄂温克等四个民族12~16岁青少年智力发展问题比较研究》(2008)。
下面简略对照一下林恩论文的引用,和“研究报告”原始表述之间的区别。
对娜岱、欧尔兰的研究,林恩的总结是:“结果显示,汉族孩子的平均智力,比蒙古族孩子高出5.3个IQ点。”
娜岱、欧尔兰采用了非文字测验“CRT”来研究孩子的智力,这种测验被认为“可以较少受文化、经验的影响”。论文写道:
“5~14岁智商均值及标准差为96.32±11.08。与巴州同年调查的5~14岁3213例汉族儿童智商均值及标准差101.59±12.16比较,P﹤0.001,在统计学上有极显著差异,但两者均属中等智力水平,无实际意义。”④
林恩取用了论文所提供的两个“智商均值”并将它们相减,但砍掉了原论文的后续结论:“两者均属中等智力水平,无实际意义。”
对杨蕴萍、龚耀先的研究,林恩的总结是:“两组孩子一起住在内蒙古。汉族孩子测验所得平均智商值为99.1,蒙古儿童所得平均智商值为94.9,汉族儿童高出4.2个智商点。”
杨蕴萍、龚耀先论文的原始表述,远比林恩的总结复杂:
1、采用以汉文化为背景修订的“中国-韦氏幼儿智力量表(C-WYCSI)”进行测验时,汉族儿童具有优势:
“蒙族儿童平均总智商(FIQ)和言语智商(VIQ)低于汉族儿童分别达4.2和10.2个IQ值,差异极显著(P<0.01)。操作智商均值(PIQ)与汉族儿童无显著性差异。”“言语分测验中,蒙族儿童的知识、算术、图片概括、领悟四个分测验的成绩低于汉族儿童,差异有极显著性(P<0.01)。五项操作分测验中蒙族儿童成绩均略高于汉族儿童,但差异不够显著性水平。”
2、采用“非文字智力测验”时,两族儿童的智商均值没有了显著差异,且换成了蒙古族儿童略具优势(总平均成绩,蒙古族儿童101.3,汉族儿童98.7):
“(四个分测验中)图形补缺、图形排列和数字填充三个分测成绩蒙族儿童均高于汉族儿童,其中在图形补缺的差异显著(P<0.05),只有图形分类分测验的成绩低于汉族儿童,但差异不显著。”
3、论文的最终结论是:
“不能认为,在本研究中观察到的蒙汉儿童的智商差异,就是他们的智力差异。……C-WYCSI是以汉文化为背景来修订的,用于蒙古儿童时,虽然译成了蒙文,对其中一些明显不适合蒙族儿童的项目作了适当修改,就整体来说,它仍然有利于汉族儿童不利于蒙族儿童。众所周知,言语分测验受文化背景的影响胜于对操作测验的影响,在C-WYCSI言语量表中的知识、图词、图片概括和领悟等测验中的许多项目均反映一定的文化内容。在操作分量表中的一些分测验,则反映文化内容的项目少,主要是反映视知觉,定向能力和手眼配合能力,它们受文化的影响相对为少。在本研究中,正好是在那些受文化影响多的测验成绩是蒙族儿童低于汉族儿童,而受文化影响少的测验则二者无多差异。这里再次说明,测验工具的文化差异对结果产生了重要的作用。在我们采用以文化公平为宗旨的非文字智力测验时,两族儿童的成绩无明显差异,这也进一步说明,本研究出现的言语智商的民族差异是文化差异所致。”⑤
显而易见,林恩在这里做了两个手脚:
1、砍掉了原论文中的“非文字智力测验”部分的内容。保留该部分内容,将威胁到他对娜岱、欧尔兰论文数据的引用:二者同属“非文字智力测验”,但得出的结论却南辕北辙,互相冲突——娜岱、欧尔兰提供的数据显示汉族儿童的平均智力高出蒙古族儿童5.3个IQ点,杨蕴萍、龚耀先的研究得出的数据,却是蒙古族儿童的平均智力高出汉族儿童2.6个IQ点。
2、完全不提及“文字智力测验”中的汉文化背景对测验数据造成的影响——尽管杨、龚二人的论文对此有明确的分析。
略言之,回避材料间的冲突,隐瞒关键要素,林恩舍弃了所有不利于证成其结论的材料。其对玉山的论文的使用,也存在着类似的情况,限于篇幅从略。⑥
剩下的问题就简单了:一个不诚实的研究者,给出了一项不靠谱的荣誉——包括中国人在内的东亚人种,拥有全球最高的平均智商——中国人要不要接受?
三、“智商测试+优生学”的血腥历史
林恩抛出的这项不靠谱荣誉,是与他的带有种族歧视的优生学理念捆绑在一起的。人类百年智力测验史,与优生学捆绑在一起,留下了很多教训。
当代智力测验的诞生,至晚可以追溯到英国绅士弗朗西斯·高尔顿(Francis Galton,1822-1911)。高尔顿认为,既然身体特征可以代代相传,那么智力的高低也应该同样可以。故此,他坚信遗传能够决定人的社会地位,进而主张应该只允许那些继承了前人的高等智商和勤劳品质、且积累了相当数量财富的人生育后代。但高尔顿苦于没有合适的工具,来筛选究竟哪些人有资格生育后代。1905年,法国人埃尔弗雷德·宾尼特(Alfred Binet)与希奥多·西蒙(Theodore Simon)设计出了当代第一套智力测试题。这种智力测验,立刻与“优生学”结合在了一起,成为一场漫长的噩梦。
1912年,美国学者亨利·戈达德出版著作《卡里卡克家族:低能遗传之研究》,历数该家族的智力低下如何代代相传以至于祸害上千人。该书风行一时。如何阻断智力低下者生育,成了美国社会的热议话题。戈达德主张把智力低下者“从每个角落找出来,把他们看管起来,以确保他们不再繁衍后代,不再使问题更加严重。”受此影响,美国移民局开始推行所谓的“智力测验”,拒绝智力低下者入境;有至少超过6万美国人在经过所谓的“智力测试”后——比如被问“水管结冰后为什么会破?”——被强制施以“合法”的绝育手术(另有许多“非法手术”,很多被送入收容所做手术的姑娘,并不知道她们其实被绝育了)。
1930年代,纳粹掌握德国政权,智力测验与强制绝育的结合达到巅峰。“从1934年到1936年间,提交到(德国遗传病)法庭的个案有84%~92%被判定为执行强制绝育,导致强制绝育判决总数令人震惊地达到了38.8万件。……法庭判决之快,令医生们费尽九牛二虎之力也跟不上趟。……多数走上法庭的被告和三分之二被判强制绝育的人,被诊断为智力缺失。”诊断的办法正是智力测验——诸如“谁发现了美洲”这类问题,测的其实只是一个人的知识水平,答错者却会被定性为智力低下者。到二战结束时,约有40万德国人被强制绝育,大约100个生育人口(15~50岁)里,就有一个被强制绝育。
四、百年智商测验,仍测不出智力
尴尬的是,各式智力测验将“智力低下者”不断送往手术台乃至炼尸炉的同时,心理学家们百年来,对何谓“智力”仍在众说纷纭,对自己的智力测验究竟能测出什么也难有定论。
比如,“韦氏智力测验”的创制者大卫-韦克斯勒(David Wechsler)曾经说过:“测出的肯定不是某种单一因素能够表示清楚的东西,无论如何也不能用人们常说的词汇进行定义,例如智能、演绎能力、智慧因素等等,更不用说常规智力指数了。智力可能是这个东西,也可能是其他东西。”
再比如,试题长期不变的“瑞文测评”,作为一种非文字测验,避开了足够多的后天习得的文化因素,被认为可以有效地测试先天智力水准,但詹姆斯·弗林(James Flynn)等人的研究却证明:发达国家的瑞文测评分值一直在涨。1952年,荷兰军队的入伍新兵,只有31%的人能在测试中及格,1962年提升至46%,1972年是63%,1982年达到了82%。如果“瑞文测评”测出来的真是所谓的先天智力水准,这种提升比例,恐怕只能用荷兰人的遗传基因发生了突变来解释。⑦
迄今为止,尚没有任何智力测验,可以测出人的先天智力。智力测验更多的是在测人对知识的掌握(如韦氏测验里的“谁发现了美洲”这类问题),以及解决问题的能力(如瑞文测评里的填补图片),这只是人的“智力”的一小部分,且多属于后天习得。林恩搜集的那些中国80、90年代的测验数据,很多都提到了后天环境对测验结果有着重要影响。只是林恩习惯性地没有将这些结论和相关数据纳入他的“研究”。
比如娜岱、欧尔兰的统计显示:在对1481例5~14岁蒙古族儿童的智商测验中,“将其填写家长职业、文化程度等清楚的1135份资料进行统计分析,其智商均值:科技家庭101.05±2.84、干部家庭97.11±2.91、工人家庭93.73±2.80、牧民家庭88.35±3.21。”⑧显然,文化、物质条件更优越的家庭出生的孩子,在智商测验中拿到的分数更高。
1989年唐彩虹等人利用韦氏测验法调查上海郊县儿童时,也发现“(郊县)各组小儿的量表分和智商均低于上海市区样组”。具体可参见下表⑨:
这方面最著名的实验,是1970年代由桑德拉·斯卡尔(Sandra Scarr)和理查德·温伯格(Richard Weinberg)进行的一场跨种族收养研究。他们的研究对象是115名白人孩子与176名非裔孩子。实验结果发现:由白人家庭抚养的非裔孩子所获得的智商测验分数(约110),高出了白人的平均智商(106)。斯卡尔和温伯格据此作出解释:智商测验无法测出人的先天智力,智商分数的高低不等于智力高低。非裔儿童智商测验分数提高,并不是白人或中产阶级的环境让非裔儿童变得更聪明,而是智商测验本身偏向白人文化背景,被白人抚养的非裔儿童,获得了回应智商测验的更好的外部环境。⑩
所以,“中国人的智商是不是全球最高?”,其实是一个不会有答案的伪问题。敢于给出答案者,只能是林恩这类不诚实的“学者”。
注释
①《专访英国学者:中国人的智商全世界最高》,北京科技报,2006年4月6日。②方舟子,《中国人是智商最高的人种?》,中国青年报,2006年4月14日。另可参见阿姆斯特丹大学的Jelte Wicherts、Conor Dolan以及加利福尼亚大学的Jerry Carlson等学者对林恩大规模“选择性使用数据”的批评:https://www.sciencedaily.com/releases/2010/01/100121155220.htm ③Richard Lynn,Helen Cheng,《Differences in intelligence across thirty-one regions of China and their economic and demographic correlates》,Intelligence 41 (2013) 553–559.下载地址:http://emilkirkegaard.dk/en/wp-content/uploads/Differences-in-intelligence-across-thirty-one-regions-of-China-and-their-economic-and-demographic-correlates.pdf。下文引自该论文者,不再赘注。④娜岱、欧尔兰,《新疆巴音郭楞蒙古自治州5~14岁蒙古族集体儿童瑞文测验》,《内蒙古医学杂志》1994年第1期。⑤杨蕴萍、龚耀先,《5-6岁蒙古族和汉族儿童智力的比较研究》,《中国临床心理学杂志》1994年第2卷第2期。⑥玉山,《汉、蒙、达斡尔、鄂温克等四个民族12~16岁青少年智力发展问题比较研究》,《内蒙古社会科学》2008年第29卷第6期。⑦以上关于智力测验史的表述,引自:(美)斯蒂芬·默多克/著、卢欣渝/译,《智商测试:一段闪光的历史,一个失色的点子》,生活·读书·新知三联书店,2016。⑧娜岱、欧尔兰,《新疆巴音郭楞蒙古自治州5~14岁蒙古族集体儿童瑞文测验》,《内蒙古医学杂志》1994年第1期。⑨唐彩虹、钱冬梅、卢世英、朱月妹,《韦克斯勒学前儿童智力量表在上海郊县的应用》,《心理科学通讯》1989年第12卷第1期。⑩(美)威廉·赖特(William Wrights)/著、郭本禹等/译,《基因的力量:人是天生的还是造就的》,江苏人民出版社,2001,P112。