千呼万唤之下,原定4月上旬公布的第七次人口普查结果,终于在5月11日公布了。
由于推迟了一个月,引来不少坊间猜测:“是不是数据太难看,临时决定修饰一下?”
公报发布后,有人把数字来回算了算,发现“重大漏洞”,于是更加坚信“修饰数据”一说。
等等,不要乱算。
常见错误
▶▷ 错误算法一:
已知A:2019年统计公报显示,中国内地总人口140005万。
已知B:第七次人口普查公报显示,中国内地总人口141178万。
计算:141178 - 140005 = 1173,说明2020年中国内地净增人口1173万。
已知C:历年统计公报显示,2015年至2019年,中国内地人口逐年净增680万、809万、737万、530万、467万。
结论:2020年居然净增1173万?太反常了,肯定有假。
错。
▶▷ 错误算法二:
已知A:第七次人口普查公报显示,中国内地0—14岁人口25338万(“七普”以2020年11月1日为标准时间,所以0—14岁人口对应2005年11月1日至2020年10月30日出生人口,近似等于2006年至2020年出生人口)。
已知B:历年统计公报显示,2006年至2019年出生人口共计22688万(2009年数据有过修订),年均出生1621万人。
计算:25338-22688=2650,说明2020年中国内地出生人口2650万。
已知C:国家统计局局长宁吉喆在“七普”新闻发布会上表示:2020年我国出生人口为1200万。
结论:自相矛盾了,肯定有假。
错。
错在哪里
我国的人口调查分为三种:每年都会进行1‰(约数,实际不到)人口抽样调查,呈现在统计公报上。
每五年会进行一次1%人口抽样调查,有专门的数据公报。
这两种抽样调查,质量一言难尽……因此我们才要每十年进行一次人口普查。所谓普查,就是不再通过抽样估算整体了,每一个人都要尽可能统计上。
“七普”告诉我们,中国内地共有1411778724人,有零有整。不仅如此,这里每一个人的性别、年龄、民族、学历、身处几口之家、人在哪里、户口在哪里,都有统计。其余就业、婚姻、生育等数据不是普查,但也抽查了超过一亿人。
所以,普查数据是用来修订公报数据的,公报数据是不能用来证伪普查数据的。
我们来看一个过往案例:1999年统计公报显示,当年出生人口1909万。然而2000年第五次人口普查数据显示,1岁人口1150万(“五普”以2000年11月1日为标准时间,所以1岁人口对应的是1998年11月1日至1999年10月30日出生的人口,姑且以此对比公报数据)。
两相比较,相差超过60%。
不仅是1999年,整个1990年代,一共差出4000万出生人口。
人口普查漏掉了这么多人?还是瞒报了这么多人?
不,是此前的统计公报高估了。不难看出,越是靠近1990年(第四次人口普查),两组数据越是接近。
因为在1986年—1990年,中国出现了一波婴儿潮,年均出生人口高达2500万。1990年“四普”发现,1989下半年至1990上半年,新生儿2354万(真实数字更高)。
以此作为参考值,加上1‰的抽查,就估算出了1991年的人口数据;以1991年作为参考值,加上1‰的抽查,就估算出了1992年的人口数据;依此类推。
直到2000年“五普”才发现,错大发了。
抽样调查预见到了出生人口下滑,但没想到滑这么快。
变化越剧烈,抽样越容易失真。累积十年,就会有巨大的偏差。这时候把公报数据和普查数据直接相加减,容易得出很荒谬的结论。
只有《中国2020年人口普查资料》(完整数据,不是刚发布的公报)能告诉我们,过往十年的出生人口究竟如何。在它出版之前,对于刚过去的十年,我们其实并没有可靠的人口资料。
如果你看到一篇文章,质疑“七普”数据,而质疑的算法是掏出近十年的人口数据(无论来自统计局还是公安部)加来减去,不用怀疑,他这是以“邪”压正(昨晚,国家统计局官网也特意回应了两种错误算法【点此阅读】)。
统计之难
等到有了“七普”完整数据,是不是就能大展身手了?
抱歉,可能还是不行。因为普查数据仍不完美,仍有漏登。最典型的情况就是新生儿瞒报。
我们就看上文那个案例:
2000年第五次人口普查数据显示,1岁人口1150万。
这个数据可信吗?
2010年第六次人口普查数据显示,11岁人口1394万。
当年出生的孩子,过了十年,不仅无人夭折,还多出了244万。
道理很简单,“五普”时,这些人口都藏起来了。后来随着步入学龄,当初那些没上户口的婴儿陆陆续续有了身份,面对新一轮人口普查,也不必再躲。
如果把“五普”和“六普”的人口数据错开十岁进行对照,你会发现:2000年“五普”,对十年内的出生人口统计,是有明显误差的,更远的年份才可靠。
另一个可能原因是,上世纪80年代末到90年代初,各省陆续颁布了计划生育条例,政策日趋严格,瞒报之风由此盛行。
所以1991年的新生儿数据,当年统计公报高估了,2000年普查漏登了,直到2010年普查才得到一个相对准确的数字,介于前两者之间。
20年后啊……统计之难,由此可见。
同理,2010年“六普”,也不太适合我们观察00后(2000年—2009年生),而更适合观察90后的准确情况。例如此前发布的《一个比老龄化更紧迫的人口问题》,就是以“六普”数据分析90后性别比,而对00后数据比较谨慎。
2020年“七普”,其实是终于给了00后们一个“准数”。
不过,得益于大数据等新统计手段,“七普”成为了漏登率最低的一次人口普查。“五普”的漏登率高达1.81%,“六普”的漏登率为0.12%,而“七普”的漏登率只有0.05%。也许通过“七普”看10后,并不会像过去那样,有太多失真。
但如果有人以大数据和人口信息系统为理由,说那些隐瞒人口不存在了,说年度常规统计的可信度都很高,可以和普查数据互相加减……
我们只提一点:今年年初,公安部户政管理研究中心数据显示,2020年出生并已户籍登记的新生儿共1003.5万;而“七普”显示,2020年我国出生人口为1200万。
大数据还是漏掉了近200万,挨家挨户去查,才查出来。
人口普查,无可替代。
正确打开
说清楚了常见错误,我们再来看看,打开人口普查公报的正确方式。
由于还没有完整的逐年数据,所以我们目前只能对比“七普”与“六普”,得出跨十年的变化。
人口增减
十年间,全国净增7205万人,从13亿人口迈入了14亿人口。
其中,广东净增2169万人,占全国净增人口的30%,已然是一个1.26亿人口的大省,放眼全球,这个数字仅低于九个国家,高于墨西哥、日本。
浙江净增1014万人,江苏净增609万人,山东净增573万人,河南净增533万人,以上恰好是全国经济前五大省。
东北三省则是失落之地,黑龙江减少646万人(如果只看统计公报,每年变化不过几万、十几万),吉林减少338万人,辽宁减少115万人。
看地图,分南北。
记得我们在《探寻中国经济的“菱形结构”》中说的吗?人口优先向菱形的四个顶点集中——“七普”再次印证了这一点。
新疆是一个例外,在菱形结构之外,在胡焕庸线西北一侧,人口却有明显的增长。
这涉及另外一组数据:十年来,全国汉族人口增长了4.93%,而各少数民族人口增长了10.26%,其中当然包括了五大少数民族之一的维吾尔族(新疆还有哈萨克族、回族等,早在“六普”时少数民族人口占比就已接近60%)。
今年3月,美国国务卿布林肯竟然说新疆存在“种族灭绝”,简直信口开河。
年龄构成
全国流动人口3.76亿人,10年间增长了近70%。其中2/3是省内流动,1/3是跨省流动。
跨省流动的主要是年轻人,因此失落之地东北三省,也成了人口老龄化程度最高的几个省份。
由此看出,养老金中央调剂制度是很有必要的,广东——劳动年龄人口占比最高的省份、养老保险基金净贡献(上缴额减去下拨额)最多的省份——吸纳了东北的年轻人,自然要部分担负起东北老人的养老。
比较苦的是上海(的年轻人),一方面本市老龄化程度全国第二,人口抚养比已经很高了,另一方面仍然是七个养老保险基金净贡献省市之一。
还是孩子,都不容易。
性别比例
人口老龄化率,进而影响了人口性别比。“七普”数据显示,我国男性比女性多3490万,总人口性别比105.07(女性=100,数字越高则男性相对于女性越多)。
分省份来看,人口性别比最高的省份是广东,最低的则是吉林、辽宁和黑龙江。
原因之一是,老龄人口中女性较多,而年轻人口中男性较多。所以上面的老龄化率地图和下面的性别比地图,染色非常接近。
一个例外是河南,老龄化率并不高,按说应该男多女少,而实际上却是男女比例几乎相等。
因为影响性别比的,还有人口流动因素。
河南是全国劳动年龄人口(15—59岁)占比最低的省份。劳动力大量流出,而且以男性居多,于是拉低了性别比。
抢人vs育人
对比河南与上海的人口结构,恰好可以看到两个极端。
河南是人口生育大省,虽然劳动年龄人口流出严重,老龄化程度却不高。需要解决的问题是,如何升级本地产业,把人留下。
上海的老龄化程度很高,但同时有大量劳动年龄人口流入,只是,年轻人来到这里就“不愿”生孩子了,因此生育率屡创新低,0—14岁人口占比全国最低。需要解决的问题是,如何鼓励大家生育。
后一个问题更为关键,显然,这不止是上海一座城市的问题。
人口增长、人口流动、老龄化、性别比、生育率,这些都与中国的未来发展休戚相关。
人口普查耗费巨大的人力物力,就是希望获知真实情况,为官方提供调整政策的参考,为民间提供理解政策的基础。