理性探讨 MBTI 的参考价值

前言:在中国,每一种能用来装逼的小众标签,在尚能用来装逼的时候,都会先被吹捧上天;一旦惨遭普及,马上会被贬低到底,比如瑜伽、骑行、电音、甚至学历。MBTI 自然也逃不过这个定律。本文意在探讨 MBTI 的参考价值到底有多少。

最广为人知的那个 MBTI 版本,即 16 型人格,是通过四个属性来给人分为 16 类的分类标准。具体来说,每个属性都有两个极端端点:外向(E)– 内向(I)、抽象(N)– 具象(S)、理性(T)– 感性(F)、计划(J)– 随性(P)。测试会根据你在问卷中的选择,把你归到某一侧,然后组合成一个四字母代码,比如 INFJ、ESTP 之类。在线测评本身就是一个很好玩的东西,尤其是它看上去真的很有用的时候。这种东西注定是要爆火的。

一、MBTI 本身

MBTI 作为分类体系,它选取的分类标准首先应该是合理的,我们现在就来检查这一点。

1.1 属性的衡量准确吗?

先说 外向(E)– 内向(I)属性。 该属性衡量人和世界互动的风格。

这是四个属性里最像坐标轴的一个,但我必须指出一个事实:宏观自然界不存在突变,全部人类个体的外向程度是一个连续分布的钟形曲线,绝大多数人都集中在中间地带。并且受限于自然选择,这个中位线理论上要略微偏向外向这一侧。由于大多数人都在骑墙,导致一念之差就足够让大多数 MBTI 的受试者在 外向(E)– 内向(I)属性上反复横跳。这也使它成为 MBTI 爱好者公认的最难确定的属性。

注:MBTI 受试者中 I 型占比约 50.7%

有一种心理状态(注意不是精神疾病),叫做 外向型孤独症,指一个人具有足够的社交能力、且给人开朗自信的感觉,但实际上不喜欢、甚至反感社交行为,且感到孤独。在 MBTI 的测评中,这种人会毫无悬念地偏向 I,但在日常相处中是一个活脱脱的 E 人。这种人是彻底没法放进 16 型人格里了。

然后是 抽象(N)– 具象(S)属性, 衡量人输入信息的方式。

部分 MBTI 爱好者认为 抽象(N)– 具象(S)属性和智商挂钩,这使带 N 的人格类型优越感爆棚。但是,如果他们真的研究过所谓“高智力人群”的学习风格,就会发现他们会混用抽象思维和具象思维。另一个极端,即部分精神病人,经常具有显著的抽象思维,但认知水平孱弱到无法理解多数具象概念,难道这也能称为是高智力吗。

此属性和 计划(J)– 随性(P)属性显著地不独立。

注:MBTI 受试者中 S 型占比约 73.3%

然后是 理性(T)– 感性(F)属性, 衡量人输出行动的方式。

如果你认可 T - F 是一条坐标轴,那意味着你认为共情和理性是互斥的,换句话说共情是不合理的。这事坏就坏在,如果你自认为是理性的人,就不得不将人际和情感作为变量,在解决问题时考虑在内;而如果你是感性的人,你观点的前提就已经是“感性合理”了。 越理智的人越感性,越感性的人反而越理性,使测评无限接近于掷硬币,根本不存在尺度了。

注:MBTI 受试者中 F 型占比约 59.8%

最后是 计划(J)– 随性(P)属性, 衡量人和自己互动的风格,即生活哲学。

有人认为这应该是四个属性里,最简单、能衡量得最准确的一个,但准确的代价似乎是多样性。很难想象生活哲学这一复杂数据结构用了一个布尔值来代替。在我个人看来,这个属性是最不应该放进任何门派的人格分类体系中的。生活哲学是某人人格的结果,但绝对不能说是人格的一部分。

而且,其准确性也是有待商榷的。在设计不佳的 MBTI 测评中存在大量诱导式提问,鼓励随心作答,这无意中在将受试者朝 P 方向的回答上诱导。

注:MBTI 受试者中 J 型占比约 54.1%

1.2 分类粒度足够吗?

MBTI 把人分成了 16 类,如果完全平均分配,每种人格在人群中占比 6.25%,这个占比说实话已经挺小了,人人都是小众哥,大小众时代堂堂来临,使部分 MBTI 爱好者从这个测评体系里获取了很多优越感。鉴于 MBTI 更大的作用还是提供归属感,而归属感的前提是足够多的共同点,所以我们有必要讨论一下这个 6.25% 的尺度是否足够。

如果把四个属性看作是坐标轴,那么 MBTI 实际上定义了一个四维“人格”空间,那么理论上一个人格得是一个四维向量、或者至少是一个四维向量集合才够准确。这就立刻让人意识到了问题所在:MBTI 的分类是按象限来的,这个四维向量集合高达一整个象限(1/161/16四维球面)。同在 (E,N,T,P) 象限内的不同向量可能天差地别,完全无法被认知为是同一个人格。

更糟的是,坐标轴中有两条,即 N-S 和 J-P,彼此之间显著地不独立,也就是它们在这个四维空间中是不正交的。作为坐标轴来说这是很糟糕的情况。

二、MBTI 之外

即使我们假设 MBTI 的分类标准是合理的,我们仍然需要从心理测量学的角度来审视它。一个心理测试工具要具备参考价值,至少需要满足两个基本要求:信度和效度。

2.1 信度

信度(Reliability)指的是测试结果的一致性、稳定性和可重复性。简单来说,如果一个人今天测出来是 INFJ,明天测出来是 ESTP,那这个测试的信度就很成问题。

MBTI 的重测信度(test-retest reliability)表现如何呢?根据多项研究,MBTI 的重测信度并不理想。有研究显示,在间隔几周到几个月后重新测试,大约有 50% 的人会得到不同的类型结果。这意味着如果你今天测出是 INTJ,一个月后再测,你有一半的概率会变成其他类型。

更具体地说,MBTI 各个维度的重测信度系数(通常用相关系数 r 表示,范围 0-1,越接近 1 越好)大约在 0.5-0.7 之间。在心理测量学中,一般认为重测信度系数低于 0.7 的测试工具,其稳定性是不够的。相比之下,被广泛认可的大五人格测试(Big Five)的重测信度通常在 0.8 以上。

为什么 MBTI 的重测信度这么低?原因可能包括:

  1. 二分法的局限性:正如我们在 1.1 节中讨论的,大多数人在各个维度上都处于中间地带,而 MBTI 强制将人分为两个极端。这种强制分类使得测试结果对受试者当时的状态、情绪、甚至对题目的理解都非常敏感。

  2. 题目设计问题:MBTI 的题目往往涉及主观判断,比如“你更喜欢抽象概念还是具体事实?”这种问题在不同情境下可能会有不同的答案,甚至受到受试者期望的左右,导致结果不稳定。

  3. 受试者状态影响:一个人的心理状态、最近经历的事件、甚至测试时的环境,都可能影响测试结果。而 MBTI 似乎没有很好地控制这些变量。

注:有研究显示,MBTI 的重测信度在 0.4-0.6 之间,远低于心理测量学可接受的标准(通常要求 ≥ 0.7)

2.2 效度

效度(Validity)指的是测试是否真的测量了它声称要测量的东西,以及测试结果是否有实际意义。即使一个测试信度很高(结果很稳定),如果它测量的不是它声称要测量的东西,或者测量结果没有实际价值,那这个测试也是无效的。

构念效度(Construct Validity):MBTI 声称测量的是“人格类型”,但正如我们前文所述的,它的四个维度本身就有问题。更重要的是,MBTI 的理论基础——荣格的心理类型理论——在当代心理学中已经不再被主流接受。现代心理学更倾向于将人格视为连续变量(如大五人格模型),而非离散的类型。

预测效度(Predictive Validity):这是 MBTI 最受质疑的地方。MBTI 经常被用于职业规划、团队建设、甚至招聘决策,但大量研究表明其合理性非常可疑。有元分析(meta-analysis)研究综合了多项关于 MBTI 预测效度的研究,得到了一些非常幽默的结果:

  1. MBTI 类型与工作绩效之间没有显著相关
  2. MBTI 类型与职业满意度之间没有显著相关
  3. MBTI 类型与领导力表现之间没有显著相关

更讽刺的是,MBTI 的官方网站和宣传材料中经常声称某些类型适合某些职业(比如 INTJ 适合做科学家),但这些说法的所谓实证支持,通常是 相关性研究 而非 因果研究 ,而且相关性很弱。

表面效度(Face Validity):MBTI 在这方面倒是做得不错——它的结果看起来很有道理,描述也很吸引人。但表面效度高并不意味着实际效度高。占星术、血型性格论也有很高的表面效度,但这并不能证明它们的科学性。

注:美国国家科学院在 1991 年的一份报告中指出,没有足够证据支持 MBTI 在职业咨询中的有效性。美国心理学会(APA)也多次指出,MBTI 缺乏足够的科学证据支持。

三、结论

MBTI 作为一个心理测试工具,在信度和效度方面都存在严重问题。它的分类标准本身就有缺陷,测试结果不稳定,且无法有效预测实际行为或结果,所以千万不要依赖它来做重要决策(如职业选择、招聘等)。

如果你真的想了解自己的人格,更可靠的选择是使用基于大五人格模型(Big Five)的测试。不过,MBTI 缺乏参考价值不意味着它不好玩,比如我觉得这种模块化的思路很适合指导文学创作,能快速塑造大批性格迥异且真实的角色。

  • Copyrights © 2022-2026 Kaleid Scoper
  • 访问人数: | 浏览次数:

欢迎打赏支持作者

支付宝
微信