理性探讨 MBTI 的参考价值

2025-12-01

字数统计: 2.9k | 阅读时长≈ 9 分钟

前言：

在中国，每一种能用来装逼的小众标签，在尚能用来装逼的时候，都会先被吹捧上天；一旦惨遭普及，马上会被贬低到底，比如瑜伽、骑行、电音、甚至学历。MBTI 自然也逃不过这个定律。本文意在探讨 MBTI 的参考价值到底有多少。

最广为人知的那个 MBTI 版本，即 16 型人格，是通过四个属性来给人分为 16 类的分类标准。具体来说，每个属性都有两个极端端点：外向（E）– 内向（I）、抽象（N）– 具象（S）、理性（T）– 感性（F）、计划（J）– 随性（P）。测试会根据你在问卷中的选择，把你归到某一侧，然后组合成一个四字母代码，比如 INFJ、ESTP 之类。在线测评本身就是一个很好玩的东西，尤其是它看上去真的很有用的时候。这种东西注定是要爆火的。

一、MBTI 本身

MBTI 作为分类体系，它选取的分类标准首先应该是合理的，我们现在就来检查这一点。

1.1 属性的衡量准确吗？

先说外向（E）– 内向（I）属性。 该属性衡量人和世界互动的风格。

这是四个属性里最像坐标轴的一个，但我必须指出一个事实：宏观自然界不存在突变，全部人类个体的外向程度是一个连续分布的钟形曲线，绝大多数人都集中在中间地带。并且受限于自然选择，这个中位线理论上要略微偏向外向这一侧。由于大多数人都在骑墙，导致一念之差就足够让大多数 MBTI 的受试者在外向（E）– 内向（I）属性上反复横跳。这也使它成为 MBTI 爱好者公认的最难确定的属性。

注：MBTI 受试者中 I 型占比约 50.7%

有一种心理状态（注意不是精神疾病），叫做外向型孤独症，指一个人具有足够的社交能力、且给人开朗自信的感觉，但实际上不喜欢、甚至反感社交行为，且感到孤独。在 MBTI 的测评中，这种人会毫无悬念地偏向 I，但在日常相处中是一个活脱脱的 E 人。这种人是彻底没法放进 16 型人格里了。

然后是抽象（N）– 具象（S）属性， 衡量人输入信息的方式。

部分 MBTI 爱好者认为抽象（N）– 具象（S）属性和智商挂钩，这使带 N 的人格类型优越感爆棚。但是，如果他们真的研究过所谓“高智力人群”的学习风格，就会发现他们会混用抽象思维和具象思维。另一个极端，即部分精神病人，经常具有显著的抽象思维，但认知水平孱弱到无法理解多数具象概念，难道这也能称为是高智力吗。

此属性和计划（J）– 随性（P）属性显著地不独立。

注：MBTI 受试者中 S 型占比约 73.3%

然后是理性（T）– 感性（F）属性， 衡量人输出行动的方式。

如果你认可 T - F 是一条坐标轴，那意味着你认为共情和理性是互斥的，换句话说共情是不合理的。这事坏就坏在，如果你自认为是理性的人，就不得不将人际和情感作为变量，在解决问题时考虑在内；而如果你是感性的人，你观点的前提就已经是“感性合理”了。越理智的人越感性，越感性的人反而越理性，使测评无限接近于掷硬币，根本不存在尺度了。

注：MBTI 受试者中 F 型占比约 59.8%

最后是计划（J）– 随性（P）属性， 衡量人和自己互动的风格，即生活哲学。

有人认为这应该是四个属性里，最简单、能衡量得最准确的一个，但准确的代价似乎是多样性。很难想象生活哲学这一复杂数据结构用了一个布尔值来代替。在我个人看来，这个属性是最不应该放进任何门派的人格分类体系中的。生活哲学是某人人格的结果，但绝对不能说是人格的一部分。

而且，其准确性也是有待商榷的。在设计不佳的 MBTI 测评中存在大量诱导式提问，鼓励随心作答，这无意中在将受试者朝 P 方向的回答上诱导。

注：MBTI 受试者中 J 型占比约 54.1%

1.2 分类粒度足够吗？

MBTI 把人分成了 16 类，如果完全平均分配，每种人格在人群中占比 6.25%，这个占比说实话已经挺小了，人人都是小众哥，大小众时代堂堂来临，使部分 MBTI 爱好者从这个测评体系里获取了很多优越感。鉴于 MBTI 更大的作用还是提供归属感，而归属感的前提是足够多的共同点，所以我们有必要讨论一下这个 6.25% 的尺度是否足够。

如果把四个属性看作是坐标轴，那么 MBTI 实际上定义了一个四维“人格”空间，那么理论上一个人格得是一个四维向量、或者至少是一个四维向量集合才够准确。这就立刻让人意识到了问题所在：MBTI 的分类是按象限来的，这个四维向量集合高达一整个象限（ $1/16$ 四维球面）。同在 (E,N,T,P) 象限内的不同向量可能天差地别，完全无法被认知为是同一个人格。

更糟的是，坐标轴中有两条，即 N-S 和 J-P，彼此之间显著地不独立，也就是它们在这个四维空间中是不正交的。作为坐标轴来说这是很糟糕的情况。

二、MBTI 之外

即使我们假设 MBTI 的分类标准是合理的，我们仍然需要从心理测量学的角度来审视它。一个心理测试工具要具备参考价值，至少需要满足两个基本要求：信度和效度。

2.1 信度

信度（Reliability）指的是测试结果的一致性、稳定性和可重复性。简单来说，如果一个人今天测出来是 INFJ，明天测出来是 ESTP，那这个测试的信度就很成问题。

MBTI 的重测信度（test-retest reliability）表现如何呢？根据多项研究，MBTI 的重测信度并不理想。有研究显示，在间隔几周到几个月后重新测试，大约有 50% 的人会得到不同的类型结果。这意味着如果你今天测出是 INTJ，一个月后再测，你有一半的概率会变成其他类型。

更具体地说，MBTI 各个维度的重测信度系数（通常用相关系数 r 表示，范围 0-1，越接近 1 越好）大约在 0.5-0.7 之间。在心理测量学中，一般认为重测信度系数低于 0.7 的测试工具，其稳定性是不够的。相比之下，被广泛认可的大五人格测试（Big Five）的重测信度通常在 0.8 以上。

为什么 MBTI 的重测信度这么低？原因可能包括：

二分法的局限性：正如我们在 1.1 节中讨论的，大多数人在各个维度上都处于中间地带，而 MBTI 强制将人分为两个极端。这种强制分类使得测试结果对受试者当时的状态、情绪、甚至对题目的理解都非常敏感。
题目设计问题：MBTI 的题目往往涉及主观判断，比如“你更喜欢抽象概念还是具体事实？”这种问题在不同情境下可能会有不同的答案，甚至受到受试者期望的左右，导致结果不稳定。
受试者状态影响：一个人的心理状态、最近经历的事件、甚至测试时的环境，都可能影响测试结果。而 MBTI 似乎没有很好地控制这些变量。

注：有研究显示，MBTI 的重测信度在 0.4-0.6 之间，远低于心理测量学可接受的标准（通常要求 ≥ 0.7）

2.2 效度

效度（Validity）指的是测试是否真的测量了它声称要测量的东西，以及测试结果是否有实际意义。即使一个测试信度很高（结果很稳定），如果它测量的不是它声称要测量的东西，或者测量结果没有实际价值，那这个测试也是无效的。

构念效度（Construct Validity）：MBTI 声称测量的是“人格类型”，但正如我们前文所述的，它的四个维度本身就有问题。更重要的是，MBTI 的理论基础——荣格的心理类型理论——在当代心理学中已经不再被主流接受。现代心理学更倾向于将人格视为连续变量（如大五人格模型），而非离散的类型。

预测效度（Predictive Validity）：这是 MBTI 最受质疑的地方。MBTI 经常被用于职业规划、团队建设、甚至招聘决策，但大量研究表明其合理性非常可疑。有元分析（meta-analysis）研究综合了多项关于 MBTI 预测效度的研究，得到了一些非常幽默的结果：

MBTI 类型与工作绩效之间没有显著相关
MBTI 类型与职业满意度之间没有显著相关
MBTI 类型与领导力表现之间没有显著相关

更讽刺的是，MBTI 的官方网站和宣传材料中经常声称某些类型适合某些职业（比如 INTJ 适合做科学家），但这些说法的所谓实证支持，通常是 相关性研究 而非 因果研究 ，而且相关性很弱。

表面效度（Face Validity）：MBTI 在这方面倒是做得不错——它的结果看起来很有道理，描述也很吸引人。但表面效度高并不意味着实际效度高。占星术、血型性格论也有很高的表面效度，但这并不能证明它们的科学性。

注：美国国家科学院在 1991 年的一份报告中指出，没有足够证据支持 MBTI 在职业咨询中的有效性。美国心理学会（APA）也多次指出，MBTI 缺乏足够的科学证据支持。

三、结论

MBTI 作为一个心理测试工具，在信度和效度方面都存在严重问题。它的分类标准本身就有缺陷，测试结果不稳定，且无法有效预测实际行为或结果，所以千万不要依赖它来做重要决策（如职业选择、招聘等）。

如果你真的想了解自己的人格，更可靠的选择是使用基于大五人格模型（Big Five）的测试。不过，MBTI 缺乏参考价值不意味着它不好玩，比如我觉得这种模块化的思路很适合指导文学创作，能快速塑造大批性格迥异且真实的角色。