【ビッグファイブ尺度】IPIP-NEO（120項目版）の研究

120項目版の「IPIP-NEO」で詳細な性格分析をしてみよう！
研究の詳細内容
まとめ

120項目版の「IPIP-NEO」で詳細な性格分析をしてみよう！

2014年のペンシルバニア州立大学の研究者が発表した論文によると、性格を120項目で詳細に診断できる「IPIP-NEO」の精度が確かめられています。

ScienceDirect

ビッグファイブとは？

ビッグファイブとは人間の性格は5つの要素の組み合わせで構成されているという考え方のことです。心理学者であるルイス・ゴールドバーグが提唱しました。特性五因子とも呼ばれています。

ビッグファイブの5つの特性は以下の通りです。

外向性：社交的、活発的かどうか
協調性：他人への思いやりや共感力が高いかどうか
勤勉性：意志力や責任感が強いかどうか
神経症傾向：不安やストレスを感じやすいかどうか
経験への開放性：知的好奇心や想像力が高いかどうか

ビッグファイブの特徴は「型」で判断するわけではない点です。MBTIやエニアグラムなどのように「あなたは◯◯タイプ」という判断はしません。例えば、「この人は外向性が高いから外向型」という表現ではなく、「この人は外向性が高く協調性も高く勤勉性は中ぐらい、神経症傾向は中ぐらい、開放性は低い」というように判断します。

5つの特性を数値で評価して総合的に判断するので、より多様な性格を説明することできます。

「IPIP-NEO」とは、性格を表す項目を厳選して作った性格尺度

「IPIP-NEO」とは、IPIPの項目を利用して作られたビッグファイブ診断の尺度です。

NEO-PI-R（ビッグファイブ診断の本家で信頼性が確立されている尺度）と対応しており、NEO-PI-Rと同じように5つの性格だけでなく、それぞれが持つ6つの下位特性まで診断することができます。

「IPIP（International Personality Item Pool）」とは、性格診断の尺度に利用される、短く具体的な行動に関する一文の項目一覧です。オランダのフローニンゲン大学の心理学者であるウィム・K・B・ホフステたちのプロジェクトから生まれました。IPIPのホームページには性格を表現する一文が3000以上掲載されています。

IPIP Home

例えば、「他人の信頼を裏切る」「謝罪を容易に受け入れる」「困難な任務を引き受ける」「他人から受け取るものを最小限に抑える」といった項目が並んでいます。

つまり、IPIPは性格の尺度を作る上で素材にされるものというイメージです。

実際に、IPIP-NEOもIPIPの膨大な項目からピックアップして性格尺度を作っています。

そして、IPIP-NEOとは、性格を表す一文がめっちゃ載っているサイトから、文を厳選して性格診断を作った尺度ということです。

120項目の短縮版でも信頼性が実証！

IPIP-NEOには、いくつか種類があり、項目数も異なります。

300項目の原版
120項目の短縮版
60項目などのさらなる短縮版

今回紹介するのは、120項目版のIPIP-NEOです。IPIP-NEOの300項目は信頼度が高いものの、300項目の文章に回答するのは大変です。そこで今回紹介する研究では、120項目版に縮小したものが開発され、300項目版と比べて精度がどう変わったのかについて確かめられました。

この研究では、以下の2つの研究が解説されています。

インターネットサンプル（21,588人）を使って、IPIP-NEOの120項目版を開発
4つのサンプルを使って、開発された120項目版の尺度の効果を検証

結果として、120項目版のIPIP-NEOは、300項目版のIPIP-NEOやNEO-PI-Rと比べて精度に遜色がないことが示されました。

「NEO-PI-Rと関連が強いか」という基準をもとに、IPIPの1,252項目から120項目を慎重にピックアップ。
NEO-PI-Rと同じレベルで、性格を診断する尺度として妥当である。
NEO-PI-Rで示される5つの性格特性×6つずつの下位特性の構造を維持できていた。

ここまでで今回の記事の結論としては終わりですが、より高度な部分を知りたい方は読み進めてください。

研究の詳細内容

研究①：IPIP-NEO（120項目版）尺度の開発

300項目版のIPIPを回答した21,588人（平均年齢26.2歳）のインターネットサンプルを用いて、IPIPの120項目版を開発した。

前提：300項目版のIPIP-NEOはどう開発された？

もともと300項目版のIPIP-NEOでは、以下の通りに開発が進められている。

①NEO-PI-Rとの相関で項目をピックアップ

21,588人（平均年齢26.2歳）のインターネットサンプルでの回答を分析。
IPIPの1,252項目（研究当時の項目数）において、それぞれの項目とNEO-PI-Rの下位特性（30個）との相関を計算。
- つまり、IPIPの項目一覧のうち、ビッグファイブ本家の尺度と関連が強かった項目が何かを見たわけです。
それぞれの下位特性について項目が正の相関をとるもの5つと、負の相関をとるもの5つで、初期の予備尺度を構成した（計10項目ずつ）。

例えば、

ある人がIPIPの項目にどの程度同意したかという数値と、
同じ人がNEO-PI-Rの30下位特性のどれで高得点かという数値において相関係数として算出しています。
例：IPIPの「項目A」に高く答える人ほど、NEO-PI-Rの「積極性」も高い傾向があるかを見て、相関が高いなら項目Aを積極性の項目として採用…というイメージ。

②重複した内容の項目を入れ替え

次に絞り込んだ質問項目について、研究者たちが内容を検討した。例えば、項目内容が本質的に同じようなものだと判断された項目は削除。削除する際には似た二つの項目のうち相関が低いものを削除し、代わりに次に相関が高い項目を追加。

例えば、

意味的にほぼ同じことを言っている項目AとBがあった。
AはNEO-PI-Rの該当下位特性とr=.55、Bはr=.42だった。
Aを残し、Bは捨てる。
その空いた枠には、次に相関が高い別の項目を入れる（①で調べた相関係数で11番目に大きいもの）。

③内容に目を通し、性格特性を測る項目としてふさわしいかチェック

そうして、それぞれ下位特性で十項目ずつの仮の尺度を作成。さらに、研究者たちがそれらの項目が下位特性を測るのに適しているものなのかどうか内容をチェック。

例えば、「勤勉性」の下位特性を作っているのに、「私は細かい数字を覚えるのが得意だ」ときたら、最後の項目は相関はあるかもしれないけど、「勤勉性の物語」としてはやや異質だから、除外対象になるというイメージ。

④内部一貫性をチェック

そして、最後に出来上がった10項目について、クロンバックのアルファ係数による内部一貫性を確かめた。内部一貫性が下がる項目は、①の時点で相関係数が高かった別の項目と入れ替え。

以上の300項目版の開発背景を踏まえて、研究のメインである120項目版の開発の解説に移ります。

120項目版の開発

①NEO-PI-Rとの相関で項目を再ピックアップ

120項目版に縮小する際には、300項目版でそれぞれ30の下位特性に属している10項目版から、4項目ずつに絞り込んだ。絞り込む際には項目ごとの得点と、下位尺度の合計得点の相関係数を調べ、相関係数が高いトップ4をピックアップした。

なお、120項目版IPIP-NEOの開発にあたって、項目1,000超のIPIPプールから改めて作り直すのではなく、300項目版IPIP-NEOの開発時に選び抜かれた下位特性の10項目を再利用した。
使用したデータも同一のもので、2万人超のインターネットサンプルのデータを用いた。
300項目版の手順①で得た、項目と尺度の相関をもとに、4項目へと厳選した。

②4項目をブラッシュアップ

重複した内容が含まれているなどに該当するものは削除し、置き換えた（トップ4に入らなかった他の項目と置き換え）。
- 例えば、開放性の下位特性である「冒険性」において、項目–合計相関が高い上位4項目のうち「変化が嫌いだ」と「変化という考えが好きではない」という項目があった。
- 同じような内容であったため、後者を「決まった習慣よりも変化に富んだ方を好む」という項目に置き換えた。
NEO-PI-Rの項目と文言が似るように調整された。
- ただし例外として、開放性の下位特性である「リベラリズム」については、「犯罪者は厳しく罰せられるべきか」「法律や秩序をどれだけ重視するか」といった政治的な項目が偏って残ってしまった。
- 本来は、「価値観の多様性を受け入れる姿勢」を測りたかった。

③内部一貫性をチェック

120項目に短縮した後の内部一貫性を調べたところ、ほとんどの下位尺度で0.7以上のアルファ係数が維持されていた。
- なお、アルファ係数0.7以上は、尺度の信頼性の指標としてよく用いられる基準。
- 例外として、C1自己効力感（.63）、C3義務感（.69）、O3情動性（.69）は比較的アルファ係数が低かった。
- これらを加えても、すべての下位特性が少なくとも0.6以上であり、短縮版の尺度として十分だと判断された。

研究②：IPIP-NEO（120項目版）尺度の検証

120項目版の尺度の妥当性を評価するために4つのサンプルで検証が行われた。

サンプル①：NEO-PI-Rとの相関で妥当性をチェック

481人の地域サンプルを用いて、IPIP-NEO300項目とNEO-PI-Rを回答してもらった。このうちの422人は知人の評価としてBFIやMini-Marker（IPIP-NEOやNEO-PI-Rと同じくビッグファイブを測るための別尺度）による評価も得た。

300項目版と120項目版で比較。
NEO-PI-Rとの比較。
知人からの評価と比較。

サンプル②③：因子構造をチェック

インターネットサンプル①：307,313人（平均年齢25.2歳）。過去12年のIPIP-NEO300項目版の回答データを用いた。
インターネットサンプル②：619,150人（平均年齢25.2歳）。同じく過去12年でIPIP-NEO120項目版に回答している。

IPIP-NEOの300項目版を回答してもらい、その中で120項目版として抽出したものだけでも分析。つまり、

300項目版の尺度で回答した300項目のデータ
300項目版の尺度で回答し、そこから抽出した120項目のデータ
もともと120項目で回答したデータ

これら3つのデータについて因子構造を分析。

サンプル④：知人からの評価との相関で妥当性をチェック

160人の地域サンプルを用いて、オンラインで300項目版を回答してもらい、さらに知人からの評価もしてもらった。

300項目版と知人からの評価の相関
300項目から抽出した120項目と知人からの評価の相関

結果

信頼性について

サンプル①②③から得られたアルファ係数は、120項目版の場合、300項目版の場合よりもやや低くなった。
- 300項目版のアルファ係数よりもやや低い結果となり、サンプル①では0.68（300項目版では0.8）、サンプル②③では0.75（300項目版では0.82）
特に、サンプル②③では、120項目の質問紙を直接実施しているが、アルファ係数は0.63～0.88の範囲であり、3つの下位特性を除くすべての下位特性で0.69以上であった。
- - 考察：性格尺度の信頼性として、0.7が最小限の基準としてよく利用されるので、短縮版の尺度としては十分な信頼性だと判断された。
  - しかし個人に関する重要な決定を出す目的にはあまり適していないとされた。

妥当性について

サンプル①において、NEO-PI-Rとの相関係数は、300項目で0.73、120項目で0.66となった。
- 考察：NEO-PI-Rとの相関は、300項目から120項目に短縮しても崩れておらず、わずかに低下する程度にとどまっていたと解釈された。
サンプル④において、知人からの評価と比べられたところ、それぞれの下位特性における知人の評価との相関係数は、300項目版で0.39、120項目版で0.37だった。
- 考察：前提として、本人による評価と他者からの評価は、ある程度ずれる可能性がある。300項目版から120項目版に短縮した場合でも、ほとんど変わっていないため、同程度に機能していると考えられた。

因子構造について

サンプル②③（大規模なインターネットサンプル）について、300項目版と120項目版で因子構造が調べられた結果、

おおよその因子の構造は保たれていた。
ただ、五つの性格特性因子に対しての下位特性因子は、想定される因子に対して因子負荷量が高くない場合もあった。
- 例えば、自意識は神経症傾向因子でなく、外向性因子に対してより強い負の負荷を示した。
- 活動水準は外向性因子よりも、勤勉性因子に高く負荷していた。
- 情動性は開放性因子よりも、神経症傾向因子に高く負荷していた。
- 主張性は外向性因子よりも、勤勉性因子に高く負荷していた。
- 協調性と慎重さは、それぞれ協調性因子と勤勉性因子よりも、神経症傾向因子に対して高い負の負荷を示した。
なお、これらの中には、300項目版で高く負荷しているものの、120項目版では高く負荷していないものも見られた。
- 考察：そもそも下位特性は多面的な部分があるものだから、2つの特性にまたがって負荷するのも自然だと解釈されています。例：自意識はもともと神経症傾向の下位特性だと考えられているが、外向性が低い人にも見られるのは自然。
- また、300項目では項目数の多さによって平均化されていたものが短縮版では、項目数が少ないことによって想定とは別の特性の方に負荷したのだと解釈されています。

黙従反応による歪みを検証

短縮版を作成するにあたって、正のキーと負のキーが、バランスよく含まれていない点について、黙従反応が強くなってしまっている可能性を検証した。

サンプル①において、黙従反応をコントロールした場合に、知人との評価やNEO-PI-Rとの評価との相関が強くなるかを調べた。
サンプル③（120項目を実施したインターネットサンプル）において、因子構造をもう一度分析し、NEO-PI-Rとの因子構造が似ているかどうかをチェックした。

結果として、黙従反応をコントロールすると、120項目版の下位特性の尺度は、妥当性が向上するどころかむしろ低下することが示された。

サンプル①において、
- BFI尺度とは0.46、Mini-Marker尺度とは0.4の相関を示した。
- 一方、黙従反応をコントロールすると、BFIとの相関は平均0.08、Mini-Markerとの相関は平均0.05にとどまった。
サンプル②において、
- NEO-PI-RとIPIP-NEO-120の因子間のもともと一致係数は、神経症傾向、外向性、開放性、協調性、勤勉性について、それぞれ.93、.97、.92、.87、.95であった。
- 一方、黙従反応をコントロールすると、一致係数はそれぞれ.63、.81、.57、.81、.67であった。
考察：「黙従反応が混ざることによって因子構造や妥当性（知人との評価の相関）が歪んでしまっている」という仮説に対して、黙従反応をコントロールすると、因子構造や妥当性が改善するのではなくむしろ低下してしまった。そのため、黙従反応によって因子構造や妥当性が崩れている心配はなく、正負のキーが均一に含まれていないことは問題がないと判断された。

まとめ

IPIP-NEO-120は、300項目版やNEO-PI-Rと高い一致を示す短縮版の性格尺度である。
120項目に短縮しても、信頼性・妥当性は研究用途として十分に維持されていた。
因子構造も保持されており、一部の下位特性では多面的な負荷が見られた。
正負キーの不均衡は、IPIP-NEO-120において大きな問題ではないと結論づけられた。

IPIP-NEO-120は、300項目版やNEO-PI-Rと比較しても、研究目的において十分な信頼性と妥当性を持つ短縮版の性格尺度であることが示されました。

また、一部の下位特性では想定された因子からのずれが見られたものの、これは下位特性の多面性や項目数削減による影響として妥当な範囲と解釈されています。

よって、NEO-PI-R（240項目）やIPIP-NEO（300項目版）などのように時間のかかる測定が負担になる場合は、それらの代わりとしてIPIP-NEO（120項目版）を安心して使用することができるでしょう。

2026年3月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31