日本の「メタボ」診断基準の統計的問題


2009年2月執筆(
2013年7月移動・改訂)

2008年4月より「特定健診・特定保健指導」(いわゆるメタボ健診)が始まり,40歳以上の男女に健診が義務付けられました.この中で,腹囲(男性85cm以上,女性90cm以上)が保健指導対象者のグループ分けの第一段階で採用されています (厚生労働省健康局, 2007).
しかしながら,この診断基準を決める根拠となっているデータとその解析には重大な問題があります.我々は診断基準の根拠となっている論文の記述内容に基づいて再解析し,その結果,データの収集と解析をやり直すことで診断基準が変わる可能性が高いことを確認しました.

このウェブページでは,日本の「メタボリック・シンドローム」診断基準の統計的見地からの問題点を,なるべく数式を用いずに解説します.解析結果の詳細は,以下の論文をご覧ください.
  • 坂本 亘・五十川直樹・後藤昌司 (2008). 日本の「メタボリック・シンドローム」診断基準の統計的問題.行動計量学,35(2), 177-192.
    [J-STAGE] http://dx.doi.org/10.2333/jbhmk.35.177
このウェブページおよび論文の内容の無断転載はお断りします.リンクは張っていただいて構いません.
このウェブページおよび論文の内容は著者ら個人の見解であり,所属先や掲載誌学会としての見解ではありません.

診断基準の根拠となっている論文

厚生労働省のウェブページ「生活習慣病予防(健康づくり)特集」に掲載されている添付資料「関係学会におけるガイドライン(抜粋)」によると,保健指導対象者のグループ分けの基準は,主にメタボリックシンドローム診断基準検討委員会 (2005) により公表された「メタボリックシンドロームの定義と診断基準」が基になっています.この中で,メタボリック・シンドロームの診断基準が次のように定義されています〔→「腹囲」と「胴囲(ウエスト周囲径)」〕.
  1. 内臓脂肪の蓄積:ウエスト周囲径(以降,本稿では胴囲と呼ぶ) 男性85cm以上,女性90cm以上
  2. さらに脂質異常,高血圧症,高血糖症に関する基準のうち2項目以上
さらに,この診断基準の論拠となっているのが,日本「肥満症」診断基準検討委員会(上記検討委員会の前身と思われる)が日本肥満学会との共著で公表した下記の英文論文(以降,検討委論文)です(日本循環器学会の雑誌 Circulation Journal の Special Article として掲載されています.おそらく通常よりも査読は甘いと思われます).
  • The Examination Committee of Criteria for ’Obesity Disease’ in Japan & Japan Society for the Study of Obesity (2002).
    New criteria for ‘obesity disease’ in Japan. Circulation Journal, 66, 987-992.
    [J-STAGE] http://dx.doi.org/10.1253/circj.66.987
 しかしながら,大櫛(2007) などが指摘しているように,この検討委論文には,統計的側面での様々な問題点が存在します.そもそも,データ収集の方法が非常に杜撰ですし,データ解析にも不適切な部分が散見されます.とくに,胴囲の診断基準の決定に重大な影響を与えていると考えられるのは,以下の3点です.
  1. 解析の途中で男女を併合したり別々にしたりと,解析の過程が一貫していない.最初から男女で(さらには年齢等でも)層別して解析すべきであったと思われる.ただし,層別して解析を行うには調査対象人数が少なすぎるのではないか.
  2. 内臓脂肪断面積 (VFA) と胴囲との対応関係の解析で回帰分析を用いているが,これは不適切である.さらに,測定値の分布の歪みに対する考慮(対数変換など)が一切行われていない.
  3. 最適な胴囲診断基準を決めるためには,感度・特異度を用いて客観的な評価を行うべきであると考えるが,その評価が行われていない.
検討委論文は個人名ではなく権威のある委員会・学会の名前で出されています.にもかかわらず,このような杜撰な(統計を馬鹿にしていると言っても過言でない)データの収集や解析が行われ,さらにこれに基づいて政策が決められ,未だ見直しがされないことに対して,我々統計家としては黙っていられません.


杜撰なデータの収集・解析

検討委論文の記述によると,使用しているデータの概要は次のとおりです.
調査対象:20~84歳の男性775名,女性418名,合計1193名
(A) 860名(男性592名,女性268名):旧厚生省・日本内臓脂肪症候群(J-VFS)研究委員会に参加する研究組織での健康診断に参加した健常者
(B) 333名(男性183名,女性150名):肥満症の診療所(1ヵ所)の訪問者
このうち748名(男性554名,女性194名)についてのみ胴囲・腰囲が測定されているとのことですが,選別方法についての記述がなく,(A)(B)どちらに属しているのか不明です.

メタボ健診は40歳以上が対象ですが,検討委論文のデータは年齢の幅が非常に広く,この結果をメタボ健診にそのまま適用してよいのかという疑問が残ります.また,健常者に肥満の人を恣意的に混ぜたデータになっており,サンプリング上のバイアスが含まれている上に,見せかけの相関を作り出してしまう惧れがあります. 

検討委論文に記述されている大まかな解析の流れを以下に示します.

 項目  図表番号  用いた標本  標本サイズ  性別の取り扱い
 BMI と異常項目数の関連
 (平均異常項目数1.0に対応するBMI=25)
 Fig 1  (A)+(B)  n=1193  男女併合
 BMI と脂肪分布 (VFA, SFA) の関連  Fig 2  (A)+(B)  n=1193  男女別
 VFA と異常項目数の関連
 (平均異常項目数1.0に対応するVFA=100)
 Fig 3  (A)+(B)  n=1193  男女併合
 BMI, VFA と異常項目数の関連
 (分割表解析)
 Table 1  (A) のみ  n=860  BMI, VFAで分類された
 グループのみ男女別
 VFA と BMI, 胴囲などとの相関係数の値  Table 2  ?  n=748  男女別
 VFA と胴囲の対応関係(回帰分析)  Fig 4  ?  n=748  男女別
BMI=体重/(身長の2乗), SFA: 皮下脂肪断面積 (単位 cm2), VFA: 内臓脂肪断面積 (単位 cm2)
 異常項目数:肥満関連異常(高血圧症,脂質異常,高血糖症)のうちあてはまる項目数(0~3)

このように,途中で用いるデータの大きさが変わり,また男女を別々にしたり併合したりと,解析過程に一貫性が見られず,このような点から見ても杜撰な統計解析と言わざるを得ません.

なお,平均異常項目数1.0に対応するBMIやVFAの値を基準値に用いていますが,「メタボリック・シンドローム」とは複数の代謝障害が合併した状態を指すのであり,1.0という数字に根拠を見出すことができません.


なぜ最初から男女に層別して解析しなかったのか

検討委論文では,内臓脂肪の蓄積がメタボリック・シンドロームの原因であるという仮説のもとで,BMI, VFA と肥満関連異常の項目数との関連を立証しようとしています.検討委論文に記載されている,BMI, VFA と異常項目数の関連を示す分割表標本を以下に示します. 〔→診断検査, 分割表解析

非肥満群
(BMI<25)
肥満群
(BMI≧25)
低VFA群
(VFA<100)
高VFA群
(VFA≧100)
低VFA群
(VFA<100)
高VFA群
(VFA≧100)
総数 429 160 66 205
男性/女性 251 / 178 139 / 21 41 / 25 161 / 44
異常項目数0個 210 44 27 34
1個 184 84 23 94
2個以上 35 32 16 77

BMI≧25 および VFA≧100 に該当するか否かで分類された各群の合計人数は男女別に記載されていますが,異常項目数により分類した各群(0個,1個,2個以上)については男女を併合した人数しか記載されていません.元のデータを調べれば異常項目数による分類も男女別の人数が分かるはずです.我々はこの点に検討委員会の意図が隠れているのではと考えました.

検討委論文では,男女併合の数値に基づいて,有意性検定(カイ二乗検定)という方法を用いて,BMI(あるいはVFA)と異常項目数との間にそれぞれ関連があることを示しています.しかしながら,仮に男女別に解析を行った場合,その関連を立証できなかった(独立性を棄却できなかった)疑いがあります.実際,仮想的に各カテゴリーで同一の男女比率に分けた分割表標本を考えた場合,人数の少ない女性の仮想標本について独立性を棄却することができませんでした.さらに,男女別の分割表標本をシミュレーションで確率的に(10000組)再現し,同様の有意性検定を行ったところ,女性の分割表標本に対して,BMI,VFA と異常項目数との間の関連を立証できる可能性はごく僅かであることが分かりました(有意性検定で p 値がいずれも0.05を下回ったのは10000組の標本のうち244組でした).
VFAを用いた場合の診断基準 (VFA≧100) によると,感度(異常項目数が2以上の人を正しく検出する能力)および特異度(異常項目数が1以下の人を正しく除外する能力)は男女で大きな違いがあることもシミュレーションで示唆されました(男性:感度 0.745, 特異度 0.553/女性:感度 0.502, 特異度 0.805).

これらの結果から,次のような推察を行うことができます. 〔→交絡因子による層別
  • 検討委論文では,女性の分割表標本について BMI や VFA と異常項目数との関連を立証できなかったことから,男女を併合した解析結果のみを掲載したのではないか.言い換えれば,検討委論文のデータの標本サイズが小さすぎるために,男女を併合して解析せざるを得なかったのではないか.
  • 男女別に解析を行うことにより,BMI あるいはVFA を診断基準とする場合の最適な分割値は男女で異なる可能性がある.
我々は上記の分割表標本を仮想的に男女に分割し,再解析を行いました.下図はそれぞれ BMI, VFA を診断基準とするときの推定ROC曲線です.感度と特異度の合計を最大にする分割点を調べたところ,BMIについては大きな男女間の違いが見られませんでしたが,VFA については男性がおよそ110,女性がおよそ80という結果で,男女間で違いが出ました.この結果が,後で胴囲診断基準を定めるところに影響してきます.
はBMIの分割値25, VFAの分割値100に対応する点, はVFAの分割値110(男性),80(女性)に対応する点. 〔図をクリックすると拡大します〕

ついでながら,BMI も VFA も連続変量ですから,これらをわざわざ大小で2群に分割してカイ二乗検定を行うというやり方はあまりお勧めできません.連続共変量を扱うことのできる解析方法(例えば異常項目数を応答変数とする場合は多項ロジスティック回帰など)を用いるのが望ましいと考えます.


回帰直線の X と Y は対等ではない

検討委論文ではVFA を応答変数(グラフの縦軸)とする胴囲への回帰直線を用いて,VFA の分割値(男女とも100cm2)に対応する回帰直線上の胴囲の値を算出しています.他方,大櫛(2007)などでは,逆に胴囲を応答変数としてVFA への回帰を考えるべきであると指摘しています. 

しかしながら,実は回帰直線の使用自体が適切ではありません.回帰分析は一方の変数の値 (X) が与えられたときの他方の変数 (Y) の条件付き平均を推定する手法であり,X の値を固定したときの Y 軸方向の誤差(ばらつき)のみを考えますので,X と Y を対等に扱うものではありません.両変数間の対応値を求めたいのであれば,両変数の誤差を対等に扱う手法を用いるべきです.なぜなら,VFA と胴囲にはともに個人差や測定誤差に伴う変動が含まれているからです.我々は代替案として変数内誤差モデルを用いて解析を行いました. 〔→回帰モデルと変数内誤差モデル

下図は,シミュレーションで再現した (胴囲, VFA) の組のデータ(女性)に対して,回帰直線と変数内誤差モデルによるあてはめ曲線を図示したものです.回帰直線による方法(検討委論文の方法,緑色)に比べて,変数内誤差モデルによる方法(赤色)では,VFA=100 に対応する胴囲分割値が小さくなることがお分かりいただけると思います.さらに,女性の場合は VFA=80 に対応する胴囲分割値を求める必要があり,その値はもっと小さくなります.

  • 緑点線(REG.V):VFAから胴囲への回帰直線
  • 緑点破線(REG.W):胴囲からVFAへの回帰直線
  • 赤破線(EIV.O):変数内誤差モデルによるあてはめ直線
  • 赤実線 (EIV.T):変数の歪みを考慮して変換を施した変数内誤差モデルによるあてはめ曲線.
    右側の図は一部を拡大したもの. 〔クリックするとさらに拡大します〕
我々のシミュレーション(男女別)により,VFA分割値に対応する胴囲分割値は次のように推定されました(カッコ内は標準誤差).男性の胴囲分割値は約3cm大きくなったのに対し,女性の胴囲分割値は逆におよそ8cmも小さくなりました.検討委論文の診断基準は男性よりも女性の方が胴囲分割値が大きいという,国際基準から見て不自然なものでしたが,我々の解析では男性の胴囲分割値が女性の分割値を上回る結果となりました.

VFA 回帰直線
 (応答:VFA) 
変数内誤差モデル
(分布の歪みを考慮)
男性 100 84.41 (0.38) 85.79 (0.29)
110 86.50 (0.41) 87.16 (0.30)
女性 100 92.84 (1.54) 89.97 (0.83)
80 84.85 (1.01) 85.19 (0.69)

なお,これらの胴囲分割値は,検討委論文の記述内容に即してシミュレーションによる再解析を行った結果として得られたものであり,検討委論文の解析で用いられた原データを入手して解析したわけではありません.最適な胴囲診断基準を定めるためには,改めてデータを採取し解析を行うことが必要です. 


胴囲診断基準の感度・特異度を直接評価すべき

検討委論文では胴囲診断基準で異常項目数2以上の人を検出する場合の感度・特異度の評価を行っていません.我々のシミュレーションによる感度・特異度の推定値を下表に示します. 〔→診断検査

男性 女性
分割値 感度 特異度 分割値 感度 特異度
検討委員会の基準 85 0.723 0.523 90 0.419 0.779
感度+特異度最大 86.9 0.639 0.614 84.5 0.616 0.611
検討委論文にはBMIと胴囲の相関係数についての情報がありませんでしたので,ここでは0.8としました)

検討委員会の胴囲診断基準では,メタボでない男性の半数近くが誤って陽性(メタボ)と診断され,メタボである女性の6割近くが誤って陰性(メタボでない)と診断されることになります.すなわち,男性については本来受診が不要である人に受診機会を作り出してしまうのに対して,女性については,本来受診を勧奨すべき人の受診機会を損ねてしまう惧れがあります.他方,我々の解析で示唆された胴囲分割値(変数内誤差モデルによる結果)の付近で,感度と特異度の合計が最大になりました.

なお,たとえ診断基準を修正しても,依然として4割近くの人が誤って陽性または陰性と診断されることになり,胴囲のみを用いた診断の能力には限界があることも分かります.さらに,実際に医療行政上の政策に利用する場合には,コスト面の考慮も必須です.


まとめ

検討委論文の内容を再解析した結果,胴囲の分割値が変わる可能性があることが分かりました.その主な原因として,以下の3点を挙げることができます.
  • 調査対象人数が少なすぎたために,分割表標本の男女を併合することにより,独立性の検定で有意性を確保せざるを得なかったのではないかと考えられること.
  • 男女で異なるはずのVFA の診断基準を,検討委論文では男女とも同一(VFA≧100cm2)に設定したこと.
  • VFA の分割値に対応する胴囲の値を算出するときに,適切でない統計手法(回帰直線)を用いたこと.
メタボ健診の第一段階で行われる胴囲のみによる診断はその性能が十分であるとはいえません.さらに,異なる年齢層に対する一律の診断基準の導入にも問題があると考えます.Narisawa et al.(2008) の大規模調査でも,年齢層によって最適な胴囲分割値やその診断性能(ROC 曲線)が変わりうることが示唆されています.一律の診断基準の導入は,診断を行う医療従事者の側から見れば楽であるかもしれませんが,必ずしも個々の市民の利益につながるとは思えません.「集団に対する医療」から「個に対する医療」へのパラダイムの転換が必要でしょう.

検討委論文には上記のとおり多くの統計的問題・誤りが含まれていますので,Circulation Journal 誌は検討委論文の掲載を取り下げるべきであると考えます(おそらくメンツにかけてそんなことはしないでしょうけど).
なお,我々は Circulation Journal 誌の Letter to the Editor に,上記の統計的問題を指摘した記事を投稿しましたが,1週間も経たずにリジェクトされたということを書き添えておきます.

メタボ健診は,制度そのものへの批判や,診断基準の問題があるにも関わらず,未だに見直されることなく続いています(2度の政権交代,さらに震災・原発事故の影響もあって,後回しにされているのが現状でしょう).おまけに,「腹囲」を必須とする診断基準のせいで,「メタボ=肥満」という誤った認識がマスコミを通じて国民に浸透してしまいました.健診効果がはっきりしていない(すなわち税金の無駄遣いである)メタボ健診はいったん白紙に戻したうえで,日本人の死因の1位であるがんの対策に注力すべきであると考えます.


その後

厚生労働省研究班(代表者:津金昌一郎先生)による大規模調査 (JPHC Study) で,以下のようなことが分かったそうです.
  • がんや循環器疾患を減らすには,肥満対策よりもまず禁煙・節酒を推進することが重要である.
  • 肥満以外のメタボ関連要因(高血糖,高血圧,脂質異常)の集積により,死亡リスクが有意に上昇.
    他方,肥満による死亡リスク上昇のパターンは認められない.
また,別の厚生労働省研究班(代表者:門脇孝先生)による3万人対象の調査で,以下のようなことが分かったそうです(朝日新聞,2010年3月12日).
  • 検査値の異常項目数(0~3個)が増えるとととに心筋梗塞や脳卒中のリスクが高くなった.
  • そのリスクの値は,メタボ健診の「腹囲」基準(男性85cm, 女性90cm)の前後で層別したとき,二つの層の間で殆ど差がなかった.
なお,ある新聞記者の方から,この調査結果についての詳しい資料を見せていただきましたが,典型的な交絡のデータになっていました.つまり,胴囲の大きい群と小さい群で異常項目数の分布が異なっており(胴囲の大きい方が異常項目数が多い傾向にある),胴囲が交絡因子になっていました.

上記の大規模調査でも明らかになってきているように,「腹囲」と疾患のリスクには直接の因果関係が見られず,「腹囲」をグループ分けの必須項目(第一段階)とする現行のメタボ健診の有効性について根拠を見出すことができません.やはり,血糖値,血圧,コレステロール値などの検査値をきちんと見ない限り,疾患の兆候を判断できない,ということではないでしょうか.


参考文献

  • Narisawa, S., Nakamura, K., Kato, K., Yamada, K., Sasaki, J. & Yamamoto, M. (2008). Appropriate waist circumference cutoff values for persons with multiple cardiovascular risk factors in Japan: a large crosssectional study. Journal of Epidemiology, 18, 37-42.
  • National Cholesterol Education Program (NCEP), National Heart, Lung, and Blood Institute (NHLBI) & National Institutes of Health (NIH) (2002). Third report of the National Cholesterol Education Program (NCEP) Expert Panel on Detection, Evaluation, and Treatment of High Blood Cholesterol in Adults (Adult Treatment Panel III) final report. Circulation, 106, 3143-3421. 
  • 大櫛陽一(2007). メタボの罠:「病人」にされる健康な人々.角川SSC 新書.
  • 河内まき子・持丸正明(2005). AIST人体寸法データベース.産業技術総合研究所 H16PRO 287. (ウェブページ
  • 厚生労働省健康局(2007). 標準的な健診・保健指導プログラム(確定版).厚生労働省健康局. (概要 | 全体版
  • メタボリックシンドローム診断基準検討委員会(2005). メタボリックシンドロームの定義と診断基準. 日本内科学会雑誌,94, 188-203.
    (厚生労働省健康局:関係学会におけるガイドラインの抜粋