1. ホーム
  2. 基礎資料
  3. 統計

統計|基礎資料(検索ナビ)

統計

民間統計

統計情報

 統計情報に関しては、多くがインターネットで公開されています。しかし、過去にさかのぼっての調査は、印刷物で調査する必要がある場合が多いです。

統計情報のポータルサイト

政府や国の機関が取っている統計の情報については、総務省が統計情報のポータルサイトを2つ運営しており、最新の統計についてはかなりの数を見ることができる。 両サイトともサイト内検索が可能で、文字列を使って検索できる。

総務省・統計局

http://www.stat.go.jp/index.htm

国の中枢的な統計機関として、統計局は、国勢調査その他国勢の基本に関する統計調査の企画・実施などを行なっています。総務省管理下の統計を公開しています。サイト内 検索ができます。求める統計に含まれる文字列(の一部)がわかっている場合には、ここで検索する。すでに調べたい統計がわかっている場合はサイトマップ、50音順で見たほうが早い。データがエクセル形式で入手できます。

政府統計の総合窓口(e-Stat)

http://www.e-stat.go.jp/

政府統計に係る各種情報を提供。各府省等の参画のもと、総務省統計局が中心となり開発を行い、独立行政法人統計センターが運用管理を行っております。各省庁が公開して いる統計を網羅的に見ることができます。サイト内検索が可能で、総務省以外の統計データの検索はここで行う。
※「統計データ・ポータルサイト」は平成20年3月31日で運用を終了。

統計情報webサイトの例

総務省 日本統計年鑑

http://www.stat.go.jp/data/nenkan/

日本統計年鑑は、国土、人口、経済、社会、文化などの広範な分野にわたる基本的な統計データを、網羅的かつ体系的に収録した ものです。官公庁や民間調査機関などが実施又は作成している統計調査、業務統計及び加工統計から基本的なデータを選択し、編集しています。「第57回 日本統計年鑑 平成20年」は27の分野、744の統計表及び43の図表からなり、統計の資料源、調査方法などについても解説しています。エクセル形式でデータが入手できます。

PSI年報

http://www.stat.go.jp/data/psi/3.htm

PSI= Pocket Statistical Information。
PSI年報は,日本の人口,経済,社会等の水準及び構造等に関する基本的な統計データをコンパクトに編集した冊子です。掲載数字の収集は,速報など早期公表資料によるため,後に刊行される報告書の数字と異なることがある。エクセル形式でデータが入手できます。

日本の統計

http://www.stat.go.jp/data/nihon/index.htm

日本の統計は,国土,人口,経済,社会,文化などの広範な分野に関して,基本的な統計を選んで手軽に利用しやすい形に編集したものです。2008年版は,26の分野,約500の統計表,約60のグラフから構成されています。エクセル形式でデータが入手できます。

世界の統計

http://www.stat.go.jp/data/sekai/index.htm

「世界の統計」は,世界各国の人口,経済,社会,文化などの実情や世界における日本の位置付けを知るために参考となる様々な統計を,簡潔に編集したものです。(編集:総務省統計研修所,発行:総務省統計局)
収録したデータの中には,概念や定義が国(地域)によって異なるものがあるため,各統計表の解説や脚注を参照の上,利用します。また,原資料の統計数字に付されている解説・脚注のすべてを掲載してはいないため,詳細については原資料をみる。

文部科学省 統計情報

http://www.mext.go.jp/b_menu/toukei/main_b8.htm

文部科学省が調査しているさまざまな統計を公開しています。学校教育や社会教育、生徒指導、教職員の懲戒処分などに関する調査結果を見ることができます。
1.学校教育に関する調査(大学,短期大学,高等専門学校及び専修学校卒業予定者の就職内定状況等調査、大学等におけるイン ターンシップ実施状況調査など)、2.社会教育に関する調査、3.教育費に関する調査(子どもの学習費調査、学生生活調査など )、4.体育・スポーツに関する調査(体力・運動能力調査など)、5.健康教育(保健・給食)に関する調査、6 科学技術に関す る調査(民間企業の研究活動に関する調査、技術予測調査)7.文化に関する調査(宗教統計調査など)、その他の調査結果(国 際研究交流状況調査など)

裁判所 司法統計

http://www.courts.go.jp/

最高裁判所が作成している司法に関する統計で、年報と月報に分かれ、ある月またはある年にどれくらいの訴訟・事件等が起こっ ているかを知ることができます。「その他の統計情報」のページには、これらのデータをグラフ化しています。

民間機関が公開している統計情報

インターネット提供の民間統計集(全国統計協会連合会)

http://www.nafsa.or.jp/home/index08.htm

インターネット提供の民間統計集(全国統計協会連合会)

Economic Data 

http://www.economicdata.co.jp/index.html

株式会社エコノミックデータ提供。経済データを原数値・図表で表示しています。


社会調査

SSJデータアーカイブ(東京大学)

http://ssjda.iss.u-tokyo.ac.jp/

東京大学社会科学研究所附属社会調査・データアーカイブ研究センターSocial Science Japan Data Archive (SSJDA)。 データアーカイブは、統計調査、社会調査の個票データ(個々の調査票の記入内容。マイクロデータ)を収集・保管し、その散逸を防ぐとともに、学術目的での二次的な利用のために提供する機関です。(WEBより引用)

ICPSR

http://www.icpsr.umich.edu/icpsrweb/ICPSR/

The Interuniversity Consortium for Political and Social Research (ICPSR)。ICPSRは、科学の社会的研究50万人以上のファイルの詳細のデータアーカイブを維持する。


調査

調査

サラリーマン小遣い調査(新生フィナンシャル)

http://www.shinseifinancial.co.jp/aboutus/questionnaire/


統計学の正しい活用法

正しい活用法

目的・費用で標本決まる
無作為抽出であっても、母集団からどんなデータ(標本)が集まるのかは偶然決まります。今、標本から平均を計算し、母集団の平均を推測するとしましょう。違う標本からは、当然異なる標本平均が計算できます。標本平均自体にばらつきが出てしまいますが、このばらつきにはとても便利な法則があるのです。
どんな分布の母集団でも、標本の大きさ(数)が十分大きければ、無作為抽出による標本平均の分布は、左右対称の特殊なベル形をした「正規分布」にほぼ当てはまります。平均値は母集団の平均と一致し、データの広がりを示す標準偏差は、母集団の標準偏差を、標本の大きさの平方根で割った値となります(これを「中心極限定理」といいます)。
推測する母集団の本質を探る「推測統計」では、標本平均と母集団の平均がどの程度一致しているのか、知る必要があります。そこで、標本平均の標準偏差を用いて、どんな確率で母集団の平均値からどのぐらい誤差があるか導きます。標本平均の標準偏差は「標準誤差」と呼ばれます。
標準誤差は、分母である標本の大きさが増すほど小さくなります。しかも標本の大きさには平方根がついています。標準誤差を2分の1にするためには4倍、標準誤差を10分の1にするためには、100倍の標本の大きさが必要になるわけです。むやみに誤差を小さくしようとすると、必要な標本の大きさが膨大になり、調査費用が大幅に増えてしまいます。
実際には、平均や比率など目的とする情報によって誤差と標本の大きさの関係は異なります。何をどのくらいの誤差の範囲で知りたいかという調査目的と、かけられる費用で、必要な標本の大きさを決めなければならないのです。
(出典:日本経済新聞WEB、やさしい統計学、正しい活用法(3)、京都大学准教授 後藤励)
確率計算使い仮説検定
あなたは毎日乗るバスの到着が何分くらい遅れたら「いつもとは違う」と判断しますか? 2~3分の遅れはたまたまでしょうが、10分遅れだといつも通りとはいえないかもしれません。こうしたばらつきのある状況に対して、確率計算に基づいて状況判断するのが仮説検定です。
出発点は仮説の設定です。観察された数値や出来事の起こる確率を、仮説が正しいとして計算します。コイン投げの例で考えてみましょう。普通のコインであれば、表が出るか裏が出るかは半々の確率です。一方、そうでないコインにはいろいろあります。ただ、どのように普通でないかを特定しないと確率が計算できませんので、仮説としても検証できません。
今、5回連続で表が出たとしましょう。普通のコインであるという仮説の下では、2分の1の確率が5回続くので2分の1の5乗、つまり3.1%の確率で起きます。
起こる確率が「まれ」なのか、「まれではない」のかを決める境目を「有意水準」と言いますが、5%を目安とすることが多いです。したがって、3.1%はまれなことが起きたので、普通のコインであるという仮説を否定します。統計学では「仮説を棄却する」といいます。
検定で確率を用いて検討する仮説のことを「帰無仮説」といいます。この仮説は棄却(否定)することで、反対の「対立仮説」、つまり「普通のコインではない」を支持することができます。
注意しなければならないのは、帰無仮説が棄却できない場合です。棄却できないといって、積極的に帰無仮説が正しい、すなわち「普通のコインである」と主張はできません。帰無仮説は棄却して初めて意味を持つといえます。
(出典:日本経済新聞WEB、やさしい統計学、正しい活用法(4)、京都大学准教授 後藤励)
追跡して因果関係調査
対策や治療の結果、健康が改善するという因果関係を示すには、どのような分析をすればよいのでしょうか。健康食品の減量への効果を例に考えてみましょう。
ある一時点でのデータの分析を「横断研究(クロスセクション研究)」と言います。横断研究で健康食品の使用者と非使用者の平均体重に差がないという仮説を検定し、棄却(否定)されたとします。健康食品使用者の方が体重が軽いことが分かりました。でも、因果関係は何も結論づけられません。
健康食品を食べたので体重が減ったという可能性もあります。しかし、原因と結果が逆で、痩せている人が食べたくなるような健康食品だったのかもしれません。健康食品が運動する人に人気だとすると、運動すると体重が減るという別の因果関係の影響をみていることも考えられます。
横断研究に対して、同じ対象を追跡し、2つ以上の時点で比較したものが縦断研究です。追跡することで時間の順番がはっきりしますから、少なくとも原因と結果を逆に解釈することはなくなります。
もっとも、健康食品を食べている人だけを集めて、2つの時点の差をみるのでは意味がありません。「対照群」、この場合なら健康食品を食べていない人々と比べないと、本当に健康食品に効果があったのかはわかりません。
過去に起きたことを原因とみなしてしまうことは日常生活ではよくあります。「起きなかったらどうなっただろう」という状況を想像し、比較するのは難しいものです。しかし、多くの因果関係は複雑です。原因の特定には、対象となる事象の影響だけを取り出す工夫が求められます。少なくとも対照群を含めて追跡した縦断研究が必須です。
(出典:日本経済新聞WEB、やさしい統計学、正しい活用法(5)、京都大学准教授 後藤励)
くじで条件決め比較
因果関係を示すために、追跡調査し、分析対象の使用者と非使用者(対照群)のグループを比較する方法を「コホート研究」と言います。
前回の健康食品の減量への効果を取り上げましょう。健康食品を食べるかどうかは、個人的な理由で決まります。使用者と非使用者それぞれのグループの特徴に偏りが出てくる可能性があります。
年齢や性別、健康意識などが異なれば、食生活や運動習慣も違うでしょう。健康食品の効果を見ているのか、体重に影響があるようなほかの生活習慣の影響を見ているのか、区別がつきません。
年齢や性別なら、事前に調べて偏らないように調整することができます。しかし、健康意識のような測りにくい変数を2つのグループで偏らないようにするのは困難です。私たちがまだ気づいていない要素があれば、測ることさえできませんので、調整不可能です。
そこで、検証したい要因以外の影響をすべて取り除くために、健康食品を食べてもらうかどうかをくじで決めれば、健康食品の使用以外のすべての要素は平均すると同じになります。その上で追跡調査を行う方法を「ランダム化比較試験」といいます。
ランダム化比較試験では、治療や健康対策を受ける選択の自由は参加者にはなく、「介入研究」と呼ばれます。一方、コホート研究は「観察研究」ともいいます。得られたデータから因果関係を証明する力(これを「内的妥当性」といいます)は、横断研究→コホート研究→ランダム化比較試験の順で強くなります。
現在では、医療健康分野にかかわらず、教育や公共事業というように幅広く世界中でランダム化比較試験が行われています。
(出典:日本経済新聞WEB、やさしい統計学、正しい活用法(6)、京都大学准教授 後藤励、2013年8月27日)
馬券にも使える「ビッグデータ」、統計学の基礎知識が重要に
競馬の外れ馬券を経費として認めた2013年5月23日の大阪地裁(西田真基裁判長)の判決は大きな話題となった。国税庁では競馬の払戻金を一時所得としていたが、それが雑所得となった点が税務上の関心を呼んだが、筆者が注目したのは、被告の元会社員の馬券購入手法だった。
元会社員の戦績は凄い。2007~09年の3年間では約28億7000万円分の馬券を購入し、払戻金は約30億1000万円。元会社員はJRA-VANやJRDB(電子競馬新聞)が提供する過去10年分の競馬データから、前走着順や血統、騎手、枠順、牡牝、負担重量など約40項目を独自に分析し、回収率の高い馬を選択する計算式を作成。それに基づき、土日の全国のほとんどのレースについて自動的に購入するシステムを開発した。
これは今流行の「ビッグデータ」の統計処理である。ギャンブルは胴元のテラ銭(控除率)があるので、長期的に勝つことは難しい。競馬の場合、25%なので、回収率75%なら上出来であるが、元会社員の回収率は104・9%と驚異的だった。
これをみると、負担重量などのハンデ設定がうまく機能していなかったのは明らかだ。もし元会社員の競馬予想システムが公開されれば、抜本的な見直しを迫られるだろう。もっとも、その競馬予想システムを利用する人が多くなると、勝ち馬オッズが変化し回収率が低下するので、結果的にあまり脅威にならないかもしれないが。
今回の例は、インターネットとPCによって、個人でもビッグデータを使って儲けられる時代になったシンボルだろう。役所は各省で統計データを作成・公表しているが、調査の際の個票データまで公開すれば、思わぬビジネスチャンスになるかもしれない。特に消費関係のそうしたデータはお宝だ。アベノミクスの第3の矢である成長戦略の一つとして、政府統計の個票データを積極的に公開したらビジネスチャンス拡大になるだろう。
ただし、統計分析はキチンとしなければダメだ。7月12日、東北大の研究者が「若年世代は1%の投票棄権でおよそ13万5000円の損」と発表し、話題になった。これは被説明変数(負担)と説明変数(投票率)の両方が別の要因で説明できる「疑似相関」になっている。
具体的に言えば、被説明変数(負担)も説明変数(投票率)もこれまでの「傾向」でかなり説明できてしまう。この見えない「傾向」によって、負担と投票率に相関があるように見えているだけだ。それを除去すると何の相関もなくなり、当然、投票率と負担の因果関係もなくなる。大学研究者レベルではあり得ない初歩的なミスだ。
ビッグデータを分析しようとする人はもちろんであるが、活用してビジネスにしようと思っている人も統計学をキチンとマスターしないと、とんでもないことになる。 
(情報源:ZAKZAK産経新聞WEB、元内閣参事官・嘉悦大教授、高橋洋一、2013年7月21日)

統計科学のための電子図書システム

http://ebsa.ism.ac.jp/

本サイトは, 著者, 出版社等の許可を得た統計科学に関わる書籍を電子化し,公開することを目的としています。統計科学, 中でもその理論に関わる書籍は年月の経過にも関わらず普遍的で有用な知見を有しているものが多くあります. しかしながら, 多くが実際に利用されることなく埋もれてしまっています. また, 過去に出版された優れた教科書等も時代の流れの中で散逸してしまっています. 一方, 近年のインターネット, 情報の電子化の技術の発展により, だれもが簡単に, 情報の電子化, 公開が可能な状況です。そこで本サイトでは, 著作権者等の協力を得, 絶版等で手に入らなくなった統計科学の理論及び応用に関する書籍を電子化し, 広く社会に公開することにより, 統計科学の一層の発展と実社会への普及をはかりたいと考えています。(WEBより引用)

心理統計いろいろ

http://www4.ocn.ne.jp/~murakou/index.html

村山航(むらやまこう)。

日本マーケティング・リサーチ協会

https://www.jmra-net.or.jp/index.php

社団法人日本マーケティング・リサーチ協会(JMRA)は、日本のマーケティングリサーチ/市場調査の代表的な専門機関・会社、マーケティングリサーチ/市場調査ユーザーである企業や団体、学識経験者などで構成されています。

堀啓造

http://www.ec.kagawa-u.ac.jp/~hori/

香川大学経済学部、堀啓造教授(「消費者行動」担当)は、2010年6月12日、ご逝去されました。

青木繁伸

http://aoki2.si.gunma-u.ac.jp/

群馬大学社会情報学部の青木繁伸です。所属は情報行動学科の社会統計学研究室ですが,私の本来の専門は「疫学」です。(WEBより引用)



▲ ページの上へ