補足説明

統計の二次利用とは

 統計調査から得られたデータを本来の統計の目的、すなわち「当初予定していた統計表を作成すること」以外に利用することを「統計の二次利用」、もしくは「目的外利用」と呼びます。政府統計の二次利用については、これまでの統計法では原則禁止でした。個別の申請により一部利用可能な場合もありましたが、その承認審査は極めて厳正・厳格なもので、研究者にとっては若干敷居の高いものでした。

匿名データとは

 統計調査において配布される記入票のことを調査票といい、それら調査票の回答結果を電子データとして個別に入力したものを個票データといいますが,これら個票データは調査結果の統計分析には欠かせない重要データである一方,調査項目に関する回答は個人属性を示すこととなるので、調査項目が詳細になればなるほど、それら回答結果から回答者個人が特定されてしまうという危険があります。そこで個票データをもとにして、回答者個人が特定されないように、重要属性の一部を識別不能な情報に修正することで、各種統計分析への利用を可能とするような統計データが新たに作成されることとなります。この,秘匿処理が施されたデータが「匿名データ」です。
 提供されるデータは集計数全体から約80%(統計により多少異なる)の抽出率でサンプリングされたリサンプリングデータです。提供データは各申請ごとにリサンプリングされて作成されるので、利用者によってデータの中身は異なります。

匿名データの特徴

 匿名データの作成では、個人の識別情報を階級区分に統合することで、秘匿処理を行うことが一般的です。例えば個票データでは回答者の居住地は都道府県、場合によっては市区町村まで明らかとなっていますが、匿名データではあらたに「地域区分」という属性を設定し、いわゆる3大都市圏(関東・名古屋・関西)に属するか否かで分類するよう変更します。また、回答者の年齢も明らかにならないように「年齢階級」(通常は5歳区分)で表示されます。
 そのほか、特徴的な識別情報レコードを除外するという処理も行われます。例えば、世帯人員が8人以上の世帯や同一年齢の子供が3人以上いる世帯など、個人を特定する要因になりやすい特徴的な属性を持つレコードは、匿名データからは除外されています。

オーダーメード集計とは

 「オーダーメード集計」とは、利用者が既存の統計調査の集計項目の分類一覧から項目を選択し、それらを組み合わせて集計表を設計し提供を依頼する制度です。統計センターは申請に基づき、該当統計の「調査票情報」を利用して統計を作成します。この点が匿名データと大きく異なる点です。

匿名データ、オーダーメード集計利用のメリット 

 統計調査によって得られた個票データについて統計処理が行われ、その結果は「集計表」として公表されるのですが、それら集計表から得られる情報は、集計項目を選定する調査実施主体の判断に依拠することとなります。つまり、集計・公表する側が個票データの調査項目どうしを関連させた集計に意義を見いだせば集計・公表され、そうでなければ集計されないということです。
 そこで、このような「調査票の項目から集計が可能であることは明らかではあるが、調査主体側では集計していない項目」については、匿名データを利用し我々統計利用者側が独自に集計することが求められるのです。
 また,地域データではなく都道府県別や市区町村別データで分析を行いたい場合や、年齢階級ではなく各年齢ごとの集計結果を知りたい場合は、匿名データではなく、オリジナルの個票データの利用が必要となります。ところが、これら個票データの閲覧・利用は、われわれ一般統計利用者には基本的には認められていません。そこで、個票データの閲覧(利用)をせずに、集計項目と結果表の様式だけを指定して統計表の作成を統計センターに依頼することができるオーダーメード集計が求められるのです。