:: 7/2012

10 Jahre Forschungsdatenzentrum der Länder

Das Forschungsdatenzentrum (FDZ) der Statistischen Landesämter hat sich während seines Bestehens zu einem zentralen Bestandteil der informationellen Infrastruktur in Deutschland entwickelt. Als Serviceeinrichtung der Statistischen Ämter ist es für die Arbeit von vielen Wissenschaftlerinnen und Wissenschaftlern zu einer unverzichtbaren Institution geworden. In 17 regionalen Standorten kann derzeitig auf Mikrodaten von 107 amtlichen Statistiken zurückgegriffen werden. In einem Gutachten des Rats für Sozial- und Wirtschaftsdaten (RatSWD) aus dem Jahr 2011 heißt es, »dass sich Deutschland dank der Schaffung von Forschungsdatenzentren zum innovativen Vorreiter bei der Bereitstellung amtlicher Daten für die Wissenschaft gewandelt hat und im europäischen Vergleich von den untersten in die obersten Ränge aufgestiegen ist.«1 Ein Blick zurück in die 1990er-Jahre zeigt, dass der Zugang zu Daten der Amtlichen Statistik für Wissenschaftler damals nur unter großem Aufwand gewährleistet werden konnte. Der Weg zur Entstehung des Forschungsdatenzentrums wurde erst durch ein vom Bundesministerium für Bildung und Forschung (BMBF) in Auftrag gegebenes Gutachten der »Kommission zur Verbesserung der informationellen Infrastruktur zwischen Wissenschaft und Statistik« (KVI) im März 2001 geebnet. 2 Es machte auf die Mängel im Zugang der Wissenschaft zu Daten der Amtlichen Statistik aufmerksam und empfahl die Einrichtung von Forschungsdatenzentren bei den Datenproduzenten. Dieser Artikel nimmt das 10-jährige Jubiläum zum Anlass, die Entwicklung des FDZ nachzuzeichnen, das FDZ vorzustellen und einen Ausblick auf zukünftige Herausforderungen zu wagen.

Hintergründe und Entstehung des Forschungsdatenzentrums

Das Bundesstatistikgesetz (BStatG) sah bei seiner Verabschiedung im Jahr 1953 keine Übermittlung von Daten an die Wissenschaft vor. Auch die Nachfrage nach Daten der Amtlichen Statistik war auf Grund der fehlenden technischen Möglichkeiten umfangreiche Mikrodaten 3 zu verarbeiten bis in die 1970er-Jahre sehr gering. Nur für wenige Projekte wurden formal anonymisierte 4 Mikrodaten zur Verfügung gestellt. Mit der Fortentwicklung der Informationstechnik stieg auch die Nachfrage nach Mikrodaten an. Im Jahr 1977 wurden im Bundesdatenschutzgesetz allgemeine Regelungen zur Datenübermittlung verankert. Dies fand auch bei der Novellierung des BStatG im Jahre 1980 Beachtung. Die Statistischen Ämter durften nun nur noch vollständig anonyme Daten in Form von aggregierten Werten oder Tabellen weitergeben. Für wissenschaftliche Zwecke war diese starre Form der Datenweitergabe jedoch nicht ausreichend. Mit einer erneuten Novellierung des BStatG im Jahre 1987 wurde dem in der Bundesrepublik geltenden Recht auf informationelle Selbstbestimmung sowie der Wissenschaftsfreiheit Rechnung getragen. Die Statistischen Ämter von Bund und Ländern durften nun Daten übermitteln, »die eine Deanonymisierung zwar nicht mit Sicherheit ausschließen, aber Betroffenen nur zugeordnet werden können, wenn Datenempfänger einen unverhältnismäßig hohen Aufwand an Zeit, Kosten und Arbeitskraft erbringen müssen.«5 Trotz dieses »Wissenschaftsprivilegs« blieben die Möglichkeiten für die Forscher in der Praxis weiter eingeschränkt. Das Datenangebot war klein und kostenintensiv.

Für Haushalts- und Personenerhebungen (zum Beispiel Mikrozensus, Einkommens- und Verbrauchsstichprobe) konnten Mitte der 1990er-Jahre erste standardisierte, faktisch anonymisierte 6 Datensätze produziert werden. Für Unternehmens- und Betriebsdaten konnte dieser Service, wegen größeren Schwierigkeiten bei der Anonymisierung, nicht verwirklicht werden. Für solche sensiblen Daten forderte die Wissenschaft den Zugang innerhalb der Räumlichkeiten der Datenproduzenten. 1999 gewann diese Diskussion eine neue Dynamik und wurde politisch aufgegriffen. Die Kommission zur Verbesserung der informationellen Infrastruktur zwischen Wissenschaft und Statistik (KVI), die vom BMBF eingesetzt wurde, erarbeitete daraufhin Vorschläge für die Verbesserung der Kooperation zwischen Wissenschaft und Statistik. Ein wesentlicher Vorschlag sah die Einrichtung von Forschungsdatenzentren vor. Entsprechend dieser Empfehlung wurde im Herbst 2001 das FDZ des Bundes und anschließend im April 2002 das FDZ der Länder, als »Pilotprojekt«7 der Statistischen Landesämter, mit 16 regionalen Standorten gegründet. Von Anfang an waren beide FDZ voneinander unabhängige Einrichtungen, die ihre Arbeit jedoch eng untereinander abstimmen. Weiterhin wurde in dem Gutachten darauf hingewiesen, dass die Kommunikation und Kooperation zwischen Wissenschaft und Statistik verbessert werden müsse. In diesem Zusammenhang wurde der RatSWD (siehe i-Punkt »RatSWD – Rat für Sozial- und Wirtschaftsdaten«) gegründet.

Von der Förderung bis zur Etablierung des FDZ

Das FDZ der Länder wurde 2002 als Arbeitsgemeinschaft der Statistischen Landesämter eingerichtet. Ab 2004 wurde es als »Pilotprojekt« in einer ersten Förderphase vom BMBF gefördert. Als wesentliches Ziel der FDZ der Statistischen Ämter des Bundes und der Länder wurde die Verbesserung des Zugangs zu den Mikrodaten der Amtlichen Statistik für wissenschaftliche Vorhaben festgelegt. Mit Hilfe der Fördermittel konnte in der ersten Förderphase die Infrastruktur für ein umfangreiches Dienstleistungs- und Datenangebot geschaffen werden. Das FDZ wurde dezentral organisiert, mit einem regionalen Standort in jedem Statistischen Landesamt sowie zwei regionalen Standorten in wissenschaftlichen Einrichtungen in Berlin (Deutsches Institut für Wirtschaftsforschung) und Dresden (Technische Universität Dresden)(Schaubild). Außerdem wurde im Landesbetrieb Information und Technik Nordrhein-Westfalen eine Geschäftsstelle eingerichtet, welche die Außenvertretung der FDZ übernimmt, die Arbeiten des FDZ koordiniert, verwaltet und dokumentiert. Das breite Netz der FDZ in Deutschland ermöglicht den Wissenschaftlern die Nutzung der Mikrodaten in der Nähe ihres eigenen Arbeitsplatzes (siehe i-Punkt »Regionale und fachliche Zuständigkeit«).

Mit dem Projekt »Anschlussvorhaben zur Verbesserung des Zugangs der Wissenschaft zu amtlichen Mikrodaten« startete das Forschungsdatenzentrum im Jahr 2007 in die zweite Förderphase durch das BMBF. In dieser Förderphase wurden die zuvor erworbenen Kompetenzen des FDZ weiterentwickelt und ausgebaut. Mit dem Ende der zweiten Förderphase im September 2010 musste eine Lösung für die Fortführung der FDZ gefunden werden. In einer Übergangsphase von 3 Monaten wurde es vollständig durch die Statistischen Ämter finanziert. Seit dem Geschäftsjahr 2011 befindet sich das FDZ im dauerhaften Betrieb, der mit der »Verwaltungsvereinbarung über das Forschungsdatenzentrum der Statistischen Ämter der Länder – dauerhafte Etablierung und Finanzierung« durch die Dienstaufsichtsbehörden der Länder beschlossen wurde.

Aufgaben des FDZ heute und in der Zukunft

Die wesentliche Aufgabe des FDZ besteht in der Schnittstellenfunktion zwischen Wissenschaft und Amtlicher Statistik. Das FDZ erleichtert der Wissenschaft den Zugang zu den Mikrodaten der Amtlichen Statistik und steht den Wissenschaftlern beratend zur Seite. Ein verbesserter Datenzugang wird durch die zentralisierte Datenhaltung und unterschiedliche Zugangswege ermöglicht, die ständig weiterentwickelt werden. In den FDZ werden Datendokumentationen erstellt, die der Information über die angebotenen Datensätze dienen. Außerdem wird an der Verbesserung des Analysepotenzials der amtlichen Daten geforscht. Eines der wichtigsten Ziele bei der Weitergabe von Mikrodaten ist und bleibt jedoch die Gewährleistung der statistischen Geheimhaltung.

Zentralisierte Datenhaltung

Um das Ziel der Verbesserung des Zugangs zu Mikrodaten der Amtlichen Statistik zu erreichen, wurden eine fachlich zentralisierte Datenhaltung sowie ein Metadatensystem für ausgewählte Statistiken aufgebaut. In Deutschland werden die meisten Daten dezentral von den Statistischen Landesämtern erhoben, aufbereitet und gespeichert. Wissenschaftliche Analysen konzentrieren sich jedoch in der Regel auf das gesamte Bundesgebiet oder auf mehrere Bundesländer. Bei der zentralisierten Datenhaltung sind deshalb für alle Statistiken im Angebot des FDZ länderübergreifende Datensätze verfügbar. Dabei haben 13 FDZ-Standorte eine fachliche Zuständigkeit übernommen. Baden-Württemberg ist beispielsweise fachlich zuständig für die Umweltstatistiken und die Statistiken des Baugewerbes (Übersicht).

Zusätzlich werden von den Forschungsdatenzentren Metadaten zu den angebotenen Statistiken zur Verfügung gestellt. Die Wissenschaftler erhalten hier Informationen über die Datensätze, die Erhebung sowie die Qualität der Daten. Diese Informationen sind über das Metadatensystem auf der Homepage der FDZ des Bundes und der Länder 8 abrufbar, können zu Beratungszwecken dem Nutzer per E-Mail zur Verfügung gestellt werden und sind Bestandteil einer Datenlieferung. Das Datenangebot des FDZ umfasst jedoch nicht alle Statistiken der Datenproduzenten. Von Beginn an richtete sich das Angebot nach dem Bedarf der potentiellen Nutzer. So wird der Datenbestand des FDZ sukzessive aufgebaut und weiterentwickelt. Zum Ende des Geschäftsjahres 2011 standen im gemeinsamen Datenangebot der FDZ des Bundes und der Länder bereits 107 Statistiken zur Verfügung.

Nutzungswege

Die Datensätze des Forschungsdatenzentrums können über verschiedene Zugangswege genutzt werden. Sie unterscheiden sich hinsichtlich Anonymisierungsgrad der Daten, der Datenbereitstellung sowie der nutzungsberechtigten Personengruppen.

Abhängig vom benötigten Grad der Anonymisierung wird unterschieden zwischen der Off-Site- und der On-Site-Nutzung. Der wesentliche Unterschied zwischen diesen beiden Nutzungswegen besteht im Ort des Datenzugangs. On-Site-Produkte werden in den Räumen der Statistischen Ämter genutzt, wohingegen die Off-Site-Produkte direkt an die Nutzer übermittelt werden.

Für alle interessierten Personen stehen die Public-Use-Files (PUF) zur Off-Site-Nutzung zur Verfügung. Die standardisierten Datensätze sind absolut anonym und können dadurch bedenkenlos an die breite Öffentlichkeit übermittelt werden. Als eine Sonderform der PUF wurden zusätzlich Campus Files entwickelt. Diese sind für universitäre Veranstaltungen konzipiert und können direkt auf der Homepage des FDZ des Bundes und der Länder heruntergeladen werden.

Forscher bevorzugen die Auswertung von Datensätzen am eigenen Arbeitsplatz. 9 Um diesem Wunsch entgegen zu kommen, werden vom FDZ Scientific-Use-Files (SUF) für die Off-Site-Nutzung entwickelt. SUF sind standardisierte Produkte, die auf Grund eines hohen Anonymisierungsgrads der Daten an die Wissenschaftlichen Einrichtungen übermittelt werden können. Mit diesem hohen Grad an Anonymisierung ist jedoch auch stets ein Informationsverlust verbunden. Für manche wissenschaftlichen Auswertungen beinhaltet ein SUF daher nicht die benötigte Informationsmenge. Datensätze mit mehr Informationsgehalt können bei der On-Site-Nutzung ausgewertet werden.

Dies ist möglich, weil die On-Site-Nutzung in den Räumen der Amtlichen Statistik stattfindet und die dort geltenden Sicherheitsbestimmungen höher sind. Mit dem Gastwissenschaftlerarbeitsplatz (GWAP) sowie der Kontrollierten Datenfernverarbeitung (KDFV) werden zwei On-Site-Zugangswege angeboten. Am Gastwissenschaftlerarbeitsplatz (GWAP) wird den Forschern ein Arbeitsplatz zur Verfügung gestellt, an dem die statistischen Analysen durchgeführt werden können. Die für die Auswertungen zur Verfügung gestellten Originaldaten dürfen diesen Arbeitsplatz nicht verlassen. Nach Beendigung ihrer Arbeit erhalten die Forscher ihre vom FDZ auf statistische Geheimhaltung geprüften Ergebnisse. Bei der Kontrollierten Datenfernverarbeitung (KDFV), die ein Fernrechnungsverfahren darstellt, entwickelt der Forscher ein Auswertungsprogramm. Dafür stellt ihm der fachlich zuständige Standort einen Strukturdatensatz zur Verfügung, welcher in Aufbau und Merkmalsausprägungen dem Originalmaterial gleicht. Der fachlich zuständige FDZ-Standort prüft dieses Programm und führt die Auswertung auf dem formal anonymisierten Originaldatensatz aus. Auch hier erhält der Wissenschaftler nur die geprüften Ergebnisse zurück.

Datenintegration

Die Verbesserung des Datenzugangs für die Wissenschaft wurde auch durch die Datenintegration verwirklicht. Bei diesem Verfahren werden Daten unterschiedlicher Statistiken miteinander kombiniert. Die Verknüpfungen können sowohl im Querschnitt 10 als auch im Längsschnitt 11 vorgenommen werden. Die Vorteile einer Integration von Daten liegen darin, dass der Analysegehalt von Mikrodaten deutlich erhöht werden kann, aber auch im Vermeiden von zusätzlichen statistischen Erhebungen. Hierzu hat das FDZ zwei Projekte initiiert. Bei dem Projekt Amtliche Firmendaten für Deutschland (AFiD) wurden Module entwickelt, um die Wirtschafts- und Umweltstatistiken über das Unternehmensregister zu integrieren. Für einzelne Betriebe und Unternehmen können dadurch die Informationen aus verschiedenen Statistiken kombiniert werden. Auch Analysen zeitlicher und wirtschaftsübergreifender Entwicklungen werden erleichtert.

Das Projekt Kombinierte Firmendaten für Deutschland (KombiFiD) ermöglicht es erstmals Erhebungen verschiedener Einrichtungen miteinander zu verknüpfen. Neben Daten der Statistischen Ämter werden hier auch Informationen der Bundesagentur für Arbeit und der Deutschen Bundesbank verwendet. 12

Zukünftige Herausforderungen

Das FDZ muss sich als Dienstleister an den Bedürfnissen seiner Kunden orientieren, aber auch die gegebenen rechtlichen und technischen Möglichkeiten berücksichtigen. Neben der ständigen Weiterentwicklung der FDZ-Datenbestände um neue Erhebungsjahre aber auch neue Statistiken (zum Beispiel Zensus 2011), ist es eine wesentliche Aufgabe, sich an die Veränderungen der Nachfrage anzupassen. Bereits heute besteht eine immer größer werdende Nachfrage nach Geodaten, georeferenzierten Mikrodaten sowie kleinräumigen Analysen, der bislang nicht entsprochen werden kann. Eine weitere Haurausforderung besteht in der Weiterentwicklung und Verbesserung des Datenzugangs. Besonders bei der KDFV soll der Aufwand minimiert werden. Dafür wird derzeit an der Erstellung von syntaktisch und semantisch validen Strukturdatensätzen geforscht. 13 Ein Vorteil dieser Datensätze wird sein, dass die Forscher nicht nur ihre Programme testen können, sondern auch Hinweise darauf erhalten, ob ihre statistischen Modelle zutreffen. Langfristiges Ziel ist es jedoch, den Zugang über einen Remote Access Service (RAS) 14 zu ermöglichen. In einigen Ländern, wie beispielsweise den Niederlanden, wird dies bereits erfolgreich angewandt. Aus datenschutzrechtlichen Gründen ist in Deutschland jedoch vorerst kein Zugang über RAS möglich.

Eine große Herausforderung der FDZ wird weiterhin die Sicherstellung der statistischen Geheimhaltung sein.

Fazit

Das FDZ hat sich innerhalb der letzten 10 Jahre zu einer unverzichtbaren Schnittstelle zwischen Wissenschaft und Amtlicher Statistik etabliert. Noch im Jahr 2001 war dieser komfortable Zugang zu den Mikrodaten der Amtlichen Statistik für Forscher kaum vorstellbar.

Erst durch eine Empfehlung der KVI wurde der Aufbau der Forschungsdatenzentren als »Pilotprojekt« beschlossen. Mit Fördermitteln des BMBF konnte eine leistungsstarke Infrastruktur aufgebaut werden, die ständig weiterentwickelt wird. Das Datenangebot, welches durch verschiedene Zugangsmöglichkeiten genutzt werden kann, wurde der Nachfrage entsprechend sukzessive aufgebaut. Seit 2011 ist das FDZ dauerhaft etabliert und an die Statistischen Ämter angeschlossen. Die wesentliche Aufgabe besteht nun darin, das FDZ zu erhalten und weiterzuentwickeln.

1 RatSWD: Auf Erfolgen aufbauend. Zur Weiterentwicklung der Forschungsinfrastruktur für die Sozial-, Verhaltens- und Wirtschaftswissenschaften. Empfehlungen des Rates für Sozial- und Wirtschaftsdaten (RatSWD), 2011.

2 Zühlke, Sylvia/Zwick, Markus/Scharnhorst, Sebastian: Die Forschungsdatenzentren der Statistischen Ämter des Bundes und der Länder, in: Wirtschaft und Statistik, Band 20/2003, Wiesbaden, 2003, S. 906–911.

3 Mikrodaten sind die Einzeldaten Statistischer Erhebungen.

4 Formal anonymisiert bedeutet, dass in Einzeldaten keine direkten Identifikatoren mehr enthalten sind wie beispielsweise die Adresse der Erhebungseinheit.

5 Siehe Fußnote 2.

6 Gemäß § 16 Abs. 6 BStatG dürfen Einzeldaten an Hochschulen und anderen Einrichtungen der unabhängigen Forschung übermittelt werden, wenn die Einzelangaben nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft zugeordnet werden können.

7 Haug, Sabine/Bartke, Nadine: »Forschungsdatenzentrum (FDZ) der Statistischen Landesämter: Amtliche Mikrodaten für die wissenschaftliche Forschung – Nutzerkonferenzen 2005«, in: »Statistisches Monatsheft Baden-Württemberg 3/2005«

8 Forschungsdatenzentrum

9 Zühlke, Sylvia/Christians, Helga: Datenangebot und Datenzugang im Forschungsdatenzentrum der Statistischen Landesämter, in: Statistische Analysen und Studien NRW, Band 29/2006, S. 3–11.

10 Querschnittverknüpfung bedeutet, dass Datensätze von einem bestimmten Untersuchungszeitpunkt verknüpft werden.

11 Längsschnittverknüpfung bedeutet, dass gleiche Datensätze über mehrere Erhebungszeitpunkte (Zeitreihe) hinweg verknüpft werden.

12 http://fdz.iab.de/de/FDZ_Projects/kombifid.aspx

13 Richter, Alexander: 10 Jahre »Wege zu einer besseren informellen Infrastruktur«, in: Staat und Wirtschaft in Hessen 2/3, 2011 S. 27–35.

14 Unter Remote Access Service wird hier die Möglichkeit für Wissenschaftler verstanden, vom eigenen Arbeitsplatz aus über einen Server Analysen an den Datenbeständen des FDZ durchzuführen.