Small Data Projekte sind vor allem Projekte, die sich nicht auf eine Menge Daten verlassen können, um Muster zu extrahieren oder präzise Modelle zu bauen. Es gibt keine einheitliche Definition davon, was ein Small-Data Projekt und was ein Big-Data Projekt ausmacht. Wenn allerdings eine hohe Übereinstimmung mit den folgenden Punkten gegeben ist, handelt es sich höchstwahrscheinlich um ein Small-Data Projekt.
Die Daten:
- weisen ein Datenvolumen auf, das nicht größer als 50 GB ist
- liegen in einem Dateiformat wie JSON, CSV, Excel oder RDF vor
- wurden von Hand oder teilautomatisiert erzeugt
- sind entscheidungsrelevant für kritische Bereiche
Häufig zeichnen sich Small-Data Projekte durch ein erhöhtes Maß an Unsicherheit oder Entscheidungsrelevanz aus. Ein banales Beispiel: Ein junges Unternehmen hat den Durchbruch geschafft und endlich ein funktionierendes Hover-Board entwickelt. Erste Marketing-Aktivitäten zeigen, dass 25 von 100 befragten Personen das Board sofort kaufen würden. Bezieht man das auf die deutsche Bevölkerung in einem Alter zwischen 14 und 40 Jahren (24,94 Millionen Menschen) wären das 6,24 Millionen Hover-Boards, die verkauft werden. Aber stimmt das? Was ist, wenn manche sich zwei Hover-Boards kaufen? Was wenn es jemand doch nicht tut? Ist unsere Datenlage groß genug, um eine solche Aussage zuverlässig zu treffen? Für ein Unternehmen kann so eine Planung finanziell außerordentlich kritisch sein und hohen Einfluss auf Erfolg oder Misserfolg nehmen.
Damit sind alle für ein Small-Data Projekt relevanten Kriterien erfüllt:
- kleines Datenvolumen
- einfacher Datenzugang (in diesem Fall wahrscheinlich Excel)
- die Daten wurden per Hand erhoben
- die Auswertung und Entscheidung auf Grundlage der Daten hat direkten Einfluss auf den kritischen Geschäftserfolg