Risico's
Welke risico's kunnen zich manifesteren bij het gebruik van Big Data?
Correlatie en causaliteit
Als je data aan elkaar koppelt kun je met statistische modellen een correlatie meten tussen diverse factoren. Een sterke correlatie hoeft echter geen causaal verband te betekenen. Een klassiek voorbeeld is de correlatie tussen verdrinkingen en de verkoop van ijsjes. Deze hebben natuurlijk geen invloed op elkaar, echter worden ze beide op dezelfde manier beïnvloed door temperatuur en de mate waarin de zon schijnt, waardoor er correlatie ontstaat. Het gevaar bestaat dus dat op basis van deze gevonden correlaties er verbanden worden gelegd en conclusies getrokken die er niet zijn.
Discriminatie door data
Data-analyseprogramma's worden steeds geavanceerder. Door krachtige algoritmen "leren" de systemen als het ware steeds beter conclusies te trekken op basis van de geanalyseerde data.
Deze conclusies zijn enkel gebaseerd op basis van de verwerkte data, en hier schuilt een risico op discriminatie.
Een voorbeeld is een online modellenwedstrijd in 2016 waarbij een computer op basis van ingestuurde foto's winnaars geselecteerd. Bijna al de winnaars waren blank, terwijl het meerendeel van de ingezonden foto's modellen met een donker of Aziatisch uiterlijk betrof. Het algoritme was echter "getraind" op basis van heel veel foto's van blanken en kon deze daarom beter waarderen.
Dergelijke algoritmen zouden in de toekomst mogelijk kunnen worden toegepast om te voorspellen of jouw profiel past bij de vacature waar je op hebt gereageerd, of om jouw kredietwaardigheid voor het afsluiten van een lening te voorspellen. Het is lastig te bewijzen dat op basis van een algoritme er discriminatie heeft plaatsgevonden. De paradox hiervan is dat juist algoritmen de aangewezen tools zijn om dit aan te kunnen tonen.
Als data in verkeerde handen valt
Het risico van diefstal of ongecontroleerde verspreiding van data wordt steeds serieuzer. Criminelen proberen ook een voordeel te behalen uit data. Ze kunnen proberen (persoonlijke) gegevens te bemachtigen waarmee ze toegang kunnen krijgen tot bankgegevens, kritieke bedrijfsinformatie te verkopen of versleutelen jouw data voor losgeld (denk aan de WannaCry malware in mei van dit jaar). De laatste jaren zijn er diverse voorbeelden geweest van bedrijven die zijn gehackt en waarbij gegevens (bijvoorbeeld creditcardgegevens) online zijn gezet. Naast een beveiligingsprobleem heb je dan ook meteen een privacy probleem.
Privacy van data
De nieuwe privacywetgeving waarborgt de privacy van burgers een stuk beter dan voorheen. Het is niet toegestaan zomaar persoonsgegevens te verzamelen en deze verwerken. Bedrijven kunnen enorme boetes krijgen indien er niet zorgvuldig met persoonlijke gegevens wordt omgegaan. In veel gevallen vinden consumenten het niet erg dat hun persoonlijke data wordt gebruikt als ze er zelf voordeel uit hebben. Bijvoorbeeld in ruil voor (gepersonaliseerde) aanbiedingen of gratis gebruik van een service. Het wel van belang dat dit duidelijk met de consument wordt gecommuniceerd. De meeste consumenten zullen het niet op prijs stellen als hun (persoonlijke) gegevens zonder toestemming worden gedeeld met andere partijen.
Het is dus van belang je gegevens goed te beveiligen en hierbij extra aandacht te hebben voor persoonlijke data. Het is handig om dit niet achteraf, maar in te bakken in de systemen en processen: Data Protection by Design and by Default. Daarnaast is het, ondanks dat slimme algoritmen allerlei voorspellingen kunnen doen belangrijk om uiteindelijk als mens zelf de beslissingen te nemen. Gezond verstand is namelijk (nog) niet te vervangen met een algoritme.