Der findes i dag et hav af apps, med indbyggede genkendelsesværktøjer der kan bruges til at genkende mennesker, planter, dyr etc. Computeren er altså i stand til at aflæse nogle simple karakteristika ud fra billeder, for derefter at fortælle os hvad den ‘ser’. Dog i et meget begrænset omfang.

Tager man derimod et kig på film verden er genkendelsesteknologien blevet hyppigt benyttet og ofte har sci-fi fantasien fået frit spil. I The Dark Knight er der tale om en sonar teknologi kombineret med samtlige telefoner i Gotham, der derved kan genskabe 3d billeder af omverdenen i et live stream – så Batman for alvor lever op til sit navn! Denne form for teknologi er vidt rækkende og fungerer rigtig godt  i live billeder, hvor kommunikationen sker direkte fra computeren til mennesket, lidt som vi ser det i dag med droner og satellitter indenfor militæret. En ekstrem overvågning via billeder og video, der dog kræver og kun fungerer med menneskets respons.

Men hvordan får man computeren til selv at forstå hvad den ser, så den kan hjælpe med at tage beslutninger og give feedback? Ikke kun ud fra ord og tekster, men også ud fra billeder og videoer.

Med Snowdens afsløringer kom det for alvor frem, at det ikke kun er forbryderne der overvåges, men at det er alle menneskers adfærd og fodspor der kommer i gennem maskinen. Lidt som i Minority Report, hvor oraklerne forudser en forbrydelse, kan nutidens BIG DATA, også bruges til at forudse forbrydelser, i hvert fald i følge dem der overvåger. Men begrænsningen i dag ligger i at overskue denne enorme mængde data der er tilgængelig og desuden kan denne form for overvågningsteknologi i dag primært bruges vha. tekst og lyd.

Men hvad nu hvis computeren kan se og genkende flere objekter i for eksempel en video og på billeder?

En sådan funktion, muliggør en ekstrem overvågning, men jeg tror ikke det er det, der har motiveret forskerne bag Visual Dictionary. De har skabt grobunden for en visuel interaktiv ordbog på baggrund af 53.464 ord fra wordnet, der kombineret med 7.527.697 billeder fra Google har tegnet mosaikken nedenfor. I gennemsnit 140 billeder pr. mosaik.

billedersomfarve

Hver mosaik viser den gennemsnitlige farve af de 140 billeder der dukker op ved at søge på ordet. Og computeren kan derved genkende dette billede som værende ordet: ‘ bull shark’. Se billeder nedenfor. Tanken er, at du som bruger kan interagere med sitet og fortælle computeren, om de billeder de viser i henhold til det pågældende ord, stemmer overens. Du kan trykke godkend, fejl eller ved ikke. Det er ved hjælp af mennesket at computeren udvider sin viden.

læreatse

Det er uoverskueligt at tænke på, hvor meget data der skal i gennem computeren for, at dette kan lade sig gøre, og samtidig vanvittigt imponerende. Hvis(når) denne teknologi kommer til at fungere ordenligt er der pludselig tale om at computeren kan genkende alle objekter, bygninger, mennesker, planter, dyr, mikroskopiske celler etc. så længe der ligger tilstrækkeligt meget information om billederne og de er ‘tagget’ med den korrekte tekst. Der er selvfølgelig et væld af fejlkilder, men det er vel blot et spørgsmål om tid. Og kombineres denne teknologi med kameraer af en hver salgs, video, termiske-, infrarød-, røntgenkameraer etc., så kan denne supercomputer blive et levende opslagsværk på farten – Augmented reality version 2.

Så er det vidst kun fantasien, og lovgivningen ikke mindst, der sætter grænserne for, hvordan vi skal bruge sådan et værktøj. Et hverdags eksempel kunne være at tage et billede af sig selv og kombinere det med et andet billede af Empire State Building og dernæst bede computeren om at finde alle billeder og videosekvenser af en selv+ESB på computeren. Også selvom man ikke lige fik tagget eller navngivet billedet i sin tid, så det endte med at hedde ‘DC090375-9432(3).jpg

Men hvad er menneskets rettigheder i et sådan cirkus? Hvordan sikrer vi at det ikke bruges forkert?

Det er selvfølgelig et kæmpe etisk spørgsmål, men svaret må findes via lovgivning, afprøvning og diskussioner.

Netop derfor vil jeg også slutte af med meget inspirerende og lærerig TED foredrag af Glenn Greenwald (En af de tre journalister der hjalp Snowden):