Informasjonscocktails med en klype salt

«Du skal ikke blande piller og alkohol», heter det. Det er i det hele tatt ganske mange, enkeltvis ufarlige, ting her i verden som ikke bør mikses. I legemiddelindustriens traktorspor gjennom samfunnet har fenomenet fått et sexy tilnavn: kjemiske cocktails. I denne posten vil jeg peke ut informasjonssamfunnets parallelle drink, og hvorfor denne trenger et saltlag på drinkglassets kant for å fortjene sin å plass på «den store festen».

Informasjonscocktails, 1 stk

Man tager:

  • to eller flere datasett som lar seg sammenlikne
  • teknologi (programkode)
  • sukker og salt (det klassiske 50/50 forholdet må reguleres ulikt fra aktør til aktør. En journalist og en markedsfører vil normalt ikke benytte samme oppskrift. Journalister og forskere må alltid ha en ekstra klype salt)
  • publikasjonsplattform (normalt sett web)

Avhengig av hva slags data som mikses får vi svært ulike resultater. Noen kan bekjempe korrupsjon og annen kriminalitet, andre kan beruse og hisse opp befolkningen og andre igjen kan brukes til utpressing, identitetstyveri, overvåking og urettmessig tap av ansikt, offentlig anseelse, respekt og moral.

cocktail i tradisjonell forstand. En blanding av ingredienser som utgjør noe større/bedre en summen av hver part.

Cocktail i tradisjonell forstand. En drikk som utgjør noe større en summen av hver ingrediens. Begrepet brukes også i kjemien, demonstrasjoner, datasikkerhet og nå også i informasjonsarbeid?
Bilde med CC-lisens av elanaspantry.

Informasjonscocktails kan også oppstå ved uhell, de «beste» er eksplosive blandinger av tilsynelatende ufarlige ingredienser. Informasjonscocktails er altså kunnskap derivert fra en kombinasjon av harmløse datasett. Da hele grunnlaget for denne typen informasjon er at startpunktet er «trygt» mens resultatet er ukjent, bør «føre var-prinsippet» gjelde når det er snakk om personopplysninger. Dette gjelder særlig fordi de metodiske grepene som er i bruk ikke alltid er enkel å kommunisere, og vil alltid påvirke resultatet. Når det ikke er snakk om personopplysninger klinger «etter snar» minst like godt, en informasjonscocktail som ikke putrer og spraker (særlig hvis hypotesen tilsier at den kunne ha gjort det) bør kunne sees på som en indikasjon på at ingrediensene kommer fra poser med rent mel.

Nå er det nok med råtne ordspill for i dag. Beklager.

Et godt eksempel er maktbasen. De aller fleste som bruke denne tjenesten finner ingenting som er særlig spennende, men i den grad de gjør det (og de kan lette være den første som finner det, journalistene og programmereren har ikke gått gjennom alle mulige kombinasjoner i dette systemet) kan det potensielt begynne å putre og sprake. Alle liker jo en god gammeldags inhabilitetsskandale.
Å designe et system som dette har jeg for meg selv betegnet som «design for serendipity«. Intensjonen er ikke nødvendigvis å avdekke ulumske forhold, men i like stor grad å bekrefte at slikt ikke foregår. Magien ligger i potensialet. I så måte kan vi snakke om en «potensiell journalistikk» eller «potensiell skandale» ala det fysikerne kaller potensiell energi. Dessverre for journalistikken leser vi sjeldent overskrifter ale «alt i orden i kommunestyret» eller «null hull i samfunnets sikkerhetsnett», bare tenkt hvor mye energi det tar å få dokumentert noe slik på en troverdig måte.

Georg Apenes blogget i dag om at motviljen til å slette persondata rundt om øker. På tross av at «kontrakten» de er innsamlet med hjemmel i er utgått. «Kjekt å ha» er kjenningsmelodien på flere og flere serverrom.

Dette står i sterk, men viktig kontrast til prosjektet med å åpne opp offentlig data. La det ikke være noen tvil: persondata ER sensitiv data og skal behandles deretter. Det bør være et mål for alle å lagre så lite persondata som over hode mulig til alle tider. Dette er også lovregulert, og denne typen lovgivning er, skal og bør være streng. Informasjonscocktails som genererer sensitiv informasjon om enkeltpersoner er en av framtidens, og nåtidens, fallgruver for informasjonsarbeidere i alle bransjer.

Informasjonscocktails er altså et mulig resultat av et mer gjennomsiktig samfunn og styre. Men det er ikke bare et problem. Det er hovedsaklig en god ting, men det er viktig å ta aggregert og derivert kunnskap med en klype salt, og gå skikkelig etter i sømmene. For å stjele Apenes eksempel:

selvfølgelig har man hørt om mannen som druknet i elven som var gjennomsnittlig 40 cm dyp

Åpenhet og tillit fordrer vilje til å ikke missforstå med overlegg.

PS: som vanlig inneholder denne blogposten en hel del uferdig tankemateriale, ting jeg grubler litt på og ønsker å formulere til setninger av egen interesse. Jeg sitter med en følelse av at denne posten inneholder flere momenter enn vanlig som ikke er helt i vater, jeg må bare få det ut før tankene stjeler for mye tid.

Data til folket!

Tim Berners Lee setter fokus på murveggene vi bygger mellom datakilder. Dette snakker han om i sin TED-talk fra i år. Dette er et problemområde som vi aldri kommer til å løse helt, for det er ikke gitt at 100% åpne sluser er bra i alle tilfeller, men det er et område som kommer til å påvirke vår hverdag de neste tiårene.

Det er alltid en som har sakt noe bedre før deg. I dette tilfellet setter jeg en knapp på min favoritt-talk: Hans Rosling som mythbuster. – Alle tingene vi feilaktig tror om den tredje verdens gjøren og laden.

Hans Rosling burde få en pris for verdens mest inspirerende foredragsholder.

Slipp dataen fri!

Interopabilitet for ikke-nerder

En forutsetning for “link-data” som Lee kaller det, eller å knytte sammen ulike datakilder er at dataen kan utveksles på en måte slik at de samme tingene betyr det samme over alt.
Interopabilitet er evnen til å knytte sammen data på tvers av informasjonssystem eller del-system.

Støvsugerposer

En gang i blant går vi tom for støvsugerposer der jeg bor. Vi bor fire gutter i et kollektiv. Fire gutter mitt i tjueårene er ikke spesielt godt tilpasset innkjøp av støvsugerposer. Hvordan vet men hvilken type pose som passer? – Det kom som en liten overraskelse at det var flere typer poser. Det er mange. Alle som ikke passer er helt ubrukelige for vår støvsuger. Dette er interopabilitet. Eller, manglende interopabilitet. Inkompatibilitet. De passer ikke sammen.

Vi endte opp med en super-støvsugerpose fra biltema som hadde utbyttbare ende-stykker, slik at posen alltid passet. Det er endestykket som er problemet. Pose er pose. Og data er data.

Det er måten vi lagrer og utveksler data på som er problemet. Og en forutsetning for å utveksle data er å ikke låse den ned i kjelleren.

Mashups

I dataverden skulle vi gjerne knytte sammen mange ting hele tiden. Med 2.0 dukket det opp et begrep som ble veldig populært: mashups. Websider og webapplikasjoner som kombiner data fra ulike kilder til nye produkter.
En direkte årsak til at dette ble populært er at viktige data-kilde-leverendører, som google & flickr laget APIer (grensesnitt programmerer kan kommunisere med) og store websider som leverer en forutsigbar og godt strukturert arkitektur med godt innhold (youtube, wikipedia, del.icio.us, …).

Som kunnskapsfenomen er kombinering og rekombinering av data i digital form et enormt spennende og utfordrende område. De fleste av oss er ikke geniale, men med de riktige verktøyene kan vi blande oss en miks av informasjon som muligens kan være viktig, uten at vi ante det før vi begynte.

La oss ivrige uvitende oppleve Serendipity, effekten av å oppdage noe fordelaktig ved et uhell.

Dette kan være en positiv egenskap av fri og åpen data fra viktige databaser. Hva de virkelig store nålevende tenkerne og forskerne kan få til, kan vi bare drømme om.

Kjemiske drinker og informasjonsbomber

I en verden der vi har et legemiddel for alle mulige små plager, har vi skapt oss et nytt problem: chemical cocktails. – Når et legemiddel godkjennes for markedet testes det for bivirkninger og uønskede effekter. Detter jo bra, men under denne testingen er det umulig å ta alle andre legemidler med i betraktningen. Pille 1 og pille 2 er hver for seg trygge og nyttige, men om en pasient tar dem begge samtidig, så kan det dukke opp virkninger som ingen hadde forutsett.

Hva skjer når vi dette automatiseres med digital informasjon over nettet?

Informasjonssamfunnet vårt er fortsatt ungt. Våre besteforeldre var ofte ikke ute av moderlandet, og webben er 5 år yngre enn årets kommende masterkandidater. Vi har bare sett toppen av isfjellet.

Jeg vet ikke om noen har brukt ordet før, men det er på tide å ta det i bruk: informasjonskokatails. Effekten av kombinering av data som ikke var skapt og intendert for å kombineres. Vi har reelle eksempler på bruk: NRK kombinerte data om fredede hus der det ble søkt om rivning, og husbranner i fredede hus i Oslo sentrum. Skattelistene kombineres stadig med annen data, dog sjeldent med samfunnsnyttige resultater (min oppfatning).

Begge eksemplene er her fra media, som innlysende nok vil kunne gjøre virkelig god gravende journalistikk på denne måten. Andre bransjer vil selvsagt også kunne benytte seg av denne typen kombinasjons-data til analyser. Kunnskap er en handelsvare og dette vil kunne gi både individ, bedrift, organisasjon og stat viktige nye perspektiver. På godt og vondt. Det er ikke alle som ønsker en gjennomsiktighet og åpenhet.

Ny kunnskap kommer ofte ved å kombinere gammel kunnskap, for så å prøve dette ut i virkeligheten. Jeg ønsker meg en framtid der så mye som mulig data er fri og åpen slik at vi kan bruke mer tid på å løse nye problemer.

I en ideell verden ville kanskje staten gå foran med et godt eksempel, men vi må nok vente enda en stund før dette penetrerer veggene i Karl Johans gate 22.