Synets beregnende natur

Claus Emmeche


Artiklen er oprindelig udgivet i: Iben Dalgaard, Pernille Kleinert & Lotte Stuhr, red.: Øje for Øje - en antologi om synet. (s. 44-77). Det Kongelige Danske Kunstakademi, København, 1994.

Det indre scenarium

Synet, og det at se, er noget vi næsten alle har en umiddelbar erfaring af. Det er sjældent vi tænker over i hvor høj grad denne gave, vores adgang til en vidunderlig rigdom af sansninger og farveoplevelser, har en række komplicerede forudsætninger. De er indstøbt i vores egen biologiske maskine, i form af et højt udviklet sanse- og fortolkningsapparatur af fysisk, biologisk og beregningsmæssig art, som vi benytter ganske ubevidst, og som spiller en afgørende rolle for synets almindelige funktion.

Hvad er det at se? Tjaeh, det er jo bl.a. at "se sig for", så man ikke falder over dørtrin eller støder ind i folk der tager anstød af den slags klodsethed. Sagt mere generelt, og ifølge en lang empiristisk tradition i filosofien, er dette "at se" det samme som at samle sanseerfaringer (empiri) op fra omgivelserne, knytte dem samme på passende vis, og evt. bruge disse indtryk som basis for videre handling. Empiristerne - tænkere som John Locke, David Hume og John Stuart Mill - mente, at al erkendelse i sidste ende måtte stamme fra sanseatomer fra synet, hørelsen, lugte-, føle- og smagssanserne. Sanseindtrykkene sammenknyttedes i hjernen, sædet for tænkningen, til et netværk af generelle begreber, svarende til en viden om verden. Nogle filosoffer ville tilmed på skeptisk maner afvise, at denne viden sagde noget om verden som den "virkelig" var, da vi aldrig kan komme bag om sanseindtrykkene, og da sanseapparaturet muligvis forvrænger informationen på dens vej fra synsindtryk til billeder oplevet af det indre blik. I modsætning til empiristerne mente rationalistiske filosoffer som René Descartes, Baruch de Spinoza og Gottfried Wilhelm Leibniz, at erkendelse ikke bare handlede om at opsamle erfaring fra omgivelserne i form af sanseatomer, men at viden og indsigt[1] derimod måtte bero på medfødte strukturer i intellektet, en "ratio", som alle individer var udstyret med fra skaberens hånd, og som var selve betingelsen for, at de mere eller mindre tilfældige sanseatomer vi modtager, kan få en meningsfuld fortolkning.
       Modsætningen mellem empirisme og rationalisme kunne, trods Kants beundringsværdige forsøg på en teoretisk formidling, ikke afgøres rent apriori. Udviklingen af naturvidenskaberne og den eksperimentelle psykologi har afsløret den filosofiske traditions historisk betingede forenkling i selve afgrænsningen og formuleringen af erkendelsens problem. Man har opdaget kompleksiteten af de mekanismer der indgår, når et dyr eller menneske bruger fysiske påvirkninger, lys, varme, tryk og molekyler, der støder mod sansecellerne på grænslaget mellem organisme og miljø, til at orientere sig i sin omverden med, uanset om det involverer bevidst tænkning eller ubevidst behandling af information, af nogen kaldet tavs, proceduremæssig viden.
       Det har ført visse forskere - ikke blot naturvidenskabsfolk, men også personer med en vis filosofisk baggrund, som i mistrøstighed over filosofiens tilstand begejstres over neurobiologiens og kognitionsforskningens arbejde på at forstå aspekter af sansning, viden og kontrol - til at tro, at ethvert aspekt ved erkendelsens problem er af videnskabelig natur, og kan løses som sådan, og at filosofisk refleksion over erkendelsesproblemet alene har kulturhistorisk interesse. Heroverfor er der en pointe i at fremhæve, at det i dag rent faktisk er et åbent spørgsmål, om ikke netop synet, vor mest excellente sans, for at blive forstået fuldt ud, kræver humanvidenskabelige tilgange ved siden af en synets `mekanik', en øjets biologi og en synsoplevelsens beregningsteori. Videnskaben om synet må være genuint tværfaglig. I den udstrækning synet hos Homo sapiens er en kulturbestemt proces, må en synets eller blikkets psykologi inddrage kulturvidenskaber som socialantropologi, mentalitetshistorie, fænomenologi, kultursemiotik m.v. Netop fordi synsindtryk, dannelse af forestillinger, opfattelse af billeder og iagttagelse af andre mennesker kan være indbyrdes tæt forbundne - tænk på blikket fra en syg tigger - vil forsøg på at give udtømmende beskrivelser af synets mekanismer med et rent naturvidenskabeligt begrebsapparat efterlade en række af synets subjektive sider uforklaret.
       Vi ser som regel noget som noget bestemt, dvs. vi retter blikket mod noget, og vi ser noget med en bestemt betydning, og denne intentionelle side af synet var nok umulig, hvis vi blot var sansende synsmaskiner - robotter, seeende zombier. Her kan bevidsthedsfilosofien, som det skal antydes til sidst, bidrage til forståelsen af synets intentionalitet. Vi ser lyset som noget, vi ser en verden af ting, vi ser efter noget. Blikket er bevidsthedens møde med verden. Og vi forestiller os også mulige verdener, en slags indre scenarier med os selv som aktører, for at afprøve handlemuligheder i fantasien. Vi kan altså ikke bare "se os for". Vi kan også "se det for os".
       Forskning i robotter og såkaldte autonome systemer omfatter forsøg på at bygge maskiner, der kan "se sig for", eksempelvis omkringvandrene støvsugere til at rydde op efter os. Disse maskiner er endnu ret dumme, de har ikke så mange bits at flytte rundt med, og vi måske først kan få glæde af dem den dag de virkelig kan "se det for sig". At lære maskiner det, er til gengæld en opgave af dimensioner. Ingen ved endnu helt præcist hvad det vil sige at løse denne opgave. Men det udgør et andet af de motiver, der ligger bag moderne synsforskning.[2]

Visioner i synsforskningen

I forsøget på at forstå det menneskelige syns natur må tre ret forskellige videnskaber mødes, nemlig videnskaberne om stoffet, om livet og om det psykiske. Fysikken beskriver lysets natur, og lys er en forudsætning for at kunne se - vi må forstå overfladers tilbagekastning af lys, lysets og farvernes sammensætning, kontrastfænomener osv., og det nødvendiggør en fysisk[3] forståelse. Biologien er nødvendig fordi det væsen som ser, er en organisme (eller evt. en maskine bygget efter samme principper som en organisme) med et særligt sanseorgan, øjet, som på en måde er en del af hjernen, hvis funktionsmåde neurobiologien kæmper med at forstå i alle detaljer. Synet er en sans, og biologien beskriver sansernes evolution, fra de mest primitive til de mest komplekse organismer. Selv visse encellede organismer har en primitiv form for sansning af fx forskelle på koncentrationen af et næringsstof på forskellige sider af cellen, og flagellaten Euglena har en lysfølsom `øjeplet' ved roden af sin svingtråd. Psykologien er væsentlig, fordi det at se involverer processer, som ikke blot er biologiske, men netop psykiske: Opfattelse, genkendelse, hukommelse, erfaring og forståelse er psykiske processer i den forstand, at de er altafgørende for psyken og har såvel en objektiv som en subjektiv side, hvor det subjektive netop er det, som erfares indefra[4], sanseligt og bevidsthedsmæssigt. Nogle typer psykiske processer deler vi med andre dyr (fx må alle pattedyr som kan se, antages at have en indre oplevelse af synsfeltets indhold), mens andre dele af vores visuelle psyke er specifik for primater eller endog mennesker.
       Synsforskning udgør i dag et mangfoldigt område med vidt forskellige forskningsfelter. En af visionerne er at forstå det indre scenarium som dannelse af en række repræsentationer af omverdenen på basis af de informationer, øjet modtager fra omgivelserne, og en forståelse af hjernens særlige strukturering af dette materiale som en art behandling eller "processering" af information.[5] Mange neurobiologer ville sikkert give deres højre arm (eller øje) for at få den endelige sande teori om hjernens præcise måde at behandle sammensatte synsindtryk på. Det er ikke så sært, for når man tænker over forholdet mellem hjernemasse og forestillingsbilleder, er det lidt af en gåde. Tænk på det væld af erindringsbilleder, som på en eller anden måde rummes i vores halvandet kilo fedt mellem ørene; de mere end 100 milliarder nerveceller, som har et endnu mere gigantisk antal synaptiske forbindelser[6]. Forskningen i kunstige neurale netværk de sidste 10 år har ganske vist bragt os tættere på en sådan forståelse, især m.h.t. hvordan information kan indlæres og oplagres på distribueret vis, men det er ofte svært at forbinde modellerne, som er simple hvad angår de enkelte "neuroner" eller beregningsenheder i de kunstige netværk, med konkret viden om hjernecellernes biologi.
       Vi skal her begrænse os til en lille parcel af studiet af synet som naturfænomen, nemlig det visuelle systems mekanik og informationsbehandling, mens hele spørgsmålet om øjets og hjernens evolutionære biologi og embryologiske formdannelsesproces forbigås, ligesom de neurofysiologiske detaljer. Lader vi nu som om vi ved, hvordan hjernens hardware fungerer på enkelt-nerve niveau, kan vi spørge mere abstrakt: Hvordan "ser" hjernen? Eller med andre ord, hvordan kan et system, der kan transmittere information udefra (eller i al fald overføre signaler, som i sig selv er ret meningsløse) og processere disse signaler, percipere sin omverden? Den type spørgsmål, der gælder det funktionelle niveau - "hvad kan det og hvordan?" snarere end det biofysiske niveaus "hvad består det af?" -- er almindelige at stille indenfor forskningen i Kunstig Intelligens, hvor man ønsker at lære informationsbehandlende maskiner at tænke, løse problemer, og sågar at "se" i betydningen genkende mønstre, fx skelne skruer fra møtrikker.
       Kunstig Intelligens er en disciplin, der selv har rødder i tre områder på grænsen mellem matematik, natur- og ingeniørvidenskab: den matematiske informationsteori (udviklet af ingeniøren Claude E. Shannon i 1940'erne); kybernetikken (videnskaben om styring og kontrol i dyr og maskiner, igangsat af matematikeren Norbert Wiener og kendt for begrebet feed-back regulering); og udviklingen af den digitale computer, som forudsatte teorier om beregning som regelsat manipulation med symboler, og en skelnen mellem maskinens hardware (de blivende strukturer i computeren) og software (instruktioner organiseret i programmer, som kontrollerer operationerne i hardware). Etableringen af Kunstig Intelligens som forskningsprogram i 1950'erne betød, at man kunne forestille sig symbolsk formulerede teorier om menneskets kognitive evner som tænkning og problemløsning koplet til en forståelse af synet som en informationsbaseret proces (med evner til at uddrage mønstre, klassificere genstande på basis af ufuldstændig information m.v.).[7] Disse teorier skulle være computationelle: have form af en kalkyle eller et sæt beregningsprocedurer, som kan udføres algoritmisk, altså v.h.a. programmer på en regnemaskine. Man ønskede at implementere sådanne teorier i datamater, og dermed duplikere "intelligens" eller kognition maskinelt. Disse teoretiske ideer fik stor indflydelse på bl.a. psykologien, som blev "kognitiv" og benyttede metaforer hentet fra forestillingen om tænkende maskiner, så begreber som informationslager, database, informationsprocessering, genkaldelse og søgning blev anvendt om psykiske processer.[8] Kunstig Intelligens påvirkede samtidig måden at stille spørgsmål på indenfor udforskningen af synsprocesser hos dyr og mennesker. Man håbede, at selvom man stod på bar bund m.h.t. vigtige dele af det biologiske hardware's funktioner (man manglede fx tilfredsstillende teorier om hukommelsens neurofysiologi), så ville man alligevel kunne stille og besvare afgørende spørgsmål om komplekse systemers generelle brug af information fra sensorer til produktion af adaptiv, hensigtsmæssig adfærd.
       Vi skal se et klassisk eksempel, englænderen David Marr'ss teori om dybdesyn fra 1970'erne. Selvom Marrs teoretiske tilgang har rod i Kunstig Intelligens, var han samtidig kritisk over for dele af KI-paradigmet, og hans forskning tog desuden afsæt i en række tidligere empiriske undersøgelser af syn hos højere dyr; ofte katte og aber anvendtes som forsøgsdyr. Lad os først se lidt på et par af disse undersøgelser.

Betydelige forløbere

I 1981 blev David H. Hubel og Torsten Wiesel tildelt en nobelpris for deres langvarige (ca. 1958-78) arbejde, hvor det bl.a. var lykkedes dem på katte at måle responset i enkelte celler i den visuelle del af hjernebarken (bagerst i hovedet) på lyspåvirkninger af øjets nethinde (retina) - eksperimenter forbundet med uhyre tekniske vanskeligheder. Kattens visuelle cortex (hjernebark) viste sig at indeholde celler, der "svarede" forskelligt på nethinde-billeder[9] af linier og kanter i objektet alt efter orienteringen af disse stimuli, deres størrelse og kontrasten. Ideen om "feature-" eller "træk"-detektorer i øjnene var allerede kendt i 60'erne (fra undersøgelser af frøers "insekt-detektorer" i retina), men Hubel og Wiesel viste for første gang, at de enkelte celler i den visuelle cortes hos højere dyr har høj mønster-selektivitet, således at i al fald nogle celler svarer meget specifikt på særlige mønstre (fx nogen celler på horisontale kanter, andre på vertikale, og blot en stimulus-ændring i hældningsvinkel af kanten på 10deg. ændrer responset kraftigt; andre celler svarer på lyspletter, andre igen på bevægelser i særlige retninger, etc.). Det mere end antydede, at hjernens synsfortolkning analyserer det totale visuelle input til særlige komponenter, og at analysator-mekanismerne er "strikket ind i" nervesystemets struktur, og altså medfødte.[10]
       En anden opdagelse i tresserne nærede ideen om hjernens opbygning i moduler. Med visse mellemrum nyder de såkaldte "random dot stereograms" stor popularitet. Det er billeder, der tilsyneladende består af tilfældige prikker, men hvis man ser "igennem dem" (eller ser dem gennem et s.k. stereoskop), kan man, hvis man er heldig, se genstande i tre dimensioner, fx en tallerken eller krukke svævende over baggrunden; en stærk dybdeeffekt. Dybdevirkningen opstår, fordi højre og venstre side af billedet er identiske bortset fra en lille forskydning, som gør forskellen. Det svarer til hvad der normalt udløser det, man kalder stereopsis: Forskellen på billedet af en genstand set med venstre og højre øje, som netop giver dybdevirkningen (sammenlign en finger set 20 cm. fra næsen med hhs. højre og venstre øje lukket). Det særlige ved de random-dot stereogrammer, som Bela Julesz (1960) oprindelig skabte, og som var hans egentlige opdagelse, er, at billedet i disse ser helt tilfældigt ud, det synes ikke indeholde nogen information om mønster (krukke el. lign.). Det er altså et bevis på, at det visuelle system kan uddrage information om dybde, helt automatisk og før nogen mønster- eller objekt-genkendelse er til stede. David Marr så det som støtte for sin teori om, at perceptionsprocessen er opdelt i moduler med hver sin opgave, så mønstergenkendelse og stereosyn sker i hver sit modul.

Fig. 1. ET RANDOM DOT STEREOGRAM.
(a): "Here are suggestions for viewing the attached stereogram. Make sure your window is large enough to show the entire stereogram. Enter the stereogram at the lower right, using the two black bars to fuse the image at the intended alias level. (On a BW screen they are white.)
    Now let your eyes drift slowly upward, and you should see a flight of stairs going up and to the left. Below the stairs you will see a single bar like a piano key, and if you let your eyes drift up and around the stairs (don't climb them yet) you will see a pair of piano keys.
    Go back to the fusion bars, then go left, past the single piano key to the left edge of the picture. Now the stairs appear to be coming up from below. Now slowly walk your eyes down the stairs, waiting on each tread until the image is well fused. When you get to the lower level, check out the piano keys. You will now see two below and four (!) above.
    Go back up the stairs, or drop out of the image and come in again at the fusion bars. Now walk up the stairs. When you get to the top you will now see a cliff on your left. Walk over to the top and you will see a single piano key, and another cliff.
    Try to figure out how to get 3, 5, 6, or 8 piano keys. Have fun." [figurtekst fundet på internettet (her) til denne webversion af artiklen, se billedet ovenfor].

(b): [tekst til original version, som anvendte et andet stereogram: nedenfor *]


       En tredje inspirationskilde var nogle adaptations-studier af det "det tidlige" visuelle systems respons på ændringer af den rumlige hyppighed af stregerne i nogle gitter-lignende mønstre. Det tidlige visuelle system betegner informationsbehandlingen før mønstergengendelse, klassifikation og højere kognitivt relaterede processer i synet er involveret. Uden at gå i tekniske detaljer med disse undersøgelser[11] kan man danne sig en umiddelbar fornemmelse af en af de undersøgte effekter ved at betragte figur 2. Man fandt bl.a. ud af, at hvis en iagttager stirrede en tid på et gitter (karakteriseret ved en bestemt rumlig frekvens) vil følsomheden overfor dette gitter midlertidigt nedsættes, mens sensitiviteten overfor andre gitre med andre rumlige frekvenser forblev uændret. Hos katte fandt man celler i det visuelle cortex, som syntes at være sensitive for bestemte rumlige frekvenser; og man begyndte at anskue sanseskarpheden af hvirveldyrs visuelle system som en række "tunede kanaler", som systemet kan stille ind på. Ideen om rumlige frekvenser førte til brug af af en nye, effektive analyseteknikker (især Fourrier analyse).

Figur 2. Blakemore Sutton efter-effekten. Fikser blikket på venstre prik i ca. et minut, og se så på den højre prik. Gitteret øverst til højre vil så forekomme mere tæt pakket end det identiske gitter nederst til højre. (Efter Blakemore & Sutton 1969).


       Endelig må fremkomsten af Lands teori om farveperception nævnes. Edwin H. Land søgte at finde ud af hvordan vores syn fastholder oplevelsen af samme farve: Hvis man analyserer det lys øjet modtager fra et objekt, fx et modent æble, vil man finde, at det ændrer sig drastisk i sammensætning afhængig af variationerne i belysningen (morgen/dag/aften; lys/skygge-forhold, osv.). Objektivt set skulle vi nærmest befinde os i et gigantisk lysshow, men det vi oplever er heldigvis ikke vilde fluktuationer i nethindebilledet, men en verden af stabile objekter med stabile farver. Øje-hjernen eller det visuelle system er ikke i tvivl om, at æblet beholder den samme farve. Ækvivalerer vi "farve" med "den spektrale sammensætning af lys fra objektet", ja, så skifter æblet ifølge fysiske målinger "farve", men vi ser det ikke sådan, vi ser den samme farve,[12] og vi kan altså ikke sætte lighedstegn mellem den oplevede farve og den type (fysisk definerede) lys, der rammer øjet. Land og hans medarbejdere udviklede i 1960'erne en teori, hvori farve beregnes af tre lysintensitetsbilleder, som hver især igen er resultatet af beregninger på information fra hver af de tre typer farvereceptorer i øjets retina.
       De nærmere detaljer er uvedkommende her, og det er stadig uafklaret hvordan hjernen rent faktisk opnår farvekonstans, men Marr blev inspireret af selve metoden i Lands tænkning, for den viste stilen i en muligvis korrekt analyse: Væk med forklaring på basis af neuroner -- undtagen som vej til at implementere teorien. Ind med en forståelse af hvad der skal beregnes, hvordan det skal gøres, de fysiske antagelser metoden er baseret på, og hvilke algoritmer der faktisk er i stand til at udføre beregningerne (jf. Marr 1982, p.17f og p.250-258).

David Marr og den computationelle teori

Man har sagt, at David C. Marr (1945-1980) nåede at levere det vigtigste bidrag til synets psykologi siden Hermann von Helmholtz.[13] Marr var uddannet i Cambridge og interesserede sig tidligt for matematiske modeller af hjernen, og bidrog selv med en simpel model af lillehjernen, som han dog hurtigt blev utilfreds med. Efter afsluttet forskeruddannelse tog han til laboratoriet for Kunstig Intelligens ved Massachusetts Institute of Technology, hvor han i 1975 besluttede sig for at blive. Her startede en hektisk og frugtbar arbejdsperiode, hvor han producerede en række væsentlige bidrag til en computationel beskrivelse af synssystemet. Tre år før sin død fik han leukemi. Han vidste, at hans tid var begrænset, og efter sigende arbejdede han videre i en eksplosion af kreativ energi. Hans resultater er samlet i bogen Vision, der udkom efter hans død.
       Emnerne for Marr's forskning er hovedsageligt tre problemer: (1) Den metode ved hvilken synssystemet detekterer de linier og kanter, som vi tilsyneladende ser så let, men som er ekstremt vanskelige at rekonstruere ud fra det slørede nethindebillede. Hjernen må have nogle regler for denne processering - hvilke? (2) Dybdesyn eller stereopsis, især spørgsmålet om korrespondens: Husk, at hjernen modtager input fra to uafhængige billeder, ét fra hvert øje. Hvordan finder hjernen så ud af, at et punkt i det ene billede svarer til et bestemt punkt i det andet? (3) Objektgenkendelse, eller problemet om hvordan genstande repræsenteres i hjernen på en måde, der letter genkendelse og klassifikation. Flere kommentatorer er i dag enige om, at Marr lavede glimrende bidrag til besvarelsen af alle tre spørgsmål, men at han især (måske analogt med Lands farveteori) vil huskes for sit approach, måden han søgte at løse problemerne på. Vi skal ikke gå i detaljer med Marrs løsningsforsøg, men holde os til de store linier og diskutere selve hans metode.[14]
       Før Marrs indsats var computerprogrammer i synsforskning ofte uhyre begrænsede "legetøjsmodeller". I Kunstig Intelligens forestillede man sig, at det temmelig vanskelige arbejde med at skrive programmer, der får maskiner til - indenfor et begrænset domæne, fx skak -- at gøre de ting vi kan, vil skaffe os indblik i disse evner og deres kompleksitet. Det ville også give mulighed for syntetisk at duplikere disse evner, i al fald på det funktionelle niveau; kopien behøver ifølge denne opfattelse ingen kødelig krop. Programmer, der kan fortolke det todimensionelle (2D) billede fra et TV-kamera som tredimensionelle (3D) objekter i et rum, kan tænkes at give indsigt i sanseapparatets mekanismer til at drage slutninger om verden. Den slags kræver komplekse og tunge beregningsprocesser, og man begrænsede sig derfor til de simple modelverdener, hvor alle objekter havde pæne glatte flader, tydelige omrids, osv. Et visuelt computerprogram kan også tænkes at give oplysninger om hvordan perceptionssystemet håndterer tvetydighed i inputtet (der giver flere mulige 3D tolkninger dele af et 2D billede), og hvordan det kan evaluere sine egne fortolkninger og klassificere visse 2D billeder som `umulige' objekter i 3D, fx ved at del-fortolkninger af billedets rumlige struktur samles i overensstemmelse med et skema eller en generel repræsentation for kendte objekter.

Figur 3. En Escher'sk tribar, også kaldet en Penrose'sk umulig trekant (efter Lionel S. Penrose & Roger Penrose, 1958: "Impossible objects: a special type of illusion", British Journal of Psychology 49 (1): 31.)


       Marr ville gerne modellere synet som det virker i den virkelige verden med al dens kompleksitet. Han var en af de første, der lavede computermodeller som tog hensyn til neurofysiologiske og psykologiske data. Han mente nemlig ikke, det var tilstrækkeligt at få en model til at imitere en bestemt evne eller adfærd, hvis det ikke svarer til den måde mennesker fungerer på. Men det betyder ikke, at man nødvendigvis må tage udgangspunkt i eksperimentelt arbejde på enkelt-neuron niveau. Marrs position er nuanceret. Niveauer er det væsentlige, og Marr udviklede sin egen niveaumodel, som en vigtig filosofisk støtte for sit approach. Han understregede gang på gang, at for at lave en god model af hvad hjernen gør m.h.t. en bestemt opgave, kræves en tilfredsstillende forståelse af den pågældende opgave.

Marrs niveauer

Denne forståelse havde hjemme på sit eget niveau, som han kaldte den computationelle (beregningsmæssige) teori. Marr mente, at enhver informationel proces må vi forstå på tre adskilte forklaringsniveauer som er: den beregningsmæssige teori, algoritmen og hardware-implementeringen. Det kan lyde stygt, men lad os tage hans eget eksempel, et kasseapparat.
       I. Den computationelle teori. Skal man forstå funktionen af et kasseapparat i supermarkedet, må en teori for dette bl.a. kunne gøre rede for følgende forhold: Rækkefølgen af varer man taster ind skal ikke have indflydelse på resultatet (commutativitet, 3+4 = 4+3). Man kan trække et beløb fra, svarende til det omvendte af at lægge det til, 4+(-4) = 0. Indtastning af 0 eller ingenting skal ikke have indflydelse på resultatet. Man finder hurtigt ud af at man er ude efter en god teori om addition, og den matematisk kyndige vil vide, at en sådan teori er en del af aritmetikken. Pointen er, at den computationelle teori for en given proces i en maskine eller organisme skal kunne redegøre for hvad maskinen gør, og hvorfor. I eksemplet skal de aritmetiske regler overholdes, fordi andet vil gøre betalingsprocessen meningsløs og inkonsistent. Til gengæld er det på dette niveau helt og aldeles ligegyldigt, om kasseapparatet bruger arabiske tal, romertal, det binære system, eller en anden repræsentation, og om det er mekanisk eller elektronisk, så længe systemet blot følger de regler, den computationelle teori beskriver. Det kan have betydning at undgå at vælge romertal-repræsentation, men dette angår kun næste niveau. Tilsvarende, uanset hvordan synssystemet vælger at repræsentere en streg eller en kant (hvor mange neuron-fyringer af bestemte sansorer der skal til, hvordan kodningen foregår o.l.), er den computationelle teori uvedkommende. Det vigtige på dette niveau er: Hvad er synssystemets "mål" med en given beregning; med hvilken logik eller strategi kan den udføres? Hvordan maskinen rent faktisk gør det, er ikke noget den computationelle teori skal udtale sig om.
       II. Repræsentationen og algoritmen. Først på det andet niveau skal vi se på spørgsmålet om hvilke repræsentationer systemet bruger for at addere tal i supermarkedet (eller for at finde kanter og former fra information om overflade-skygger på et billede). Forklaringen på det andet niveau skal vise hvordan den computationelle teori kan implementeres. Hvordan repræsenterer vi input til kasseapparatet (tal i decimal-notation?), hvordan repræsenteres output (totalsummen i decimalnotation), og vigtigt, hvad er den algoritme eller "program-forskrift" systemet kan bruge for at udføre opgaven som specificeret af den computationelle teori? Hvilke transformationer undergår inputtet faktisk (omsættes det fx til binær form)? Bemærk, at det, der specificeres af en given computationel teori, kan udføres af forskellige typer repræsentationer og algoritmer (muligvis med forskel i effektivitet). Så selvom det højere niveau specificerer nogle betingelser eller constraints, kan der være flere løsninger, der kan opfylde dem på det underliggende niveau.[15] Den algoritme, vi vælger, afhænger af den repræsentation kasseapparatet bruger, og således også i naturen. Algoritme (transformationsregler) og repræsentation ("formen" af vore symboler) skal passe sammen.
       III. Hardware implementeringen. Hvordan kan repræsentationen og algoritmen så realiseres rent fysisk? Det må det sidste niveau beskrive, og her gælder tilsvarende, at den samme algoritme kan realiseres i forskellige fysiske indretninger. Når en kunde lægger tal sammen i supermarkedet, eller når kasseappararet gør det, realiseres muligvis den samme additionsalgoritme i to ret forskellige fysiske systemer. Kasseapparatets beregningsenhed kan være gammeldags mekanisk med hjul og tappe, eller moderne og lavet af chips, der opererer med binære tilstande, og dog udføre samme regler for addition.
       Det væsentlige er, at hvert af de tre niveauer har sin plads i forståelsen af synets informationsbehandling. De er selvfølgelig kausalt og logisk forbundne, men de tre niveauer er samtidigt forbundne ret "løst",[16] og nogle fænomener kan forklares blot ved henvisning til et eller to niveauer. Et eksempel på noget, som primært er forbundet med synets fysiske "hardware" mekanismer, er det efterbillede som dannes, når vi stirrer på en tændt lyspære og lukker øjet (nethindens receptorer holder nemlig ikke øjeblikkeligt op med at fyre). Andre fænomener, som fx Necker-terningens tvetydighed (se figur 4), må netop involvere mekanismer, der producerer fornemmelsen af tre dimensioner i billedet, hvilket er en ret kompliceret ting. Ifølge informationsprocessering-synspunktet kræver det indviklede beregninger, og må derfor forklares ud fra en computationel teori om synet. At ville forstå synet ved kun se på nervernes arkitektur og fysiologi, uden det computationelle niveau, er ifølge Marr som at prøve at forstå hvordan fugle flyver ved kun at se på strukturen af fuglefjer (den computationelle teori svarer her til en teori om aerodynamik).

Figur 4. Necker-terningen, hvor den todimensionelle repræsentation (a) så at sige kollapser terningens dybde, som vort synssystem så kan genfinde, men hvor to forskellige fortolkninger, (b) og (c) er mulige. Ser vi på (a) vil vores fortolkning typisk skifte mellem (b) og (c).

Det rumlige syn udregnes gennem flere trin

Men hvordan kan vi så ifølge Marr se dybde, perspektiv, tekstur og orientering i verden? Lyset stopper stadig på nethinden og danner dér kun et fladt, 2D billede. Vi ser verden rumligt. Der er ingen billeder i vanlig materiel forstand i kraniet, kun neural aktivitet. Ifølge Marr må denne neurale aktivitet fungere som bærer for en symbolsk beskrivelse af en rumlig verden. Det er netop den beskrivelse, han er ude efter. Hvad er dens elementer eller "primitiver", og hvad er de regneregler, som symbolerne manipuleres rundt efter og som tillader ubevidste slutninger om tingenes fyldighed, der som regel er sande (når vi ser bort fra visse illusioner)? Når vi taler om tingenes fylde har vi allerede sagt for meget. Vi har stiltiende forudsat, at vi nemt og umiddelbart ser verdens afgrænsede objekter direkte, men hvordan kan vi være sikre på det? Ifølge den moderne synsforskning er det snarere noget, som er et resultat af en neuropsykologisk konstruktionsproces. En af de basale ideer hos Marr er, at en computationel teori om synet må redegøre for, hvordan synet når frem til en repræsentation af tings form. Synet kan meget andet - se farver, klarhed, tekstur, mindre konturer, skygger -- men for overhovedet at kunne bruge syn til at overleve i naturen, må organismen kunne nå frem til en pålidelig model af genstande i den virkelige verden ud fra den information, nethindebilledet indeholder.[17]
       Marrs teori er, at synet er et organiseret system der behandler information i flere stadier. Desuden antages systemet at være modulært, så forskellige funktionelle moduler behandler hver sin del af problemet (hvilket støttes af nyere forskning, jf. Zeki 1993). Funktionen af nethindebilledet er at repræsentere information om forskelle i lysintensitet. Herefter følger tre faser, under hvilket synssystemet danner stadigt mere forståelige skitser eller udkast til den endelige model af en genstands form:

Den primære skitse

Her behandler systemet den rå information om forskelle i lysintensitet i nethindebilledet, og uddrager visse former for information heraf, især om den geometriske fordeling af disse forskelle og hvordan de er organiseret.
       På basis af organisationen af intensitetsforskelle beregner systemet de primitiver eller "symbolske elementer", den primære skitse består af: lokaliseringen af pletter, stave, punkter og `blobs', kantsegmenter, men ikke vinklerne mellem to linier). Mere eller mindre afgrænsede grupper af kanter eller tappe, og diskontinuiteter udregnes også, ligesom "virtuelle linlier". Det sidste er linier systemet selv tegner, hvis det øger sammenhængen i de eksisterende. En paraply kan være dækket af en anden genstand så kun top og bund er synlige; her kan en virtuel linie forbinde paraplyens kanter og gøre dem sammenhængende (uden systemet vel at mærke genkender objektet på dette niveau). I den primære skitse omregnes den kontinuere repræsentation til en diskret, "digital" repræsentation i form af de afgrænsede primitiver. Man kan forestille sig den primære skitse som et landkort med en masse lokale symboler, der betyder "her er en kant", "her ophører en linie", osv.
       Beregningerne på dette trin sker v.h.a. nogle særlige filtre (bl.a. en kombination af en Gauss-sløring af billedet i flere skala for at udjævne støj, og en Laplace-operator som beregner de maksimale intensitets-overgange, såkaldte zero-crossings, i billedet), men de nærmere detaljer er unødvendige her. De principper Marr beskriver er idag velkendte og brugte indenfor maskinsyn.

21/2-D skitsen

På det næste trin gøres orienteringen og den omtrentlige dybde af de synlige flader eksplicit. Et billede af verden begynder at dukke frem, dog stadig kun iagttager-orienteret og ikke orienteret i forhold til et stabilt ydre miljø (hvilket vil sige, at en blyant set fra oven kan have samme repræsentation som en Pinochio-kugle)
       Primitiverne i 21/2-D skitsen er: lokal overflade-orientering; afstand fra iagttageren; diskontinuiteter i dybde og i overfladeorientering. Det kan måske være svært at "forestille sig" denne skitse (se figur 5), men pointen er da også, at både dannelsen af den primære og 21/2-D skitsen sker ubevidst, først 3D modellen præsenteres for iagttagerens opmærksomhed. At det kun er en "to-en-halv" dimensional og ikke fuld 3D skitse skyldes, at systemet kun beregner orienteringen af og dybden af de synlige flader, ikke genstandens egen iagttageruafhængige facon (vinklerne mellem to overflader indgår fx ikke i 21/2-D skitsen). En klarinet set fra neden i 21/2-D skitsen er i sig selv uegnet til objektgenkendelse. Her må systemet regne videre frem til 3D repræsentationen.

Figur 5. Illustration af 21/2-D skitsen. En symbolsk repræsentation af nogle overflader med forskellige orienteringer (symboliseret ved pile). I 21/2-D skitsen er desuden repræsenteret: Afstande til iagttageren (ikke vist her); konturer hvor overfladeorienteringen ændres brat (stiplet linie); og konturer hvor dybden er diskontinuer, s.k. "subjektive konturer" (optrukne linier). Hvad skitsen måtte repræsentere for en type objekt er endnu ikke eksplicit. (Modificeret efter Marr 1982, p.129).

3D model repræsentationen

Her tydeliggøres formen og dens orientering som stykker af en tredimensional genstand i en objekt-centreret repræsentarion, uafhængig af bestemte skift i synsvinklen. Marr forestiller sig en art 3D koordinatsystem knyttet til genstanden, så fx en giraf set fra undersiden ikke må nøjes med en temporær bord-lignende skitse, men får en stabil rumlig repræsentation af hele sin form, så den ikke behøver en ny repræsentation hver gang den selv eller iagttageren bevæger sig. I dette sidste stadie har systemet opnået en model af den ydre verden, som er modulært organiseret.
       Primitiverne er 3D modeller arrangeret hierarkisk: En person er groft sagt en cylinder, lidt tættere på er vedkommende 5 mindre cylindre: torso, 2 arme og 2 ben; lidt tættere på endnu er fx hver arm 3 cylindre: over-, underarm og hånd, hånden selv er 5 cylindre osv. Hver cylinder, uanset hvor i hierarkiet, kan beskrives med nogle få symbolske parametre som længde, diameter og relative orientering i forhold til tilstødende cylindre. Til disse primitiver knyttes evt. volumen- eller overfladetekstur-beskrivelser.
       Disse repræsentationer kan lyde ret fattige, når vi tænker på forskellen mellem en person og en geometrisk cylinder, uagtet hvor hierarkisk leddelt sidstnævnte end måtte være. Men Marr pointerer, vi faktisk kan foretage objektgenkendelse på basis af ret få nøgletræk - tænk på de dyr af piberensere eller kastanier og tændstikker, som vi umiddelbart kan se som elefanter, hunde, kaniner eller strudse, alene på grundlag af den relative størrelse og orienteringen figurernes enkelte dele.

Figur 6. En giraf og en gravhund, ifølge den marrske ide om 3D repræsentationen som opbygget af cylindre i forskellig størrelse. Det er gravhunden til venstre. (Modificeret efter Marr 1982, p.318).


       De fleste af de beregninger, der bruges til generering af den sete genstands beskrivelse er i Marrs teori bottom-up, dvs. igangsat og drevet af informationen fra nethinden uden brug af højere-ordens kategorier. Dette gælder op til 3D niveauet, hvor top-down processer også kan finde sted, dvs. processer, der benytter sig af et i systemet på forhånd oplagret register af viden om objekter og deres type. Man kan fx forestille sig, at når systemet har genereret de første dele af 3D beskrivelsen, afsøges en slags database, hvor en række prototyper -- fx dyr i forskellige former - ligger gemt, og denne information kan da bruges "oppefra" til videre analyse af de detaljer i billedet, som er usædvanlige, flertydige eller som på anden måde kræver videre beregning.
       Det kan i høj grad diskuteres, om Marrs teori på dette niveau er realistisk, og den har da også en række mangler; fx forbigår den stort set hele spørgsmålet om systemets indlæring af det prototypiske register af former.[18] Der findes da også i dag et utal af konkurrerende teorier om objektgengendelse indenfor kognitionsforskning, neurale netværk og Kunsig Intelligens. Mange af disse teorier vil kunne supplere hinanden, da det næppe er realistisk at tro, at vores synssystem blot benytter én enkelt mekanisme på samme måde til så forskellige opgaver som sortering, beskuen, overvågning, navigering, og forskellige kropslige aktiviteter som fx manuel flytning af genstande, konstruktion, sportsudøvelse m.v. Det er dog indiskutabelt, at Marr med sit bidrag har været med til at sætte nye standarder for en teori om synet, som både er operationel, biologisk plausibel og mulig at teste gennem computersimuleringer.
       På det mere generelle plan sejler den nyere synsforskning imidlertid rundt med de samme filosofiske problemer i lasten, som findes hos Marr; vi skal til sidst se lidt på dem.

Beregninger i synshjernen?

Marr har arvet en del af sit filosofiske udgangspunkt fra forskningen i Kunstig Intelligens; især ideen om at synshjernen kan forstås som et fler-niveau system der repræsenterer omverdenen i form af modeller fremkommet ved beregninger på input-information i overensstemmelse med algoritmiske regler. Fælles for Marr og KI er, at hjernen groft sagt ses i analogi til en computers hardware, mens sindet og dets evner, fx synet, ses i analogi til software. En af de filosoffer, der mest overbevisende har kritiseret denne analogi, er John Searle. Hos Searle kan bevidsthed aldrig blot dreje sig om at køre et computerprogram, fordi et sådant alene er et spørgsmål om at følge nogle regler i overensstemmelse med disse reglers syntaks ("grammatik"), mens bevidsthed om verden involverer betydning, og betydning er også et spørgsmål om semantik: Searle kunne godt med en tabel i hånden udføre en række regler (realisere et programs syntaktiske manipulation med symboler) korrekt, uden at forstå en pind af semantikken.[19]
       Man kan indvende, at spørgsmålet om semantik og bevidsthed er underordnede i forhold til en undersøgelse af synets ubevidste og automatiske bearbejdning af information. Marr hævder ikke, at hele bevidstheden er et program, men at den del, vi kalder synet, kan forstås som flere moduler i hjernen med hver sine del-programmer, og at det er disse moduler som udfører beregninger, der leder til symbolske beskrivelser, fx den primære skitse. Men Searle har også sat spørgsmålstegn ved en sådan måde at bruge beregningsbegrebet på, og har kritiseret den del af analogien mellem computer-hardware og hjerne (Searle 1992). For hvad mener vi egentlig, når vi siger at et biofysisk system som hjernen, eller den visuelle cortex, "beregner" bestemte træk af virkeligheden?
       Set ud fra ét, ret uskyldigt, perspektiv `beregner' et fysisk system intet i sig selv, uanset om beregningen sker analogt eller digitalt: Systemet følger blot de fundamentale naturlove i sin udvikling af de fysiske tilstande, der karakteriserer systemet. Ligeså lidt som månen `beregner' sin næste stedposition udfra Newtons love men blot følger disse love, ligeså lidt `beregner' en chip (eller en gruppe nerveceller) resultatet af en additionsproces: Også de følger lovmæssigt en adfærd som beskrives af de maxwellske ligninger (eller membranernes biofysik). At chippen beregner er en afledet eller tilskrevet egenskab: Det er chippens særlige konstruktion og lovbundne adfærd, som gør, at den systematisk kan behandle signaler, der på et abstrakt niveau har en fortolkning som tal. Ikke sådan at forstå, at der skal være nogen menneskelig fortolker involveret i selve processen (så var fidusen ved computere forsvundet), men forstået sådan, at processen skal ske netop systematisk (hvilket bl.a. vil sige med næsten nul støj), fordi dette er forudsætningen for at mekaniseringen af beregningsprocessen overhovedet kan finde sted: Tilskrivningen af betydning til input og output skal kunne ske pålideligt og systematisk. Beregning er ikke noget vi kan "opdage" i et fysisk system, beregning er noget, vi kan tilskrive systemet.
       Dette er hvad vor almindelige forståelse af naturlove, fysiske genstande, tal, beregning, og betydning lægger op til: Vi kan skelne mellem ting, som har visse iboende egenskaber, og ting der blot ser ud "som om" de har dem under en given beskrivelse: Månens bevægelse ser ud "som om" den beregner sin bane efter en newtonsk algoritme, men vi vil vel helst ikke tro at den ikke bruger beregning eller behandler information for at bevæge sig. Månen bevæger sig blot i overensstemmelse med de love, der er det fysiske rum iboende, uanset om vi tilskriver det noget eller ej. På samme måde kan vi godt pege på bestemte nervekredsløb, der ud fra et særligt perspektiv "simulerer" bestemte logiske porte og andre dele af et computerprogram, og vi kan endda forestille os nerveceller, der simulerer en algoritme for planetbanerne! Men cellernes tilstande udvikler sig som de gør p.g.a. deres iboende bioelektriske processer i overensstemmelse med bestemte naturlove, uanset om vi tilskriver nervecellerne nogen beregnende adfærd eller ej. Dvs. under denne uskyldige synsvinkel er deres `beregning' afledet, tilskrevet. Tilskrevet af hvem?
       Selvfølgelig af mennesker, som i kraft af de menneskelige evner til abstrakt tænkning, meningsfuld kommunikation, bevidste forestillinger o.l. kan håndtere fysiske eksemplarer af bestemte symbolske typer (fx matematiske symboler) på en sådan måde, at de på systematisk vis kan benyttes til beregning. Disse evner er knyttet det, filosoffer har benævnt intentionalitet, forstået som det at kunne se noget (fx noget kridt på en tavle) som betydende eller repræsenterende noget andet (fx et begreb, et tal, osv.). Uden intentionalitet kunne vi ikke se, høre, eller tænke på konkrete ting som noget, der betyder noget andet, nemlig generelle, abstrakte og begrebslige størrelser. Uden intentionalitet kunne vi heller ikke bruge en PC'er, fordi den som enhver anden computer af klassisk type netop er et fortolket, automatisk, formelt system. Fortolket: heri ligger det intentionelle. Automatisk: heri ligger det fysiske (computerens hardware). Formelt: heri ligger det datalogiske i klassisk forstand. Så snart vi taler om computere, forudsætter vi derfor intentionelle systemer, mennesker, der tilskriver en fysisk regelmæssig adfærd den betydning at være beregnende.
       Hvis synshjernen på marrsk hardware-niveau er en neural analog computer, så forklarer dette ikke hvordan den har dén intentionelle egenskab, at kunne tilskrive noget betydning, fordi hverken en analog eller en digital computer i sig selv har `beregning' eller `betydning' som iboende egenskaber. Det har kun hele levende organismer, som både er udstyret med et nervesystem og med et sprog. Vi kunne evt. vælge at gøre op med den naive snusfornufts distinktion mellem de egenskaber tingene kan have `i sig selv', og de egenskaber, som tilskrives dem. Risikoen er, at vi i så fald nødsages til at se temmelig mange genstande i verden som analoge computere, ikke blot hjerner og øjne, men også måner og grønne oste.
       Udtrykt lidt anderledes, så vil enhver computationel teori for syn og sind kræve en redegørelse for den måde, man bruger beregningsbegrebet på. Og måske også informationsbegrebet. Searle er meget kategorisk når han siger, at symboler og syntaks (og dermed beregning) slet ikke er det fysiske iboende, og at hjernen ikke processerer information.[20] Ifølge Searle er disse begreber iagttager-afhængige. Beregning og information er ikke egenskaber, som fysiske eller biologiske systemer har i sig selv, men egenskaber, som tillægges dem under en bestemt beskrivelsesmæssig teori. Øjet og hjernen gør bestemte ting fordi de har en naturlig biologisk struktur, der får dem til at gøre sådan, ikke fordi nogen udefra stående iagttager må tilskrive dem disse processer.
       Man kan så spørge om Marr ville være uenig med Searle. Marrs pointe var jo blot, at hvis vi som mennesker også vil forstå disse processer, ja, så må vi bruge computationelle forklaringer. Det, vi primært kan lære af Searles kritik, er at undgå en ganske naiv omgang med de modeller af synet, der henviser til "den indre computer".
       En anden ting, Searle eksplicit kritiserer Marr (og den øvrige kognitionsforskning) for, er at begå "homunculus-fejltagelsen". Den er forbundet med nævnte (mis)brug af beregningsbegrebet, men består mere generelt i, at en teori implicit antager eksistensen af en "lille mand" (homunculus) i hjernen, som opfatter og bruger de repræsentationer, skitser, beregninger og modeller, som teorien beskriver, til at se, handle, træffe beslutninger med, osv. Nu er det selvfølgelig ikke sådan at eksistensen af en homunculus direkte hævdes af Marr og andre, problemet er, at skal forklaringerne virke, forudsætter de en sådan instans, hvilket selvfølgeligt er problematisk, da man jo så stadig mangler at redegøre for hr. homunculus' egen hjerne og bevidsthed. Marr taler jo om den 3D model, synssystemet producerer, men hvem læser og bruger denne model? Man kan give Searle ret så langt, at dét findes der bestemt ikke noget svar på i Marrs teori. Hvilket fører til sidste punkt.

Udsynet indefra

Det er muligt vi kan og allerede har bygget "seende" robotter; maskinsyn er et stort forskningsområde med store økonomiske interesser. Det er nok de færreste, som tilskriver robotterne nogen særlige oplevelser ved det de "ser" (måske bortset fra samlebåndenes kedsomhed). Vi kan ekstrapolere, og forestille os, at vi engang i en fjern fremtid vil være i stand til at bygge en robot på basis af en fuldstændig og komplet teori om det menneskelige syn, som kan se alt det, vi ser, og som kan manøvrere og klassificere alt det ,vi håndterer visuelt. Det synes at være det ultimative håb i denne forskning, ikke blot hos Marr, men også indenfor Kunstig Intelligens og neurobiologi. Hvis det kunne opnås, så er man vel fremme?
       Der synes at mangle et eller andet. Filosoffen Thomas Nagel har sagt det sådan: "Hvad der mangler er noget, vi ikke har: En teori om bevidste organismer som fysiske systemer, sammensat af kemiske elementer og udfyldende rummet, som også har et individuelt perspektiv på verden, og i nogen tilfælde endog evnen til selv-opmærksomhed." (Nagel 1986, p. 51). Nagel peger på, at visse komplekse, biologisk dannede fysiske systemer synes at besidde et rigt sæt ikke-fysiske egenskaber, såsom bevidsthed, opmærksomhed og intentionalitet.
       Selvom jeg tror Nagel overbetoner det ikke-fysiske ved de mentale egenskaber (uden han dog er dualist), har han fat på en god pointe, som man kan sige to ting til: Ud fra et Marr-synspunkt er det ikke-fysiske noget, der berører niveauet for den computationelle teori: De funktioner, synet udfører, er godt nok "løst koplet til" det fysiske, men kan ikke alene forstås som fysik. Ud fra et filosofisk synspunkt kan man sige, at Nagel netop rejser det klassiske problem om hvilken form for væren, den sete oplevelse har i verden. Dualismen - en total benægtelse af, at det subjektive kan være noget som har med en fysisk verden at gøre -- er ikke tiltrækkende som videnskabelig position, og spørgsmålet er, om en epistemologisk (forklaringsmæssig) niveau-teori, som vi ser den hos Marr, ikke burde forbindes med en ontologi om det værende som selv niveaudelt. Det værende har delt sig selv ind i niveauer for at undgå, at alting pærer ud i det samme, ligesom tiden er naturens måde at undgå, at alting sker på en gang. Simo Køppe har foreslået en ontologisk teori, hvor virkeligheden består af fire niveauer (det fysiske, det biologiske, det psykiske og det samfundsmæssige). I denne teori er bevidsthed og psyke også materielle fænomener; ikke ting, men komplekse mønstre af hjerneprocesser, som hos mennesker samtidigt må forstås i forhold til det samfundsmæssige niveau, der griber ind i og medstrukturerer psyken. Dvs. hos os må nogle synsfænomener forstås på alle fire niveauer, hvor et "sigende blik" hører til det kommunikative og dermed samfundsmæssige domæne.
       Der findes en almen kritik af Kunstig Intelligens som forskningsprogram, der også rammer Marr, nemlig at KI beskriver mennesket rent ydre, som en erfaringsmaskine, men derved får man højst hold på adfærd, og da ret simpel adfærd, men ikke dét, vi egentlig forbinder med intelligens - givet vi overhovedet accepterer dette begreb - nemlig, at "der er nogen hjemme", dvs. at der er også et subjekt, som ikke blot tilskrives egenskaber som "intelligens", tænkning og andre kognitive processer, men som faktisk også selv oplever disse. Netop Thomas Nagel har fremhævet, at erfaringen af noget - hvordan det føles at være et menneske i sin hytte eller en flagermus i sit træ; hvordan det opleves at se et landskab, hvordan det er at vide at man er blevet svigtet - altid kræver et synspunkt, en indre dimension ud fra hvilket noget "ses".
       Marr har givet et paradigmatisk eksempel på en beregningsteori for perceptuel erfaring af genstande i verden. Men, kan vi spørge, er det måske sådan, at den via synssystemet opnåede viden om noget forudsætter en subjektiv erfaring af dette noget som oplevet fra en bestemt levende organismes synsvinkel? Det er uafklaret, men vi kan i al fald skelne mellem I) en kognitiv viden om noget (repræsenteret på en eller anden form), og II) en organisk viden om hvordan dette noget opleves fra den subjektive synsvinkels synspunkt. Det er soleklart, at Marr m.h.t. synet har leveret en mulig teori for I), men ikke for II), og at eksistensen af II) kan ikke udelukkes at påvirke funktionen af I).
       Trods Marrs imponerende indsats med at forstå det "tidlige syn", er der noget der tyder på, at man med synssystemet generelt ikke uden uheldige forsimplinger kan adskille syn og bevidsthed. For at citere neurobiologen Semir Zeki: "De sidste to årtier har givet neurologer mange vidunderlige opdagelser omkring den visuelle hjerne. De har ført til en dybtgående begrebslig ændring i vores opfattelse af hvad den visuelle hjerne gør, og hvordan den opnår sine funktioner. Det er ikke længere muligt at adskille syns- og forståelsesprocessen, som neurologer engang troede, ejheller er det muligt at adskille opnåelsen af visuel viden fra bevidsthed" (1992, p.76).
       Hvis vi vil forstå det subjektive blik, er det jo dobbelt sandt. Zekis pointe er, at en synets neurobiologi (eller en marrsk computationel teori for synet) ikke kan adskilles fra en bevidsthedens og forståelsens neurobiologi - om en sådan overhovedet kan opnås, men Zeki tænker især på den enorme grad af sammenhæng og gensidigt feed-back imellem moduler i hjernen der står for "tidlig" processering af information fra retina, og moduler der står for højereordens fortolkning og forståelse af denne; man kan ikke forstå de forskellige moduler isoleret. Den yderligere sandhed er, at det vi ser, også hænger sammen med det, vi fascineres af, det som "fanger" vort blik og den måde forhåndsinteresser og begær koder hele situationen på - en synets neurobiologi skal derfor ikke blot forbindes med en bevidsthedens neurobiologi, men også med en blikkets fænomenologi.

Noter

Skrevet i forbindelse med et forskningsprojekt ved CONNECT, Niels Bohr Institutet, støttet af Statens Naturvidenskabelige Forskningsråd. Benny Lautrup, Jesper Hoffmeyer og antologiens redaktion takkes for kommentarer til et tidligere udkast.

[1] Det er værd at betænke i hvor høj grad vore begreb om erkendelse er forbundet med synsmetaforer som "indsigt", "anskue", "at indse noget", eller talemåder som "det er klart at...", "vi vil have syn for sagn". Det er som om vores forståelsesparadigme er visuelt baseret; for en kritik, se Lauritsen 1987.

[2] Om forskningen i autonome systemer, der kan opfattes som "hardware"-delen af Kunstigt Liv, se Varela & Bourgine, eds. 1992 og Maes 1990, ed.

[3] Tænk på at den geometriske optik er en del af fysikken, og at forståelse af øjet kan beriges med indsigt i virkemåden af optiske instrumenter som briller, kontaktlinser, mikroskoper, teleskoper, filmkamera eller projektorer. Også teknikker til behandling af farvebilleder og holografisk teknik hviler på fysik. For en forbilledlig rigt illustreret introduktion, se Falk, Brill & Stork 1986.

[4] Den tysk-etlandske biolog Jakob von Uexküll skabte begrebet Umwelt for det subjektive aspekt af et dyrs omverden, som dyret v.h.a. dets sanser erfarer sin verden, se Emmeche 1990b.

[5] Skønt nogle neurobiologer ville vælge at udtrykke denne vision med andre (fx rent biokemiske) begreber, er det ønske, den udtrykker, basalt det samme. Men der er ikke enighed om det overhovedet er formålstjenligt at benytte repræsentationelle begreber (Skarda 1986, Freeman & Skarda 1987), endsige antage, at nervesystemet behandler "information" i strikt forstand (Maturana & Varela 1980).

[6] Den slags antal er estimater hvis værdi kan variere noget; tallene for hele det menneskelige nervesystem opgives til 1012 neuroner med 1015 synapser (Churchland & Sejnowski 1992). En anden fornemmelse for cellemyriaderne fås ved oplysningen om at i én kubikmillimeter hjernecortex er omkring 100.000 neuroner og 1.000.000 synaptiske forbindelser (p.51, ibid.).

[7] Jf. Margaret A. Bodens lidt sardoniske karakteristik: "Kunstig Intelligens (KI) er videnskaben om at få maskiner til at gøre den slags ting mennesker gør. Det omfatter at føre en konversation, svare fornuftigt på spørgsmål på grundlag af ufuldstændig viden, samle en anden maskine af dens dele efter en opskrift, lære hvordan man gør noget bedre, spille skak, læse eller oversætte historier, forstå analogier, neurotisk at undertrykke viden som det er for truende at være bevidst om, og genkende forskellige ting set i et rum, selv i et rodet og dårligt oplyst rum", og Maggie tilføjer "KI hjælper til at indse hvor enorm den baggrundsviden og (computationelle) tænkekraft er, der behøves blot for at gøre disse dagligdags ting" (Boden 1987).

[8] Introduktioner på dansk til forskningen i Kunstig Intelligens og dens problemer er Dreyfus & Dreyfus 1991, og Kirkeby 1989. Om den senere udvikling i retning af flere konkurrerende paradigmer indenfor det bredere felt, kognitionsforskning, se Bernsen & Ulbæk 1993. Om kunstige neurale netværk, se Brunak & Lautrup 1988. Anbefales kan også fgl. tidskrift-temanumre om kunstig intelligens og kognition: Psyke og Logos nr.2, 1988; Litteratur & Samfund nr.47-48, 1992; Kulturstudier (fra Center for Kulturforskning, Århus) nr. 3, 1989 og nr. 14, 1992.

[9] Vender vi blikket mod en virkelig (ikke-hallucineret) øl på bordet foran os, dannes på nethinden bagerst i øjet et "nethindebillede" af øllen (på hovedet og spejlvendt p.g.a. linsens brydning) som stimulerer sansecellerne (stave og tappe) i retina: Øjet virker i den henseende som et "camera obscura" - som det allerede fremgik af den ægyptiske astronom og matematiker Al-Haytham (Alhazen)'s studier af øjets anatomi omkring år 1000 e.Kr. Efter fotografiets opfindelse blev analogien mellem øje og kamera opfattet ret direkte: Man mente, at ligesom et foto bliver rastet før trykning, opløstes nethindebilledet i prikker af sansecellerne før viderebringelse af information om prikkerne til hjernens synsområde, hvor billedet genskabes. Nu ved man, at nethindebilledet ikke er så klart som et foto, at det ikke opløses i prikker, og at skarphed og klarhed derfor er produkter af hjernens indviklede "beregninger" på den indkomne information.

[10] "Strikket ind i" er blot et dansk ord for "wired into", eller "hard-wired". Iøvrigt er udviklingen af hjernebarkens visuelle celler også bestemt af stimulation under opvæksten; således fandt Blakemore (1974), at killinger opvokset i kunstige omgivelser med kun horisontale striber senere havde nedsat evne til at skelne vertikale og vice versa, se også Sherman & Spear 1982.

[11] For en gennemgang, se Gordon 1989, p. 110-117 (eller Marr 1982, afsnit 2.2).

[12] Eller næsten den samme farve, for vi bemærker alligevel nuanceforskelle, fx når vi køber tøj i en forretning med kunstlys og bagefter ser det på gaden. Men de oplevede nuanceforskelle er små og vidner om hvor tæt synssystemet er på en fuldstændig korrektion. Marr diskuterer Lands teori i Vision. For en gennemgang af nyere viden om farvesyn, inkl. en diskussion af Lands arbejde, se Zeki 1993.

[13] Helmholtz (1821-1894) opfandt opthalmoskopet, der kunne se ind i øjets retina og revolutionerede studiet af øjensygdomme; målte nerveimpulsers hastighed og reaktionstider; studerede visuelle illusioner; og videreudviklede Thomas Youngs trikromatiske teori om farvesyn, som nutidige opfattelser bygger på.

[14] Interesserede anbefales selve bogen (Marr 1982), som kan læses uden særlige matematikkundskaber. På dansk findes i Bernsen & Ulbæk (1993) en udmærket introduktion til Marrs teori; en mere detaljeret introduktion findes i Gordon (1989); se også Aloimonos & Schulman (1989). Køppe (1990) diskuterer Marr i relation til den filosofiske funktionalisme-debat i kognitionsforskningen.

[15] Det er fx muligt at opgaven "at skelne prikker (fluer) i bevægelse" er den samme hos en frø og hos en knæler, men de algoritmer, der benyttes af hhs. paddens og insektets synssystem er sandsynligvis helt forskellige. Det er iøvrigt et uløst spørgsmål i Marrs teori om de algoritmer, der hos Marr beskriver dannelsen af den "primære skitse" (se nedenfor), rent faktisk er dem, der benyttes i det menneskelige synssystem (bestående af neuronerne i og imellem retina, laterale geniculate nucleus og den visuelle cortex).

[16] Marrs betegnelse (1982, p.25). Præciserende kan man foreslå, at forbindelsen mellem de tre niveauer kan forstås som en superveniens-relation: Det højere niveaus egenskaber supervenierer på det lavere niveaus i den forstand, at hvis to systemer er identiske på det lave niveau (fx fysisk identiske), da er også høj-niveau-egenskaberne fikseret (og altså identiske), men det omvendte gælder som antydet ikke, da fx en given algoritmisk struktur kan realiseres i flere forskellige typer hardware. Om superveniens, se fx Sober 1993.

[17] Bemærk, at Marr, som de fleste neuropsykologer og kognitionsforskere, forbliver realist: Hjernen kan faktisk nå frem til pålidelige repræsentationer eller modeller af virkeligheden, selvom det sker på basis af en konstruktionsproces med indviklede neuro-computationelle beregninger. Erkendelsesteoretisk drager de ikke så vidtgående konsekvenser af forskningen, at de bliver relativister eller "radikale konstruktivister" (se dog Maturana & Varela 1980), hvor verden selv gøres til en konstruktion.
       Denne "moderat" konstruktive opfattelse af syns- og andre perceptionsprocesser, som er udbredt i neurobiologi og neuropsykologi, er konsistent med en erkendelsesteoretisk position, som under inspiration af filosoffen C. S. Peirce er kaldt semiotisk realisme (Emmeche 1990b): Vi forstår kun verden på basis af tegn (processeret information), men verden er virkelig, ikke blot en konstruktion, og de modeller eller repræsentationer, vores kognitive system konstruerer, repræsenterer aspekter af verden. De kognitive tegn er triadiske - tegnet er en triadisk relation mellem tre størrelser: 1) tegnet selv, dvs. dets fysiske bærer (fx de neurale processer), 2) den virkelighed, tegnet refererer til (det virkelige objekt), og 3) interpretanten, dvs. de effekter tegnet har på andre dele af fortolkeren, fx deduktioner om flere, måske usynlige, egenskaber ved objektet, abduktioner om årsager, etc. Set i semiotisk perspektiv bidrager Marr med en beregningsbaseret teori om interpretation af visuelle tegn.

[18] For yderligere diskussion af Marrs teori, se litteraturen anført i note 14.

[19] Dette argument illustrerede Searle i 1980 ved det s.k. kinesiske værelse, et nu klassisk tankeeksperiment, hvor Searle i et sådant rum i egen person agerer program ved korrekt at følge regler (som styrer et hypotetisk kunstigt-intelligent dialog-program på kinesisk) som Searle ikke forstår, men som sætter ham i stand til at kommunikere med en kineser, der sender breve ind i rummet, som Searle "svarer" på (til kineserens tilfredshed) ved at udføre programmets instruktioner men uden at forstå en pind af "dialogen". Pointen er, at mening ikke er iboende programmets syntaks.

[20] Searle 1992, kapitel 9. Man kan indvende, at Searle, idet han fraskriver hjernen "an sich" informationsbehandling, da dels er betænkelig nær på en gammel fysikalistisk ontologi for naturvidenskaben, dels står tilbage med problemet om oprindelsen af semantisk information i et fysisk univers. Det fysikalistiske rimer dårligt med hans beskrivelse af det mentale som "higher-level biological properties" (p. 14, 28, 105, 250 n.6, 252, ibid.).

* [tekst til original version, som anvendte et andet stereogram): Et random dot stereogram. Hvad der ligner et fladt og tilfældigt mønster, indeholder skjult information om dybde. Den vil uddrages eller beregnes af synssystemet, hvis man ser på billedet på en særlig måde. Det er vigtigt at tage sig god tid, slappe af, og eksperimentere lidt (det lykkedes først artiklens forfatter efter adskillige forsøg). Metode A: Stik næsen helt hen til billedet så det sløres, og fjern det meget langsomt. Undgå at fokuser, men lad som om du stirrer igennem billedet. Brug god tid. De to mørke pletter er blevet til tre. Pludselig vil du kunne ane nogle kanter, som træder frem, svævende over billedets bund. Til sidst vil du se en svævende plade gennemhullet af bogstaverne: SEEING THE LIGHT. Kommer du til at fokusere, forsvinder dybden, og du må starte forfra. Metode B: Læg bogen, fat en blyant, og placer byanten mellem øjne og bog, så hver af de to mørke pletter har en sløret blyant, der lige præcis peger på sig. Fasthold stillingen, men se så på blyantspidsen. Den har nu tre pletter bag sig. Kig på den midterste, men uden at skifte fokus. Du skal kun se én plet i midten, og ikke bekymre dig om de to andre. Udforsk dens nære omgivelser. Der vil dukke en pind op over pletten, som udgør nederste del at bogstavet T. Du vil så kunne se de øvrige bogstaver, alle som svævende pinde over bunden. (Stereogrammet er fra Falk, Brill & Stork 1986). (tilbage)

Litteratur

Aloimonos, J. & D. Schulman (1989): Integration of visual modules: An extension of the Marr paradigm. Academic Press, Boston.

Bernsen, Niels Ole & Ib Ulbæk (1993): Naturlig og kunstig intelligens. Introduktion til kognitionsforskningen. Nyt Nordisk Forlag, København.

Blakemore, C. (1974): "Developmental factors in the formation of feature extracting neurons", in F.G. Worden & F.O. Smith, eds., The Neurosciences, 3rd study program. MIT Press, Cambridge, Massachusetts.

Blakemore, C. & P. Sutton (1969): "Size adaptation: a new after effect", Science 166: 245-247.

Boden, Margaret A. (1987): "Artificial Intelligence", in: Richard L. Gregory, ed.: The Oxford Companion to the Mind. Oxford University Press, Oxford.

Brunak, Søren & Benny Lautrup (1988): Neurale netværk. Computere med intuition. Nysyn-Munksgaard, København.

Churchland, Patricia S. & Terrence J. Sejnowski (1992): The Computational Brain. MIT Press, Cambridge, Massachusetts.

Emmeche (1990a): Det biologiske informationsbegreb. Kimære, Århus.

Emmeche, Claus (1990b): "Kognition og omverden - om Jakob von Uexküll og hans bidrag til kognitionsforskningen", Almen Semiotik 2: 53-67, Aarhus Universitetsforlag.

Dreyfus, Hubert & Stuart Dreyfus (1991): Intuitiv ekspertise. Den bristede drøm om tænkende maskiner. Nysyn-Munksgaard, København. (opr.1986).

Falk, David S., Dieter R. Brill & David G. Stork (1986): Seeing the Light. Optics in nature, photography, color, vision, and holography. John Wiley & Sons, New York.

Freeman, Walter J. & Christine A. Skarda (1987): "Representations: who needs them?", paper from 3rd Conference on Neurobiology of Learning and Memory, Center for Neurobiology of Learning and Neurobiology, University of California, Irvine, 14-17 October 1987.

Gordon, Ian E. (1989): Theories of visual perception. John Wiley & Sons, Chichester.

Julesz, Bela (1960): "Binocular depth perception of computer generated patterns", Bell System technical journal 39: 1125-62.

Kirkeby, Ole Fogh (1989): Ægte intelligens. Bevidsthedens program. Nysyn-Munksgaard, København.

Køppe, Simo (1990): Virkelighedens niveauer. Gyldendal, København.

Lauridsen, Laurits (1987): "Grænser for det synlige. Det imaginære og forståelsen i den moderne kultur" Paradigma 2(1): 4-14.

Maes, Pattie, ed. (1990): Designing Autonomous Agents: Theory and Practice from Biology to Engineering and Back. The MIT Press, Cambrigde Massachusetts

Marr, David (1982): Vision. A computational investigation into the human representation and processing of visual information. W. H. Freeman and Company, New York.

Maturana, Humberto R. & Francisco J. Varela (1980): Autopoiesis and Cognition. The realization of the living. Reidel Publishing Company, Dordrecht. (= Boston Studies in the Philosophy of Science vol. 42).

Nagel, Thomas (1986): The view from nowhere. Oxford University Press, Oxford.

Searle, John R. (1992): The rediscovery of the mind. The MIT Press, Cambridge, Massachusetts.

Sherman, S.M. & P.D. Spear (1982): "Organization of visual pathways in normal and visually deprived cats", Psychological Review 62: 738-855.

Skarda, Christine A. (1986): "Explaining behavior: bringing the brain back in", Inquiry 29: 187-202.

Sober, Elliott (1993): Philosophy of Biology. Oxford University Press, Oxford.

Varela, Francisco J. and Paul Bourgine, eds. (1992): Toward a Practice of Autonomous Systems. The MIT Press, Cambridge, Massachusetts.

Zeki, Semir (1992): "The visual image in mind and brain", Scientific American 267 (3, Sept): 60-76.

Zeki, Semir (1993): A Vision of the Brain. Blackwell Scientific Publ., Oxford.

*