© 2021 Rickard Stampe Söderström

Illustrationer: Rickard Stampe Söderström, om inget annat anges.

Faktagranskare: Johanna Meijer – Frilans inom 3D-animation, Thommy

Eriksson på IT-universitetet i Göteborg lärare, kreatör och arkitekt, Björn

Pedersen animationsspecialist på flera 3D-animerade långfilmer.

Korrekturläsning: Jon Lindblom

Förlag: BoD – Books on Demand GmbH, Stockholm, Sverige

Produktion: BoD – Books on Demand GmbH, Norderstedt, Tyskland

ISBN: 978-91-8027-157-8

Till Sira

Innehållsförteckning

Inledning

Jag har skrivit den här boken för att förklara vad 3D-animation är och hur den här animationstekniken gjort det möjligt att visualisera saker – i filmer, datorspel, arkitektur – som vi endast kunnat fantisera om innan. Den här typen av animationer är något vi numera stöter på mer eller mindre dagligen, men samtidigt känner vi väldigt lite till om den här animationstekniken. Den här boken är skriven för dig som vill veta mer om den här konstformen, som vuxit fram som en gren av datorgrafiken. Men också till dig som redan känner till grunderna och vill fördjupa dig ytterligare, exempelvis historiskt. Det här är dessutom den första heltäckande boken i ämnet med en svensk terminologi och när datoranimation sätts i perspektiv med andra konstformer.

Alltså är det min förhoppning att såväl animatörer som humanister, projektledare, med flera, ska kunna få ut något av den här boken. Den ger en överblick av ett annars svåråtkomligt tekniskt område, och bidrar på så sätt till en bredare förståelse för 3D-animation. Boken är specifik inom detta område för att begränsa storleken. Den beskriver till exempel inte hur man berättar historier med hjälp av animationer eller ens hur ljud kan påverka slutresultatet, utan handlar alltså exklusivt om själva animationstekniken och dennes historia.

Tack till

Jag vill ödmjukt tacka Johanna Meijer, Björn Pedersen och till Thommy Eriksson på IT-universitetet i Göteborg som faktagranskat texten under resans gång och bidragit med information och kunskap som gjort den ännu bättre. Jag vill också tacka Johan Borgström, som var min medförfattare på den första boken jag skrev om det här ämnet som tyvärr aldrig blev publicerad, men som möjliggjorde den här boken.

Jag vill också rikta ett stort tack till Jonas Odells och Andreas Wiklunds feedback på översättningen av animationsprinciperna. Den här boken hade heller aldrig skrivits om det inte varit för min barndomskamrat Ted Parnefors, som lärde mig grunderna inom datorer. Här vill jag också nämna Robert Erixon, som lärde mig mycket och stöttade mig som vän och konstnär under alla de år vi tillsammans drev animationsföretaget Digital Rembrandt i Göteborg. Allra mest vill jag tacka min familj – tack.

Grundläggande termer

I detta inledande korta kapitel går jag igenom de grundläggande termer och den basala teknik som ligger till grund för 3D-animation idag. Det är olika termer, teorier och tekniker som är grundläggande för spel och film. Några termer kan vara nya för någon medan andra är så grundläggande att jag vågar påstå att alla idag har gjort sig bekant med dem.

Illusionen om rörelse

En animerad film i bio uppstår genom att man skapar flera stillbilder och spelar upp dem med en kort paus på varje bild i tjugofyra eller tjugofem bilder per sekund. Gör man till exempel en dockfilm (med en analog tredimensionell animationsteknik som kallas stop-motion) placerar man sin docka i en nyckelposition, tar en bild, flyttar den lite, och tar en ny bild.

Det här är såklart en mycket tidskrävande konstform. Det samma gäller för klassisk tecknad animation, när varje bild ska tecknas för hand, oftast bara med en liten förändring mot den förra. På en bra dag kan en duktig animatör producera några sekunder av animation på det här sättet och illusionen av rörelse sker alltså sedan när stillbilderna spelas upp för oss i en viss hastighet per sekund.

Detta faktum är lika sant än idag, också i den digitala världen. Nu är det istället vår datorskärm som visar animationerna till skillnad mot filmremsan som gjorde det förut. En skärm har oftast en uppdateringshastighet på sextio bilder per sekund i jämförelse med en vanlig tv-skärm som har endast tjugofem bilder per sekund. Men principen är den samma; att antalet stillbilder som visas i en specifik hastighet per sekund skapar illusionen av rörelse i allt från biofilm till datorspel. Även om tekniken för att producera 3D-animation är avancerad, är också slutprodukten faktiskt lika enkel som i klassisk animation; stillbilder som spelas upp i en viss hastighet per sekund beroende på mediet.

Illustration 1 - Animation skapas genom förändringarna som sker mellan varje stillbild som spelas upp i en speciell hastighet per sekund beroende på mediet. Illustrationen visar tjugofem bilder i ett collage som i regel utgör en sekund.

Vad är 3D-animation?

Termen skvallrar såklart om att det är "tredimensionell animation" det rör sig om. Men det existerar både klassisk analog 3D-animation, som man kan bland annat producera med dockor eller speciellt skapade figurer, och det existerar digital 3D-animation, som produceras i en dator och är vad den här boken handlar om. Med den analoga tekniken (som kallas stop-motion) tar man en bild på exempelvis en lerfigur, flyttar den, och tar en till, tills man fått tillräckligt många bilder för att skapa en animation. Lerfiguren i det här fallet är skapad för detta ändamål och samma princip gäller också för digital 3D-animation.

Det vill säga att det inte går att 3D-animera något i datorn som inte skapats och designats i form av en 3D-modell. När det handlar om leranimation utgör materialet givetvis grunden, tillsammans med de skulpturala traditionerna för hur man modellerar i lera, men för att kunna skapa 3D-modeller till digital 3D-animation krävs det att man kan hantera datorgrafik (computer graphics).

Det är en konstform som uppkom redan i början av sex-tiotalet, när den unge designern William Fetter vid flygplans-tillverkaren Boeing i Seattle behövde visualisera sitt arbete av utformandet av cockpits och flygplansstolar. I samband med arbetet skapade han den första tredimensionella datormodellen som föreställde en människa och som snabbt blev känd som ”Boeingmannen”.

Det dröjde inte lång tid förrän flera olika typer av datorgrafik existerade; dels uppkom tvådimensionell datorgrafik (2D-grafik), som så småningom utvecklades bland annat till bildbehandlingsprogram som Adobe® Photoshop®, Adobe® InDesign® och Adobe® Illustrator®.

Senare utvecklades den här tekniken till animerad datorgrafik som fick namnet 2D-animation, som man numera skapar med hjälp av animationsprogram som Adobe® Flash® till exempel. Parallellt utvecklades också en annan typ av datoranimation, som man idag kallar för 3D-animation och 3D-grafik, på grund av att den inte är platt, utan innehåller en extra dimension – precis som en skulptur gör i motsats till en teckning. För att kunna skapa den här typen av 3D-animation krävdes speciella program, som efter tiden utvecklades till vad man idag kallar 3D-animationsprogram.

Jag föredrar uttrycket ”datorgrafik” framför ”3D-grafik”, på grund av att det är en mer utbredd term, särskilt i engelskspråkiga länder, där man hellre använder termer som ”computer graphics” eller ”computer generated pictures” (dator-genererade bilder / CGI) än ”3D-graphics”. Det sistnämnda är nämligen en term som blandas ihop med all annan tredimensionell teknik, såsom när man ser på film genom ett par 3D-glasögon, som den här boken alltså inte handlar om.

Digital 3D-animation kan alltså kort sammanfattas som tredimensionell datorgrafik i rörelse, som jag i denna bok bara kallar 3D-animation för enkelhetens skull, och är alltså den typ av tredimensionell animation man producerat digitalt.

Det är en animationsteknik som används till specialeffekter, animerade långfilmer, visualiseringar av forskningsresultat och arkitektur, datorspel, med mera. Man kan dessutom dela upp denna animationsteknik i två olika renderingstekniker, en som kallas batchrendering och den andra realtids-rendering.

Rendering i 3D-animation kan jämföras med framkallningsprocessen av ett fotografi. Datorn måste nämligen matematisk beräkna stillbilder från animations-programmet för att vi ska kunna se en tvådimensionell representation av den virtuella världen.

Kort sammanfattat är batchrendering en typ av rendering i vilken en datorgenererad bild beräknas i en så pass långsam takt att man kan se den renderas bit för bit – det kan ta från några minuter upp till flera dagar beroende på komplexiteten. Därefter sparas den på ett lagringsutrymme, som en av flera tusen bilder som tillsammans utgör exempelvis en långfilm.

Batchrendering är oftast en långsam renderingsteknik, eftersom en två timmar lång animerad film består av omkring 180 000 renderade stillbilder som alla ska beräknas på det här sättet. Den andra typen av rendering sker i realtid i datorns minne och beräknas så snabbt att datorn kan uppdatera skärmen med upp till sextio bilder per sekund, utan att man ser de individuella bilderna renderas av datorn. Det här möjliggör att man exempelvis kan vandra runt i virtuella spelvärldar som reagerar blixtsnabbt på ens kommandon.

Digital teknologi

På bara femtio år har hanteringen av bilder och film förändrats från grunden i samband med övergången från analog till digital hantering. Vi kan till exempel kopiera bilder utan någon som helst försämrad kvalité, enkelt manipulera dem med hjälp av exempelvis färgjusteringar, lägga till eller ta bort information med bara några få knapptryck, och dessutom lagra bilder på mindre och mindre utrymmen för varje år som går. Det sker samtidigt med att bildkvalitén också blivit mycket bättre (även om det faktiskt inte var så i början av digitaliseringen).

Alltså är det viktigt med en viss grundläggande kunskap om digital teknologi för att kunna sätta sig in i alla aspekterna av 3D-animation. Datorn är ju ett digitalt medium, och till skillnad mot analoga system – som bygger på signalstyrkors höjd, bredd och frekvens, och så vidare – är datorn i grunden ett beräkningsinstrument som bygger på ett matematiskt språk som kallas det binära systemet – ett slags matematiskt system som genererar tal utifrån kombinationer av ettor och nollor.

Själva elektroniken i datorn härstammar från tiden innan man hade mikroelektronik och istället använde sig av en slags lampor som heter radiorör. De kunde skapa kombinationerna av ettor och nollor genom att vara antingen ”påslagna” eller ”avslagna”. Kombinationerna bildade sedan olika tal genom det binära systemet (som agerade som en tolk) och de första datorerna kunde på detta sätt beräkna matematiska funktioner eller algoritmer (en serie av matematiska kommandon som utförs) med hjälp av talen. Antalet och komplexiteten av algoritmerna är grunden vad en dator kan åstadkomma, som i början av utvecklingen inte var särskilt mycket mer än enkla matematiska beräkningar.

Ett konkret, aningen förenklat, exempel på hur en digital process kan fungera är en vanlig datorskärm. Den har till att börja med en upplösning som består av punkter där varje punkt består i sin tur av mikroskopiska lampor som kan tändas och släckas. I äldre skärmar ligger upplösningen vanligtvis på 800 punkter på bredden och 600 punkter på höjden, och om man multiplicerar dem får man totalt 480 000 punkter, vilket alltså motsvarar antalet lampor på en skärm som man kallar för ett raster av punkter. När exempelvis en linje visas på skärmen så tänds de punkter som ligger närmast varandra och tecknar på så sätt en linje. Men tittar man närmare ser man alltså inte en linje, utan såklart endast punkter som ligger väldigt nära varandra. Illusionen av linjen skapas med andra ord på grund av att vi inte kan se mellanrummen mellan punkterna (detta kallas rastergrafik i motsats till de tidiga skärmarna som byggde på vektorgrafik och som faktiskt ritade ut riktiga linjer).

För varje punkt på skärmen ska en algoritm alltså avgöra om den ska vara tänd eller släckt och det ska ske blixtsnabbt så att vi inte kan se uppdateringarna med blotta ögat. Dessutom är bilderna inte alltid svartvita, utan består av en gråskala eller färger, och då blir algoritmen genast mera komplicerad. Algoritmen ska nu istället ta hänsyn till tre små lampor vid sidan av varandra. En lampa för varje färg i rött, grönt och blått som visuellt blandas till alla färger vi känner till. Det krävs med andra ord en omfattande algoritm för att bara visa en enda bild i miljontals färger som idag är vardagsmat för en dator. Dessutom ska datorn idag inte bara kunna visa en bild, utan kunna visa flera och göra det så pass snabbt att vi inte kan se hur bilderna uppdateras, det vill säga att den visar bilderna i realtid. För om de uppdateras långsammare upplever vi hack mellan bilderna, vilket skulle omöjliggöra allt interaktivt arbete med datorn. Realtid är därför numera en förutsättning vi tar för givet när vi arbetar med datorer. Det skulle ju vara oacceptabelt om vi var tvungna att sitta och vänta medan bilderna uppdateras på skärmen.

Fast för inte så länge sedan, i slutet av sextiotalet, krävdes det faktiskt en skräddarsydd maskin för att bara visa en enda bild på skärmen som kallades en framebuffer. Det är lika ofattbart att tänka sig att i början av sextiotalet arbetade de flesta datorer med hålkort som man stämplade olika formationer av hål på. När man sedan matade in hålkorten i datorn (utan skärm) fick man en serie hålkort tillbaka. Men sedan man skapade de första digitala bilderna i början av sextiotalet har utvecklingen rasat framåt, och idag tar vi för givet att en dator, och all annan digital utrustning, ska kunna visa bilder och filmer i en strid ström – inte bara från ett lagringsmedium, utan också från avlägsna servrar runtom i världen.

Fotorealism

Ett koncept som går som en röd tråd genom 3D-animationens utveckling är målet att uppnå fotorealism – det vill säga när man inte längre kan skilja på vad som är datorgenererat och vad som är fotograferat med en kamera. Fotorealism är en komplicerad term av flera orsaker, framförallt på grund av att den utvecklats parallellt i två olika traditioner – både inom datorgrafikens och inom konst (framförallt konstmåleriet). Därför kan dess betydelse variera beroende på vem man frågar. I datorgrafik står termen dels för den renderingskvalitén som ska uppnås för att generera en bild fotorealistiskt i en dator. Forskare inom datorgrafik gör till och med empiriska tester om datorgenererade bilder är fotorealistiskt eller inte genom att jämföra dem med vanliga fotografier.

Exempelvis tar de ett fotografi av enkla geometriska former som de sedan modellerar virtuellt i datorn och renderar med likadana ljusförhållanden som fotografiet togs i. Därefter jämför de resultatet med fotografiet för att kunna urskilja skillnader och likheter och på så sätt avgöra om den renderade bilden är fotorealistisk eller ej. Denna procedur förklarar också varför man säger just fotorealism och inte bara realism; det är alltså fotografiet man förhåller sig till, och inte den verklighet som vi ser genom våra ögon. Fotorealism imiterar med andra ord den verklighet vi upplever genom fotografier i tidskrifter, filmer, på internet, och så vidare, men som alltså inte ”är” verkligheten som sådan utan en endast en platt bild av verkligheten i form av ett fotografi.

Fotografiet idag är nämligen en representation eller avbild av verkligheten som i regel är manipulerat så att både färger och ibland till och med motivet inte är detsamma i jämförelse med hur det egentligen skulle sett ut om vi hade stått på samma plats som kameran och sett på motivet med våra egna ögon.

För att 3D-animation ska uppfattas som realistiskt ska man alltså försöka få renderingen att efterlikna fotografier eller filmer, med dennes estetik vi är vana vid. Därför imiterar man optikens och kamerans förmåga att fånga ljus – men även dess brister. En kamera är exempelvis inte lika ljuskänslig som ett öga och det medför att fotografierna kan bli över- eller underexponerade (det vill säga bilder som är för ljusa eller för mörka). De flesta fotografer försöker undvika att det här sker men ibland använder de också effekten i ett konstnärligt syfte. I många datorgenererade bilder försöker man också att imitera det här fenomenet genom metoder som gör så att den datorgenererade bilden blir över- eller underexponerad, och därigenom öka fotorealismen i den datorgenererade bilden genom att imitera fotografiets tillkortakommanden.

Illustration 2 - Stillbild från filmen Fiat Lux (1999) av Paul Debevec, som visar en fotorealistisk rendering av St. Peterskyrkan i Rom med överexponerat ljus i delar av bilden.

Inom målarkonsten syftar fotorealism istället på en konst-inriktning – en slags visuell stil – som härstammar från 70-talet, i vilken man framställer världen genom realistiskt målade vardagliga motiv, som till exempel en ketchupflaska målad med ett fotografi som förlaga.

Det är en konstriktning vilket startade som en reaktion mot abstrakt expressionism (som är en stil som växte fram under modernismen med abstrakta motiv), för att återigen kunna gestalta världen verklighetstroget som man gjorde innan modernismen. Gemensamt för termen fotorealism, både inom datorgrafiken och konsten, är studiet av verkligheten och att viljan att framställa motiv som om de var fotograferade.

Men inom datorgrafik, och i synnerhet 3D-animation, behöver man inte nödvändigtvis porträttera något som finns i verkligheten för att kunna kalla det fotorealistiskt. Utan det viktiga är att man gestaltar motivet i ett fotorealistiskt ljus och beräknar bilderna i fotorealistisk renderingskvalité. Numera har också foto-realistiska datorgenerade bilder blivit så pass vanliga att man hellre talar om en fotorealistisk visuell stil inom datorgrafik. En stil som grundar sig på att beräkningarna av modellerna i datorn, och i synnerhet det artificiella ljuset, är fotorealistiskt gestaltade även om man framställer något som är högst orealistiskt.

Men varför är fotorealism så viktig för 3D-animation? Det beror på att redan från och med datorgrafikens födelse var målet med tekniken att kunna gestalta syntetiska objekt så verklighetstroget som möjligt. Det var så att säga teknikens heliga graal som berättigade dess existens som forskningsfält och drev såväl forskare som konstnärer framåt under 3D-animationens utveckling tills att man uppnådde de första fotorealistiska filmeffekterna under nittiotalet. Därefter har utvecklingen fortsatt genom att man gjort de första försöken att skapa helt fotorealistiska långfilmer, och sedan också filmer med fotorealistiska karaktärer. Sedermera har fotorealism också blivit ett reellt mål inom spelbranschen: att kunna generera fotorealistiska spel i realtid.

Jag själv, som varit med om en stor del av 3D-animations historia, upplever att från allmänhetens sida (och min egen) var målet med fotorealism högintressant i början av utvecklingen på grund av att för varje gång man kunde visa framsteg mot fotorealistiska bilder som en dator beräknat blev man alltid lika förundrad över hur det var möjligt för en maskin att kunna avbilda något så verklighetstroget – det var på gränsen till det ofattbara.

Det blev därför det naturliga målet att pröva gestalta 3D-animation på det här sättet under åttiotalet och en stor del av nittiotalet.
Det fanns därför inget större intresse för gestaltning av abstrakta former och andra visuella stilar inom 3D-animation under den här tiden – åtminstone väckte det inte lika stor uppmärksamhet som om man kunde visa något med så kallade fotorealistiska kvalitéer.

Men den här inställningen har till viss mån förändrats idag, när fotorealistiska bilder redan är ett faktum, och allt fler konstnärer väljer en annan väg. Fast med det sagt är fotorealism fortfarande ett slags rättesnöre för många för hur det ”ska se ut”, och för att komma undan problematiken med termen fotorealism har forskare börjat introducera en annan term i USA, nämligen visuell realism. Men den äldre termen verkar ändå ha bitit sig fast ordentligt, både bland många forskare och resten av branschen, och används därför fortfarande i störst utsträckning – och även i den här boken.

The Uncanny Valley

Det finns en vetenskapsteori som härstammar från japansk robotindustri som man kan använda sig av för att spekulera i hur fotorealistiskt något måste vara för att man som åskådare ska uppleva det som realistiskt. Teorin kallas för The Uncanny Valley, och enligt den uppstår det alltid ett glapp i utvecklingen mot realism när man framställer en konstgjord människa mer och mer realistiskt. Det sker på grund av att vi är så pass vana att se människor och därför är det extra svårt att framställa oss syntetiskt på ett trovärdigt sätt. Man brukar säga att om en karaktär ”hamnar i the uncanny valley” så upplever vi denna som ett animerat lik, för att vi genast kan se att den inte längre är en avbild (en slags symbol) på en människa men heller inte en riktig människa. Det gör oss misstänksamma och vi avkodar det vi ser som något ”onormalt” och en smula märkligt.

Enligt samma teori ökar sedermera realismen återigen om man fortsätter att förbättra de realistiska kvalitéerna och tillslut når man alltså äkta realism – när man inte längre kan skilja på vad som är verkligt eller inte. Inom datorgrafiken är det här målet uppnått i stillbilder, men har visat sig vara svårare när det kommer till animerade människor på grund av komplexiteten i hur vi ser ut och rör oss, i kombination med hur pass vana vi är att se människor och avkoda våra beteenden som normala eller onormala.

Illustration 3 - Robotskaparens Masahiro Mori teori The Uncanny Vally, där kurvan mot realism stupar drastiskt innan man når realistiska gestaltningar. Illustration Mashiro Mori

Man ska också förstå att det som ansågs att vara fotorealistiskt för några år sedan behöver inte nödvändigtvis vara det idag. Under datorgrafikens barndom på 60-talet beskrev forskarna exempelvis redan då deras resultat som att vara nära fotorealism. Det har såklart att göra med att vi människor hela tiden utvecklar vår uppfattning av vad vi upplever som verklighetstroget på bilder och i filmer.

När animatören Willis O´Brian gjorde King Kong (1933) tyckte publiken att animationerna var oerhört skrämmande och realistisk. Men ser man på samma sekvens idag skrattar man givetvis åt att någon kunde bli skrämd av den animerade gorillan som ser hopplöst konstgjord och handanimerad ut. Fotorealismen inom 3D-animation är likadan i detta avseende, vilket man inte ska glömma när man diskuterar teorier om fotorealism i samband med datorgrafik.

Svensk terminologi inom 3D-animation

Att skriva en svensk bok om 3D-animation är att frivilligt ge sig ut på ett språkligt minfält. För å ena sidan skriker de som värnar om språket för en fullständig översättning av alla termer, medan de aktiva inom 3D-animation skriker lika högt för meningslösheten i att ens ha svenska termer – så hur man än gör kommer någon att bli besviken.

Min första ambition var att översätta och introducera nya svenska ord för allt. Fast efter hand upptäckte jag, efter många misslyckade försök som sträckte sig över en lång period, att det var i princip omöjligt att översätta alla termer på grund av att jag faktiskt minskade förståelsen för ämnet genom att göra så. Det visade sig att när jag översatte alla begrepp och termer var resultatet på grund av alla nyintroducerade svenska termer att jag själv längre inte förstod vad det var jag skrev om – de förvirrade mera än vad de förklarade – vilket såklart var en katastrof i en bok i ämnet.

Ett exempel på det här är en term inom rendering som heter ”raytracing” på engelska. Jag översatte den till ”strålspårning” i början, som gjorde det visserligen enklare att uttrycka sig i det svenska språket grammatiskt, men var hopplös för mig som ett substitut för en term jag använt de senaste tjugofem åren, trots att jag prövade under lång tid. Det var först vid den här tidpunkt jag insåg att vi faktiskt redan har en svensk terminologi inom 3D-animation – ett språk som vuxit sig ut ur talspråket som i många fall redan är väl fungerade.

Jag kapitulerade därför inför detta faktum: att jag kan inte kan ändra det befintliga språket vi har inom 3D-animation utan istället bara skriva ner det och använda mig av det. Precis som ett ord som ”tajmning” har blivit försvenskat är jag fast övertygad om att dessa nya ord också en dag kommer bli vanliga svenska ord i takt med att animationstekniken sprider sig.

Fast med det sagt var det också några av de svenska termer som finns inom 3D-animation jag upplevde allt för svengelska för att användas i en svensk bok, som till exempel smoothing. I de fallen valde jag att översätta dessa typer av ord med svenska terminologi med en tillhörande parentes till första gången jag översatte den engelska termen, till exempel: ”modellen uppmjukas (smoothing) med denna funktion”. Efter att jag gjort översättningarna på det här sättet kunde jag uppleva fackspråket som jag är van till i texten, bara bättre grammatiskt och lättläst. Därmed fann jag en språklig gyllene medelväg som jag hoppas tillfredsställer många i båda lägren.

Dessutom har jag undvikit att skriva ut förkortningen 3D allt för ofta, på grund av att det heller inte är representativt hur fackspråket är. Vi pratar hellre om en modell än om en 3D-modell till exempel, samt att i en bok om 3D-animation tycker jag att det i nio fall av tio är självklart att det är den typen av animation jag menar när jag skriver animationen till exempel – i många fall gör också förkortningen 3D texten mera svårläst. Även denna förenkling var en uppenbarelse för mig på grund av att jag kom närmare fackspråket vi faktiskt använder.

Utöver termen modell i boken använder jag också termen objekt men syftar då till mer generella objekt inom 3D-animation, så som exempelvis ljuskällor och digitala material; som alltså är objekt i programmet men inte modeller, på grund av att de saknar den tredimensionella beskrivningen som en modell har. En modell är visserligen också ett slags objekt i programmet. Men jag valde termen modell i texten för att kunna precisera att det var en tredimensionell modell jag syftade till.

3D-animationens historia

I det här kapitlet går jag igenom de viktigaste händelserna i 3D-animationens historia utifrån mitt perspektiv som konstnär snarare än teoretiker. Det ska alltså inte betraktas som en heltäckande historiebeskrivning, skillnaden här ligger främst i att jag ofta betonar mera praktiska aspekter i framväxten av datorgrafik. Det här ger nämligen läsaren, förutom det historiska perspektivet, en introduktion och detaljkunskap om grundteknikerna i 3D-animation som gör resten av boken mera lättläst.

Utvecklingen av 3D-animationen har mestadels ägt rum i USA, främst på grund av den omfattande finansieringen från det amerikanska försvaret och senare också filmindustrin, men det betyder inte att ingen utveckling har skett i Norden. Alltså avslutar jag kapitlet med en kort överblick av utveckling i Sverige som faktiskt var en nation som låg rätt så långt fram under teknikens barndom men föll tillbaka i slutet av 80-talet. Längst bak i boken finns det en tidslinje som också visuellt illustrerar den historiska utvecklingen som gör det enklare att följa med.

De tre tidsperioderna

Jag har delat upp 3D-animationens historia i tre tidsperioder: pionjärtiden, introduktionsperioden och etableringsperioden. De två första namnen har jag lånat från boken The Visualization Quest (Valliere Richard Auzenne, 1994). Det är en bok som ger en utmärkt överblick av de första två perioderna. Från den tid när 3D-animation först präglades av ett fåtal människors arbete på forskningscenters i USA till att tekniken sprider sig till den kommersiella sektorn och animationstekniken slutligen introduceras till allmänheten genom filmindustrin i första hand. Den sista perioden i utvecklingen har jag själv namngett med syftet att understryka att det sker en markant spridning av tekniken som etablerade 3D-animation som ett vanligt verktyg inom områden för visualisering, filmeffekter och animerad film.

Det här sker samtidigt som den digitala revolutionen inom bildbehandling och film äger rum, vilket bidrar till att 3D-animation successivt omkullkastar de äldre analoga arbetsmetoderna. Datorer blir också billigare för varje år. Det här gör tekniken mera tillgänglig för mindre företag att investera i och sedan också för enskilda personer. Alla de här faktorerna bidrar till att 3D-animation sprids som en löpeld runtom i världen och blir standardtekniken för att skapa visuella effekter, visualisera forskningsresultat och arkitektur samt animera filmer och spel med.

De tre tidsperioderna överlappar varandra. En tidperiod övergår till en annan gradvis, såsom när tekniken till exempel flyttar från ett forskningsinstitut till en kommersiell firma, som alltså inte sker på endast ett år. Pionjärtiden startar när datorn uppfinns, i början av femtiotalet, och pågår fram tills skiftet mellan sjuttiotalet och åttiotalet, när introduktionsperioden tar vid, främst genom kommersialiseringen av 3D-animation.

Introduktionsperioden övergår sedan till etableringsperioden i slutet av åttiotalet och början av nittiotalet, när tekniken på allvar etableras genom populärkulturen. Etableringsperioden är vi fortfarande inne i, men man kan diskutera om vi befinner oss i slutet av den här perioden eller till och med i en helt ny. Där istället datorspelens utveckling av realtidsanimation är i fokus, som är en typ av 3D-animation som beräknas så snabbt att man kan interagera med den fysiskt. Men det är för tidigt att avgöra hur viktig den här utvecklingen kommer att bli för 3D-animation som helhet, så här nöjer jag mig med att placera den här utvecklingen inom etableringsperioden.

Pionjärtiden (1950 – 1980)

Den här första perioden inleds i början av femtiotalet i och med att de första datorerna uppfinns. Tio år senare görs de första datorgenererade bilderna. Dessa bilder består av trådmodeller som är genomskinlig streckgrafik, och utvecklas sedan i takt med tekniken så att de blir tonade med en gråskala, för att sedan få en mjukare toning med flera gråskalor, och tillslut färg och sist textur. Under den här perioden är datorkraften minimal i jämförelse med moderna datorer, men kostar ändå så mycket att bara ett fåtal forskningscenter kopplade till universitet eller det amerikanska försvaret har råd att ha en så kallad superdator som flera forskare delar på.

Alltså är den typiska personen som använder datorgrafik under pionjärtiden en forskare som gör olika typer av tekniska visualiseringar. Men det finns också undantag, som när forskare blev mer och mer konstnärligt intresserade och började skapa konst med hjälp av tekniken. Eller omvänt, när konstnärer istället kom i kontakt med forskningscenters och lärde sig att programmera för att kunna använda tekniken.

En annan anmärkningsvärd aspekt är att några av de pionjärer som kom i kontakt med tekniken på sextiotalet kom att prägla hela 3D-animationens utveckling. Här tänker jag främst på en forskare vid namn Dr. Edwin Earl Catmull (Ed Catmull), som är en nyckelperson från pionjärtiden. Han gör bland annat några av de första viktiga upptäckterna under sjuttiotalet och vars karriär man sedan kan följa som en röd tråd fram tills idag. Catmull är nu en av de mest inflytelserika personerna i branschen, bland annat som initiativtagare och grundare av animationsbolaget Pixar, och är i skrivandes stund operativ chef på Disney. Men innan jag kommer in på detta vill jag börja där allting startade; det vill säga med den tidiga datortekniken och framväxten av datorer och skärmar.

De första datorerna

Utvecklingen av den moderna datorn (som i grund och botten är ett matematiskt redskap) kan spåras tillbaka till kulramen i tolvhundratalets Kina som är det första instrument för olika typer av beräkningar. Den digitala utvecklingen däremot brukar man kreditera Joseph Marie Jacquard som 1801 konstruerade en vävstol som kunde sy enligt bestämda mönster tack vare stämplade hål på ett hålkort. Utifrån den här tekniken utvecklade sedan uppfinnaren Hermen Hollerith en maskin för folkräkning i USA under slutet av 1800-talet som blev stommen för de första datorerna i det berömda datorföretaget IBM (International Business Machines). Själva datorskärmen härstammar från det så kallade katatodstrålröret, ett slags radiorör som kan producera ljus om en elektron slungades mot den och som också utgjorde grunden för forskaren Philo Farnsworth uppfinning av televisionen 1927.

Uppkomsten av den moderna elektroniska datorn finansierades av det amerikanska försvaret vars hopp var att utveckla en maskin till krigföring och bevakning av landet. Den första datorn hette ENIAC (Electronic Numerical Intergrator and Computer) och fyllde två hangarer med radiorör (närmare bestämt 1900 radiorör med en sammanlagd vikt på över 30 ton). Trots tyngden på datorn hade den en beräkningskraft mindre än en modern digital klocka. Dessutom saknade den en skärm så att all kommunikation med ENIAC skedde med hjälp av hålkort. Nästa generation av datorer var den så kallade Whirlwind-datorn, som också utrustades med en skärm och tillverkades vid Massachusetts Institute of Technology (MIT).

Whirlwind var också den första datorn man kunde producera 3D-animation på tack vare att den hade förmågan att presentera komplicerad matematisk information i form av animationer på skärmen; en förmåga som till och med visades upp i amerikansk television för första gången 1951, i det populära tv-programmet See it Now (1951-57).

Demonstrationen innehöll en studsande boll på en skärm, samt en grafisk animation som visade hur en raket färdas genom luften och showen avslutades med att datorn spelade julsången bjällerklang med elektroniska datorljud. För många framtida forskare och makthavare var den här demonstrationen en ögonöppnare. Whirlwind-datorn serietillverkades emellertid till en mer praktisk funktion i luftförsvaret, som gick ut på att identifiera radarpositioner på en skärm, och döptes då om till SAGE (Semi-Automatic-Ground-Environment).

Två nya datorer, TX-0 och TX-2, beställdes senare från det amerikanska försvaret. De var otroligt dyra för MIT att utveckla och projektet ifrågasattes ekonomiskt ett flertal gånger eftersom det var svårt att uppskatta hur mycket användning försvaret egentligen hade för datorerna. För forskarna var emellertid den här första finansieringen den enda möjligheten de hade för att vidareutveckla datorn, och med försvarets finansiering kunde de bland annat utveckla transistorn som ersatte radioröret så att datorn blev betydligt mindre än den hade varit innan (så att den ”bara” fyllde ett rum). Vid samma tid, utifrån forskningsresultaten vid MIT föddes det första renodlade datorföretaget Digital Equipment Corporation (DEC, eller bara ”Digital” som man ofta kallar det). De utvecklade en serie av datorer som de döpte till PDP-serien.

En av dessa datorer i serien kom att bli en milstolpe inom 3D-animation. Den hette PDP-11, lanserades 1970 och var relativt liten (ungefär som ett klädskåp), och hade förhållandevis mycket datorkraft för den tiden (en 16-bit processor och 32 kilobyte minne). Den levererades dessutom med en så kallad CRT-skärm (en annan typ av äldre skärm än våra moderna raster-baserade skärmar) som kunde visa trådmodeller på skärmen som man kunde trycka på med hjälp av en ljuspenna. Den här datorn kom att bli stommen i de flesta forskningscenter som arbetade med datorgrafik, även om det inte var särskilt många vid denna tidpunkt.

John Whitney Sr. – pionjär inom analog datoranimation

Innan datoranimationer dök upp fanns det faktiskt ett fåtal forskare och konstnärer som sysslade med abstrakt animation med hjälp av så kallade analoga datorer. Det är datorer som bygger på signalstyrkors höjd, bredd och frekvenser. Abstraktanimation härstammar från animatörerna Oskar Fischinger och svenska Viking Eggeling på 30-talet som gjorde närmast grafiska animationer utan figurativt innehåll med mönster och geometri. En abstrakt animatör som också titulerats som den stora föregångaren till 3D-animation är John Whitney Sr. Tillsammans med sin bror byggde han om en gammal luftvärnskanon från andra världskriget till en animationsmaskin.

Tekniken byggde på att han hade en roterande bild på en trumma som han med hjälp av olika analoga instrument skapade abstrakta psykedeliska mönster med. Sitt mest kända verk skapade han tillsammans med den grafiska designern Saul Bass – introsekvensen till Alfred Hitchcocks film Vertigo (1958). Animationen bestod av olika enkla mönster i form av linjer och prickar, återgivna med matematisk perfektionism. Ett par år senare skapade Whitney Sr. ett filmkollage av merparten av sitt arbete i form av en film vid namn Catalogue (1961), och därefter också filmen Lapis (1965), samt sitt mest berömda verk, Permutation (1968). Den sistnämnda är en typisk film för den tiden och bestod av psykedeliska mönster ackompanjerade med indisk musik som för ens tankar till hippierörelsen. Whitney Sr. blev en stor inspirationskälla för både de unga forskare och konstnärer på den tiden. Han blev senare lärare på universitetet i Los Angeles (UCLA), där han tillsammans med sina elever undersökte vad han kallade visuell harmoni.

De första teknikerna

Datorgrafik utgör alltså grundelementet för 3D-animation och i början av sextiotalet uppfanns de första teknikerna för att visualisera modeller. Inledningsvis var formen inte tonad utan bestod av enkla streck man kallade kurvor eller trådar. De var alltså färglösa och genomskinliga och det var bara kurvorna som preciserade hur formen såg ut. Pionjärforskningen inom det här nya fältet bedrevs framförallt på två universitet Harvard och MIT. Professor Steven A. Coons på MIT hade en vision av att man i framtiden skulle kunna använda datorer som kraftfulla designverktyg för konstruktion.

Under andra världskriget hade han arbetat med att bygga flygplanskroppar och det inspirerade honom till att finna en lösning för att konstruera dem matematiskt i en dator. Arbetet ledde 1964 fram till den så kallade Coon-ytan (Coon Patch). Den utgör grunden för kurvmodellering inom fälten för datordesign och konstruktion och som ofta kallas CAD/CAM (Computer Aided Design/Computer Aided Construction). Den här typen av datoriserad konstruktion gör det möjligt att bygga och visualisera former i en dator men är framförallt ett designverktyg för att man ska kunna konstruera de ytor man skapat i datorn med maskiner som kan svarvar dem matematiskt exakt. Coon har dessutom fått namnge ett av de mest prestigefyllda prisen inom forskningsfältet för datorgrafik: Steven Anson Coons Award for Outstanding Creative Contributions to Computer Graphics. En av hans tidigare elever på MIT, forskaren Ivan Sutherland, blev 1983 den första mottagaren av priset.

Det första interaktiva programmet

Ivan Sutherland gjorde det första grafiska interaktiva programmet till en dator. Han lärde sig grunderna i programmering redan som tonåring och sökte sig till MIT för sin doktorsavhandling eftersom han visste att de hade en dator med skärm och ljuspenna. Med de här möjligheterna såg han det som upplagt att programmera ett interaktivt ritprogram till den datorn. 1963 lade han också fram sin avhandling för MIT med tillhörande datorprogram vid namn Sketchpad: A Man-Machine Graphical Communication System.

I det här programmet kunde man rita enkla geometriska former med vektorgrafik såsom kuber och cirklar samt binda dem samman formerna med linjer. Man kunde också rotera de ritade formerna på skärmen, så att man kunde se modellerna från olika vinklar, samt zooma in och ut på datorkanvasen och spara sitt arbete. Med hjälp av ritfunktionerna i programmet kunde man även sammanlänka streck och former till perfekta symmetrier så att det räckte med att dra en linje på skärmen för att till exempelvis skapa en kub (en teknik som fortfarande används i dagens moderna ritprogram).

Med Sketchpad kunde man även förändra en modell så att andra sammanlänkade modeller anpassade sig efter den. Ändrade man exempelvis storleken på en bils hjul så anpassade sig bilens form proportionellt efter hjulen. Det var möjligt tack vare att ritprogrammet var baserat på vektorgrafik, vilket bygger på matematisk linjär algebra där varje modell beskrivs matematisk istället för med bildinformation (vektorgrafik förekommer fortfarande i många program, såsom Adobe® Illustrator®). Ivan Sutherland flyttade så småningom till Harvard – där han utvecklade en typ av hjälm som är föregångaren till dagens virtual reality-hjälmar och som han kallade för Head Mounted Display (HDM) – och därefter blev han rekryterad som forskningschef för en ny datoravdelning på University of Utah, som var den viktigaste institutionen under pionjärforskningen.

De första 3D-animerade kortfilmerna

Utöver General Motors (GM), MIT och Harvard drev också telefonbolaget AT&T ett forskningscenter som heter Bell Laboratories (Bell Labs), där man forskade i all tänkbar kommunikation för framtiden. En rad kända forskare inom området började sina karriärer vid Bell Labs. Där utvecklade de olika tekniker för bildbehandling och digital bildperception och det var också här den första 3D-animerade filmen skapades.

Detta skedde i samband med att man 1961 installerade en filmprinter, som gjorde det möjligt att skriva ut bilder på mikrofilm och sedan visa dem som en film i en projektor. Det började med att forskaren Edward E. Zajac blev intresserad av möjligheterna att med hjälp av animation visualisera en matematisk beräkning han hade gjort för hur en satellit kunde justeras i sin omloppsbana. Det är den första 3D-animerade filmen, med det tekniska namnet: Simulation of a Two-Gyro Gravity-Gradient Attitude Controll System (1963). Filmen är väldigt kort, enbart några få sekunder lång, och visar hur en geometrisk form roterar i en cirkel runt en annan.

En kollega till Zajac, forskare Frank W. Sinden, gjorde därefter en längre film i form av den tio minuter långa Force, Mass and Motion (1966) som illustrerar Isaac Newtons rörelselagar och är imponerande för sin tid. De här tidiga filmerna är givetvis långt ifrån så komplexa som dagens animationer och saknar den konstnärliga finess i rörelserna som animation är förknippat med idag.

De är råa visualiseringar av komplicerade vetenskapliga resultat och beräkningar; något som 3D-animation var ett riktigt bra verktyg för redan i början av dess utveckling och som animationstekniken fortfarande används till. Filmerna bidrog även till att legitimera datorgrafiken som ett nytt forskningsfält genom att visa hur man kunde använda sig av animation för att förklara något komplicerat. Detta faktum gjorde att man också kunde bjuda in konstnärer till Bell Labs för att delta i den här första utvecklingsfasen av datorgrafiken. De kompletterade den tekniska kompetensen hos Bell Labs med kunskap från konstmåleri och filmskapande.

Kombinationen av forskaren och konstnär visar sig också utgöra en potent blandning av kompetens under 3D-animationens utveckling och man finner flera exempel på samma kombination under hela dess historia fram till idag.

Två forskare från Bell Labs som framträdde lite extra i det här sammanhanget är först Michael Noll, som koncentrerade sig på datorgrafik och 3D-animation, och skapade mycket av den första pionjärkonsten inom området. Han arbetade visserligen ensam men var i konstant dialog med konstnärer och konstkritiker. Den andra är Ken Knowlton, som fokuserade sig på bildperception med datorgrafik samt datoranimation tillsamman med konstnärerna Lillian Schwartz och Stan VanDerBeek. Tillsammans gjorde de några av de första animerade filmerna med hjälp av datorgrafik.

Den förste hybridkonstnär

En annan av pionjärerna var forskaren och konstnären Charles Csuri, som är den första konstnären inom datorgrafik som också kunde behärska den matematiska delen. Det vill säga programmering och de algoritmer och formler som var nödvändiga under teknikens barndom. I grunden var han en bildkonstnär, klasskamrat med Roy Lichtenstein (en av Pop Artrörelsens mest kända företrädare) på Ohio State University i början av 50-talet. Csuris tidiga målningar ställdes ut i gallerier i New York mellan 195565, som bland annat bestod av porträtt av hans berömda klasskamrat.

Men då han kom i kontakt med den nya datortekniken genom universitetet blev han genast intresserad och lyckades arrangera så att han kunde återvända som lärare vid samma universitet som han tagit examen vid och på så sätt börja experimentera med datorgrafik. Det ledde redan ett år efter fram till hans första illustration Sine Curve Man (1966) som bestod av en äldre mans ansikte gjord med kurvor – den första representativa bilden av ett ansikte med hjälp av datorgrafik.

Csuri digitaliserade en teckning han hade gjort genom att registrera de viktigaste utmärkande ansiktsdragen av den äldre mannan till koordinater som datorn sedan kunde dra kurvor mellan.

Utöver illustrationer gjorde han också animationer som Flies in a Circle (1966) är ett exempel på. Ett verk som bestod av ett speciellt datorprogram som placerade ut flugor slumpmässigt inom ett område på skärmen. Precis som Michael Nolls arbete på Bell Labs kretsar många av Csuris första verk på Ohio State University just kring undersökningar av datorns förmåga till kreativt skapande genom slumptal och matematiska formler. Men Csuri behöll däremot rollen som individuell konstnär i motsats till Noll som undersökte främst datorns förmåga att återskapa befintliga konstverk.

1970, efter att man sett Csuris arbeten och i synnerhet hans animationer, fick han en inbjudan att presentera sitt arbete i IBM:s showcase-byggnad i centrala Manhattan. Inför sin presentation programmerade han datorer tre dagar i sträck och i samband med presentationen visade han också upp tekniken bakom sina verk och förklarade hur han hade skapat dem. Det här var den första utställning när allmänheten fick möjligheten att bekanta sig med datorgrafik samt få en inblick i hur man skapade bilder och animationer med hjälp av den nya animationstekniken. Människor flockades dit och bland besökarna fanns bland annat en nyfiken Salvador Dali.

Konstverken som Csuri gjort visades också på museum och filmfestivaler världen över och bidrog på så sätt till spridandet och erkännandet av den nya teknologin. Csuri vann också pris på den internationella filmfestivalen för experimentfilm i Bryssel 1967 för sin tio minuter långa Hummingbirds (1967). En kortfilm som visar en datoranimerad kolibri som svävar i luften och bryts ned i småfragment och byggs upp igen. Året därefter köptes filmen också in av Museum of Modern Art (MoMa) i New York, som ett av de första verk som representerade den tidiga datoranimerade konsten.

Parallellt med hans offentliga framgångar fortsatte Csuri att experimentera med olika projekt som enade konst, animering, programmering och datorteknik. Det ledde fram till att han fick ekonomiskt stöd av National Science Foundation, för att bedriva forskning inom området för datoranimation. Med hjälp av det stödet startade han en speciell avdelning på Ohio State University så att de studerande fick tillgång till den nya datortekniken för att utveckla datorgrafik och i synnerhet 3D-animation. Avdelningen döptes till Computer Graphics Research Group (CGRG) och samlade interdisciplinära kunskaper från olika fakulteter såsom konst, matematik, industridesign, fotografi, film och datorvetenskap. Det här var en medveten strategi från Csuris sida; att utveckla tekniken genom att arbeta över gränserna och avdelningen är fortfarande aktiv och har spelat en stor roll för framförallt utvecklingen av animationsverktyg för 3D-animation.

University of Utah (UU)