Det florérer med websider og apper som kan lage tekst, lyd, bilde, og til og med video og 3D-figurer. Såkalt generativ KI. Men hva er best?
Martin Ask Eriksen er filmklipper, motion designer, foredragsholder innen kunstig intelligens og gjestespaltist i Teknokratiet. Denne saken ble først publisert på martineriksen.me.
GenAI tekstgenerering – OpenAIs ChatGPT 4
ChatGPT en tekstbasert generativ KI-tjeneste jeg benytter daglig. Selskapet OpenAI gjorde en genistrek: Ved å slippe en uferdig tjeneste ut i verden ble vi alle deres forsøkskaniner. Slik kunne de lære av folks interaksjon med tjenesten, og deres data-input, i stedet for å la GPT være i beta i mange år.
Les også: Norske elbusser i hardt vær. Får internasjonal oppmerksomhet
På fritiden bruker jeg appen på iOS med stemme-til-tekst mulighet. Jeg har praktisk talt byttet ut Siri med GPT. Jeg spør om matoppskrifter ut i fra ingrediensene i kjøleskapet. En kveld trengte jeg en bisarr brettspillregel så jeg spurte den brettspill-rettede GPT-agenten Game Time om den kunne bistå meg. Det kunne den!
Google Bard er god når det ikke gjelder
I jobb har jeg laget en GPT-agent kalt Reklamehjelpern, som jeg har fôret med treningsmateriell som gir meg konkrete tilbakemeldinger på utkast til stillbilder som jeg viser den. Universell utforming har aldri vært mer sexy. Jeg har også oversatt juridiske tekstdokumenter fra engelsk til norsk.
Google Bard er en nykommer som ikke har klart å ta over for ChatGPT til tross for at den er gratis. Det jeg bruker Bard til er å oppsummere lange Youtube-videoer, gi meg sammendrag om kjente personer, og fortelle meg på en enkel måte, hva en nettside brukes til – ting som ikke er så viktig, hvor Bard kan få lov til å gjøre feil.
Best generativ KI for lyd og musikk
I Adobe Premiere Pro finnes et lydpanel jeg har brukt flittig i flere år nå: Essential Sound. Dette bruker jeg for eksempel når jeg vil gjøre en rask justering på et lydspor, som å forsterke eller rydde opp i et taleopptak.
En ny tjeneste jeg snakker om i mine foredrag, er Vocal Remover. Funksjonen ligger i navnet. Den fjerner og separerer vokaler fra instrumenter, og har gjort at jeg har kunnet finjustere video der jeg ikke ønsker kranglende vokaler med dialog.
Jeg betaler ennå ikke for noen AI-musikktjeneste, men jeg har lekt meg med MusicGen på HuggingFace. Den lager 15-sekunderssnutter som man fritt kan laste ned, uten å registrere bruker. Kvaliteten er ikke helt Zimmersk enda, men morsomt, dog!
Under er en video med et bilde laget i Midjourney med musikk fra MusicGen. Satt sammen i After Effects:
AI som lager en robotaktig potet-hjort? Fortsett å lese.
3D
Nylig ble jeg tagget i et innlegg på LinkedIn med et artig eksempel på hvordan man kan bruke Luma AIs «/genie-funksjon» i deres Discord-kanal, til å lage spesifikke «low-poly» 3D-modeller.
Deretter kan det kombineres med en bilde-GenAI som Stable Diffusion, Adobe Firefly eller Midjourney.
Video med kunstig intelligens
Feltet vi snakker desidert mest om i det daglige på jobben. «NÅR KAN VI GENERERE NESTE VIDEO-AD?»
Tekst til video / bilde til video / video til video er enda i en såpass tidlig fase at det ikke er noe vi kan benytte oss noe effektivt av. Med mindre vi lager drømmeaktige sekvenser og trenger noe halvabstrakt.
Her er et eksempel:
Jeg får lyst til å ta en paracet og ibux når jeg ser dette. Generert av RunwayML.
Hvis man myser og ikke bryr seg om utviklingen i bildet, så ser det lovende ut. Har man derimot vært innom Specsavers, kan man se en hysterisk mann til venstre som skriker munnvikene av seg, og i midten bak en mann som blir til en kylling, og deretter til en kentaur?
Det blir dessverre ikke spesielt mye bedre av å gjøre en text+image to video heller. Se eksempel:
Ingen som transformerer seg til ulike dyr her, men vi har likevel en tilsynelatende utstoppet hund som sklir på en tynn islagt asfalt. Og biler som ser ut til å krasje i et tre på høyre kant.
Jeg lever virkelig i feil tidsalder.
Reklamefilmklipper, motion-designer og foredrag- og kursholder innen kunstig intelligens.