Sök ikon

KRÖNIKA

DAVID FENDRICH: Bortom ChatGPT – AI-agenterna är här för att stanna

David Fendrich, gästkrönikör och CTO Tenfifty. Foto: Press/iStock

Hur snabbt är vi redo att anpassa oss till en värld där personliga agenter styr våra digitala liv och språk blir det dominerande gränssnittet?

Breakit

Breakit

nyheter@breakit.se

Nästa AI-revolution kommer inte att handla om robotar, självkörande fordon eller GPT-5. I några månader har vi haft en chattande assistent vid vår sida, kunnig inom de flesta ämnen och en källa till idéer och inspiration. Men något saknas. Det känns fortfarande inte riktigt som de personliga datorassistenter som science fiction utlovat. Anledningen är att ChatGPT är en chattbot, men våra fiktiva följeslagare är rationella agenter. Det är en term för delvis autonoma program som försöker att uppfylla mål med sina handlingar. Agenter agerar. För att göra det väl krävs några avgörande komponenter.

  • Använda verktyg
    Språkmodellerna, som de ser ut i dag, är inte särskilt analytiskt intelligenta. De har svårt med matematik och andra områden där vi förväntar oss att datorer ska briljera. Det är dock inte så svårt att låta dem använda externa verktyg för att lösa några av dessa tillkortakommanden. Bing tog steget att låta sin bot söka på nätet, men det finns många andra specialiserade verktyg som kan hjälpa en språkmodell att besvara frågor utanför sin direkta expertis. Exempelvis databaser, karttjänster, schackdatorer eller en skyddad programmeringsmiljö för att exekvera program. Några av dessa källor finns redan tillgängliga som tredjepartsmoduler i en betaversion av ChatGPT. En del av att vara människa är att använda verktyg. Det måste våra virtuella vänner också vänja sig vid.
     
  • Individanpassa
    Språkmodeller minns inte alltid vad de sett i sitt träningsmaterial och fabulerar gärna friskt. De saknar också minne eller inlärning kopplat till specifika konversationer. En lösning som prövats är att använda så kallade vektordatabaser, som möjliggör sökning efter semantisk betydelse snarare än ord. För att göra agenten mer personlig kan den läsa, indexera och anpassa sig efter allt du skriver och läser, samt i professionella sammanhang även läsa företagsdokument. Denna typ av information är mer känslig, så när vi hjälper företag med liknande saker så väljer de flesta att köra språkmodeller lokalt. Förhoppningsvis väljer även de flesta privatpersoner att ha det så när de personliga agenterna kommer.

     
  • Agera
    Att använda verktyg för att ställa frågor är relativt harmlöst. Det blir snabbt både mer användbart och riskabelt om din agent får lov att påverka sin omgivning. Att låta en dator agera innebär att den till exempel får redigera filer, skicka e-post, modifiera sin egen källkod, handla online eller ringa och förhandla med din bank om bättre huslån. Agenten utför alltså handlingar för att uppfylla något mål som du gett den, snarare än att enbart svara på frågor. Det enklaste sättet att låta en språkmodell agera är att ge den ett kommandovokabulär som tolkas och exekveras av ett yttre program. Det kan naturligtvis leda till en humoristisk katastrof om du släpper lös en agent med en dåres självsäkra energi och full tillgång till ditt bankkonto och din kontaktlista, så de första programmen som nu experimenterar med detta kräver att användaren bekräftar varje handling agenten vill utföra.

     
  • Resonera
    För att uppnå mer komplicerade mål räcker det inte att bara utföra enstaka åtgärder. En agent behöver skapa en övergripande plan och gradvis bryta ned den i mindre steg, så att den kan fokusera på en detalj i taget, använda sina externa verktyg och agera. Ett effektivt sätt att förbättra språkmodellernas analytiska förmåga är att explicit be dem tänka stegvis och redovisa sina delsteg. I november förra året visade Google upp ReAct – en enkel metod för att just blanda detta stegvisa resonerande med handlingar. Det är också bra om din agent kan välja hur länge den ska tänka, så kallad "pondering". Just nu tar alla språkmodeller en fast tid på sig per ord, men vi vill ju helst att de ska kunna fundera mer på ett problem när de behöver. En annan metod som nyligen dykt upp för att förbättra resonemang är att använda en kritisk språkmodell som kontinuerligt ifrågasätter och utmanar det en genererande modell producerar – en form av intern dialog.

De första stapplande stegen mot personliga agenter är redan tagna. Strax före påsk exploderade intresset för hobbyprojekt som AgentGPT, Auto-GPT och BabyAGI. Den som provar dem nu kommer sannolikt bli besviken, trots några få flitigt delade framgångssagor. Det dröjer innan vi ser alla fyra ovanstående steg integrerade och lika lättillgängliga som ChatGPT. Dessutom återstår mycket arbete inom varje steg – utvecklingen kommer att ske iterativt. Men nu har både företag och privata entusiaster fått blodad tand. Alla ser potentialen. Allt fler ser också faran hos agenter som oövervakat får ge sig ut och påverka vår vardag, driva egna företag eller förbättra sig själva. I skrivande stund finns det minst ett öppet projekt som försöker låta BabyAGI, än så länge utan någon större framgång, skriva om sin kod helt på egen hand.

När intelligensen väl är på plats måste den även integreras i vårt digitala liv. Google, Apple och Amazon vill integrera tekniken i sina assistenter, mobiloperativsystem och webbläsare. Microsoft verkar främst sikta på att göra det genom Office. Inget av dessa företag kommer sannolikt våga trycka lika hårt på gasen som mindre aktörer, eftersom deras värdefulla varumärken gör dem mer fega, försiktiga och förmodligen förnuftiga. Adept, ett gäng avhoppare från AI-jättarna, har skapat något de kallar "action transformers". Dessa har mer detaljerat agerande inbyggt, som till exempel att klicka runt i Excel. Adepts mål är att implementera sin första modell, ACT-1, i operativsystem eller företagsinfrastruktur som en "virtuell kollega". Projekten som bygger på öppen källkod kommer i sin tur bland annat integreras som en insticksmodul i webbläsaren eller som mobilapp.

Det är osäkert om vi plötsligt får en AssistantGPT™ med en miljon användare på tre dagar och en egen sektion på BreakIt, eller om agentifieringen sker så gradvis att vi om något år är där utan att märka hur det gick till. Det kanske största hindret för viral spridning, jämfört med ChatGPT, är att gränssnittet till en chattbot är så enkelt. För att en agent ska kunna utföra verkligt intressanta uppgifter krävs mer information, rättigheter och förtroende från användaren. Hur snabbt är vi redo att anpassa oss till en värld där personliga agenter styr våra digitala liv och språk blir det dominerande gränssnittet?

*Denna krönika är till 90% ett resultat av mänskligt hantverk. Stöd din lokala människa.

DAVID FENDRICH, CTO Tenfifty

Läs mer