Mijn eerste stappen in de wereld van AI: de kracht van ChatGPT en MidJourney

In het laatste kwartaal van 2022 stuitte ik op fascinerende blogposts die spraken over AI-tools voor tekst-naar-beeld, zoals Stable Diffusion en MidJourney. De belofte die deze tools met zich meebrachten, wekte een ongekend enthousiasme in mij op en al snel besloot ik te beginnen met experimenteren. Hoewel de resultaten destijds verre van perfect waren, zoals personen met vervormde gezichten en met onhandige handen voorzien van een ongewoon aantal vingers. Bovendien waren de gegenereerde beelden regelmatig gemaakt met te veel of juist te weinig ledematen.

Met het aanbreken van het jaar 2023 wist ChatGPT zich een weg te banen naar de schijnwerpers van de reguliere media, en ook ik kon niet achterblijven. In plaats van willekeurig met de verschillende AI-tools te experimenteren, besloot ik een specifiek project te beginen waarin ik ze op een doelgerichte manier kon benutten. Gezien mijn eerdere ervaring met het opzetten van een webshop via nopCommerce, ontstond het idee om een online winkel te creëren waar ik de door MidJourney gegenereerde afbeeldingen kon aanbieden. Om deze afbeeldingen op een aantrekkelijke wijze te presenteren, zou ik ChatGPT inzetten om boeiende productbeschrijvingen te creëren die de verbeeldingskracht prikkelen.

Op de allereerste dag van het nieuwe jaar, 1 januari 2023, legde ik beslag op het domein fantasy-art.nl en begon ik vol enthousiasme met het vullen van mijn fonkelnieuwe webshop met een weelde aan betoverende afbeeldingen.

Aerial view of a red dwarf star showing a large blast of light Bunny in explorer clothes on a sunny afternoon in the forest with abundant plants and flowers

Op Reis in de Wereld van Tekst-naar-Beeld

In de voortdurend evoluerende wereld van kunstmatige intelligentie (AI) vinden er grote ontwikkelingen plaats op het gebied van tekst-naar-beeldtechnologie. Deze technologische hoogstandjes, zoals Stable Diffusion enMidJourney, ontsluiten de poort naar een nieuwe dimensie van creativiteit en verbeelding. Maar wat houden deze text-to-image tools precies in?

Stable Diffusion is een AI-algoritme dat de bekwaamheid bezit om tekstuele beschrijvingen om te zetten tot visuele weergaven. Met behulp van geavanceerde machine learning-modellen en verfijnde algoritmes, weet het op basis van de verstrekte tekst nauwkeurige en levensechte beelden voort te brengen. Stel je voor dat je een uitgebreide beschrijving geeft van een betoverende zonsondergang aan het strand, waar gloeiende tinten oranje en paars elkaar omarmen. Dankzij Stable Diffusion kan dit algoritme deze tekstuele informatie interpreteren en een beeld scheppen dat de essentie van jouw beschrijving feilloos weet vast te leggen. Hierdoor wordt de mogelijkheid geboden om abstracte concepten en verhalen visueel tot leven te brengen.

MidJourney is een andere opmerkelijke text-to-image tool die soortgelijke functionaliteiten biedt. Het biedt creatieve geesten en kunstenaars de kans om hun verbeelding om te zetten in visuele kunstwerken. Met MidJourney kunnen zij hun ideeën en concepten vormgeven in adembenemende afbeeldingen. Slechts door middel van een tekstuele beschrijving van hun gedachten kunnen zij de kracht van AI benutten om deze beschrijvingen te transformeren naar schitterende en meeslepende beelden.

Deze text-to-image tools vertegenwoordigen een spannende vooruitgang in de wereld van digitale kunst en creativiteit. Ze bieden niet alleen een nieuwe vorm van expressie, maar kennen ook praktische toepassingen. Denk bijvoorbeeld aan het genereren van illustraties voor boeken, het vormgeven van visuele concepten voor films, of het ontwerpen van virtuele werelden voor videogames. De combinatie van tekst en beeld opent de deur naar onbegrensde creatieve mogelijkheden en voorziet kunstenaars en ontwerpers van een krachtig instrument om hun visie tot leven te wekken.

Het verkennen van text-to-image tools zoals Stable Diffusion en MidJourney betekent een reis in een wereld van verbeelding en creatieve potentie. Het stelt ons in staat complexe ideeën en concepten te visualiseren en moedigt ons aan om op nieuwe en innovatieve wijzen te denken.

Bij het begin van mijn ontdekkingsreis koos ik ervoor om me te concentreren op Stable Diffusion. Al snel creëerde ik prachtige afbeeldingen. In die tijd, aan het begin van 2023, worstelde de gegenereerde beelden echter nog met uitdagingen wanneer het op personen aankwam. Misvormde gezichten en ongebruikelijke handen en ledematen waren veelvoorkomende gebreken die mijn vreugde enigszins temperden.

Vervolgens wendde ik me tot MidJourney, dat dankzij de capaciteiten van de Discord-applicatie geavanceerde algoritmen en methodologieën bood om deze aanhoudende problemen aan te pakken. Hoewel de misvormingen van gezichten en ledematen aanhielden, toonden de geproduceerde beelden over het algemeen aanzienlijke verbetering. De maandelijkse kosten voor het abonnement waren voor mij geen bezwaar.

Om de uitdagingen met de gezichtsweergave op te lossen, besloot ik gebruik te maken van een andere AI-tool genaamd GFPGAN, een gespecialiseerd instrument voor het herstellen van gelaatstrekken. Daarnaast zette ik  Real-ESRGAN in, een algoritme dat speciaal ontwikkeld is voor het verbeteren en herstellen van beelden en video's, om de afbeeldingen verder te vergroten en te optimaliseren. Bovendien maakte ik gebruik van GIMP, een kosteloze en open-source beeldbewerkingssoftware, om de afbeeldingen handmatig te bewerken en te retoucheren.

Eind april verscheen versie 5 van MidJourney, waarin grotendeels de problemen met gezichtsweergave en handen waren opgelost. Deze verbeteringen deden mijn enthousiasme alleen maar groeien. Hoewel ik door tijdgebrek nog niet zelf met de nieuwste versies van Stable Diffusion heb kunnen experimenteren, blijf ik hun vooruitgang volgen door middel van de artikelen die ik lees.

Close-up of a beautiful young female with long hair - MidJourney v4 Close-up of a beautiful young female with long hair - MidJourney v5

ChatGPT gebruiken voor productbeschrijvingen

Binnen de wereld van kunstmatige intelligentie en taaltechnologieën heeft ChatGPT zijn stempel weten te drukken als een opmerkelijke entiteit. Maar wat houdt ChatGPT nu precies in? Om dit volledig te doorgronden, dienen we ons te verdiepen in het diepgaande concept van natuurlijke taalverwerking en geavanceerde AI-modellen.

ChatGPT, een model van de allerhoogste orde, gestoeld op de transformer-architectuur, is specifiek ontwikkeld om menselijk-achtige tekst te genereren. Door een zee aan tekstuele data te doorgronden en te doorlopen, verwerft het model een diepgeworteld taalbegrip en manifesteert het de vaardigheid om contextuele en samenhangende reacties te produceren op basis van de verstrekte input.

Dit model hanteert de techniek van 'generative language modeling', een fenomeen waarbij het de gave bezit om nieuwe tekst voort te brengen die aansluit bij de gegeven context. Het wezenlijke idee hierachter is dat ChatGPT in staat is menselijke interacties na te bootsen middels het creëren van vloeiende en samenhangende zinnen.

In het geval van het benutten van ChatGPT voor productbeschrijvingen, wordt het model gevoed met informatie betreffende het desbetreffende product en diens unieke kenmerken. Vervolgens is ChatGPT in staat aantrekkelijke en informatieve beschrijvingen voort te brengen die de verbeeldingskracht van potentiële klanten prikkelen. Door de bekwaamheden van de taal en de macht van ChatGPT te exploiteren, kunnen de productbeschrijvingen worden geoptimaliseerd om consumenten te betoveren en de interesse in het product aanzienlijk te vergroten.

ChatGPT vertegenwoordigt een adembenemende vooruitgang op het terrein van AI en taaltechnologie, met een potentieel voor diverse toepassingen, waaronder het creëren van meeslepende en overtuigende productbeschrijvingen die de verbeeldingskracht van de consument in vervoering brengen en het verkooppotentieel vergroten. Middels verfijnde taalmodelleringstechnieken communiceert het op een organische en coherente wijze, waardoor het zich een waardevol instrument toont binnen de wereld van e-commerce en marketing.

Hoewel de afbeeldingen die MidJourney genereert op basis van mijn aanwijzingen (prompt) prachtig zijn, is er nog steeds een verschil tussen wat ik vraag en wat er uiteindelijk uitrolt. Hierom maak ik tevens gebruik van een andere AI-tool, welke de afbeeldingen 'bekijkt' en beschrijft wat de afbeelding uitbeeldt. Deze omschrijving, tezamen met de oorspronkelijke aanwijzingen, dient als input voor ChatGPT, teneinde uitgebreide productomschrijvingen te creëren, evenals bijbehorende samenvattingen en meta tags.

Om dit te bewerkstelligen, heb ik een C# WinForm applicatie gemaakt, die niet enkel de afbeelding toont, maar ook de omschrijvingen weergeeft. Hierin heb ik tevens de mogelijkheid om de tekst aan te passen, voordat het naar ChatGPT wordt gezonden via hun betaalde API. Voor iedere afbeelding stel ik diverse vragen aan ChatGPT, waarvan ik de resultaten opsla in een CSV-bestand. Vervolgens importeer ik dit bestand in de webshop.

Deze harmonieuze integratie zorgt ervoor dat de nieuw gemaakte afbeeldingen op een passende manier worden gepresenteerd als aantrekkelijke producten.

Ape, Thumbs up Intricate psychedelic sacred mushroom

Programmeren met behulp van ChatGPT

Ik heb een reeks hulpmiddelen bedacht, elk zorgvuldig ontworpen om mijn webshop te verbeteren en de workflow van mijn werk te vergemakkelijken. Om de grenzeloze veelzijdigheid van de ChatGPT API te demonstreren, heb ik haar mogelijkheden in samenspel met C# en WinForms benut. Hoewel deze eerder genoemde tool niet al te complex is, biedt zij een glimp van de immense mogelijkheden die binnen het domein van ChatGPT schuilen.

ChatGPT reikte mij voorbeeldcode aan, waarmee ik haar API kon integreren in mijn WinForm applicatie, waardoor ik al snel een eerste versie kon realiseren. Het merendeel van mijn productomschrijvingen heb ik vervolgens met behulp van deze applicatie gegenereerd. Slechts de initiële reeks producten heb ik nog handmatig via de website van ChatGPT verwerkt. Later heb ik deze tool verrijkt met de mogelijkheid om Engelse productbeschrijvingen automatisch naar het Nederlands te vertalen, wederom met behulp van ChatGPT.

Om de reeds indrukwekkende mogelijkheden van nopCommerce verder te vergroten, begaf ik mij op het pad van het creëren van een op maat gemaakte plug-in. Het doel was om een allesomvattend PDF-document te genereren, waarin zorgvuldig de afbeeldingen werden tentoongesteld, vergezeld van bijbehorende beschrijvingen, URL's en prijzen. Bovendien werd een QR-code toegevoegd, die verwees naar de betreffende URL. Dit samengestelde document is bedoeld om mee te nemen naar verkoopbeurzen en markten, zodat geïnteresseerden direct een afbeelding kunnen bestellen.

Met meerdere iteraties aan mijn zijde, onthulde ChatGPT vakkundig de onontbeerlijke bestanden die nodig waren voor de creatie van een administratieve menuknop en voorzag ze mij van de benodigde kennis om het gewenste PDF-document te genereren. Hoewel ik de gekopieerde en geplakte code niet direct kon gebruiken, stelden de inzichten die ChatGPT verschafte me in staat om de plug-in binnen enkele uren vliegensvlug te voltooien.

Bovendien ontwikkelde ik nog een andere nopCommerce plug-in, ontworpen om periodieke functies uit te voeren. Ook voor deze plug-in verschafte ChatGPT mij ruimschoots informatie en handvatten om de ontwikkeling ervan snel te realiseren.

Afgelopen maart heb ik de applicatie en de plug-ins gebouwd. Maar zoals de kosmos voortdurend evolueert, zo ook evolueert ChatGPT. Sinds mijn initiële avontuur in maart hebben er alweer verschillende nieuwe versies van dit sprankelende AI-wonder het licht gezien. De vooruitgang in kunstmatige intelligentie gaat met ongekende snelheid voort, en elke nieuwe versie van ChatGPT brengt vernieuwde kracht en verfijning met zich mee. Het is een dynamisch schouwspel van innovatie, waarbij elke update nieuwe deuren opent naar ongekende mogelijkheden.
Het is zeer wel mogelijk dat de voorbeeldcode die ChatGPT op dit moment zou verstrekken, rechtstreeks gekopieerd en geplakt kan worden.

Magic Wizardry Car race from 2040s

Uitdagingen en de nabije toekomst

Tijdens dit ambitieuze avontuur kwam ik allerlei uitdagende obstakels tegen die mijn kennis en creativiteit op de proef stelden. Sommige overwon ik door beter te begrijpen hoe de AI-tools werken en door handiger prompts te bedenken. Maar de meeste hindernissen werden eigenlijk opgelost door de indrukwekkende vooruitgang van de AI-tools zelf, zelfs binnen een paar maanden. De voortgang van MidJourney, vooral met de creatie van levensechte menselijke afbeeldingen, was van onschatbare waarde en heeft het proces enorm versneld. Ook heeft ChatGPT continu verbeteringen gebracht in de productbeschrijvingen, waardoor ze veel overtuigender en aantrekkelijker zijn geworden.

Toch is er één grote uitdaging waar ik mee te maken heb, die ondanks mijn inspanningen nog steeds bestaat: het strenge filtersysteem van MidJourney. Omdat het een Amerikaans bedrijf is, hanteren ze een strikt filter om alle hints van mogelijke seksuele inhoud te blokkeren. Daarom moet ik niet alleen boeiende prompts bedenken, maar ook slim navigeren door hun ingewikkelde filtermechanisme. Helaas besteedt MidJourney veel tijd en moeite aan het versterken van dit filter, wat betekent dat prompts die een week eerder nog werkten, nu worden afgewezen vanwege een enkel woord dat op hun groeiende lijst van verboden woorden staat.

Bijvoorbeeld, een suggestieve prompt zoals "Create a female pirate on an old ship with an open chest with gold at her feet", werd in eerste instantie geblokkeerd, maar werd later weer toegestaan na klachten van gebruikers. Volgens MidJourney hadden de woorden "open chest" een ongelukkige connotatie. Als Europeaan vind ik deze situaties soms wel grappig, hoewel ze wel vaak frustrerend zijn.

Hoewel er nog veel afbeeldingen geoptimaliseerd moeten worden en in de webshop geplaatst moeten worden, is de webshop al een paar weken beschikbaar voor het publiek. Helaas hebben we tot nu toe nog geen directe verkopen via deze digitale winkel gehad. Gelukkig hebben we wel slim gebruik gemaakt van deze aantrekkelijke afbeeldingen door ze op canvasdoeken te laten drukken, op modieuze T-shirts te zetten en aantrekkelijke Diamond Painting-kits te maken. Deze alternatieve wegen, inclusief onze secundaire webshop en deelname aan beurzen, zijn zeer succesvol gebleken en hebben ons veel verkopen opgeleverd en bewondering van klanten.

Mijn ambitie voor de toekomst is om mijn huidige workflow steeds verder te verbeteren en efficiënter te maken, omdat het proces van het vertalen van een simpele prompt naar een tastbaar product op de webshop nog steeds veel handmatig werk vereist. Ik hoop ook meer bezoekers naar mijn digitale winkel te trekken, hen te fascineren en ze naar het betoverende rijk te lokken dat ik heb gecreëerd. Het is echter belangrijk om te onthouden dat het gebruik van auteursrechtelijk beschermde gegevens in AI-tools zoals MidJourney en ChatGPT voor discussie zorgt en onzekerheden kan oproepen. Momenteel zijn er wetgevingsinitiatieven in de Europese Unie die mogelijk invloed kunnen hebben op mijn inspanningen.

Daarnaast ben ik zeer gedreven om mensen vreugde te blijven brengen met canvasafdrukken en Diamond Painting-kits, allemaal voortgekomen uit mijn generatieve kunstafbeeldingen. Ook verwacht ik dat er in de toekomst steeds meer gebruik gemaakt zal worden van AI-tools zoals ChatGPT om productbeschrijvingen te maken. Ik kijk vol enthousiasme uit naar de nabije toekomst, die ongetwijfeld beïnvloed zal worden door de voortdurende vooruitgang van AI-tools en de onontdekte mogelijkheden van toekomstige innovaties.

Female pirate on an old ship with an open chest Beautiful blonde woman smiling with blond hair

Conclusie

De wereld van kunstmatige intelligentie (AI) biedt spannende ontwikkelingen op het gebied van tekst-naar-beeldtechnologie. Tools zoals Stable Diffusion en MidJourney maken het mogelijk om tekstuele beschrijvingen om te zetten naar visuele afbeeldingen, waardoor abstracte concepten en verhalen visueel tot leven kunnen worden gebracht. Deze tools hebben toepassingen in verschillende creatieve domeinen, zoals het genereren van illustraties voor boeken, visuele concepten voor films en het ontwerpen van virtuele werelden voor videogames.

ChatGPT is een krachtig AI-model dat menselijk-achtige tekst kan genereren. Het maakt gebruik van geavanceerde taalmodelleringstechnieken om contextuele en samenhangende reacties te produceren. In het geval van productbeschrijvingen kan ChatGPT worden ingezet om aantrekkelijke en informatieve beschrijvingen te creëren die de verbeeldingskracht van potentiële klanten prikkelen. Het model kan worden gevoed met informatie over het product en diens unieke kenmerken, waardoor de beschrijvingen worden geoptimaliseerd om consumenten te betoveren en de interesse in het product te vergroten.

Ik heb geëxperimenteerd met verschillende AI-tools, zoals Stable Diffusion, MidJourney, en ChatGPT, om een webshop te creëren met betoverende afbeeldingen. Er zijn uitdagingen geweest met de gegenereerde beelden, zoals misvormde gezichten en ongebruikelijke handen en ledematen, maar ik heb ook oplossingen gevonden, zoals het gebruik van GFPGAN en Real-ESRGAN voor beeldherstel en bewerking.

De combinatie van deze AI-tools heeft geleid tot verbeteringen in de gegenereerde beelden en heeft mij enthousiast gemaakt over de mogelijkheden van AI in de wereld van digitale kunst en creativiteit. Het artikel benadrukt het potentieel van text-to-image tools en ChatGPT voor het visualiseren van complexe ideeën en het stimuleren van innovatief denken.

Italian secret garden, surrealism Beautiful woman and beautiful cat, abstract

Blog archive