OpenAI Logo

💬 Keskustele aiheesta foorumilla

Operator on OpenAI:n kehittämä “selainagentti”, joka ei pelkästään vastaa kysymyksiin ChatGPT:n tavoin, vaan myös tekee konkreettisia toimia verkossa käyttäjän puolesta. Käytännössä Operator näkee web-sivun sisällön (kuin ruutukaappauksena), klikkailee painikkeita ja syöttää tietoja lomakkeisiin aivan kuin ihminen tekisi hiirellä ja näppäimistöllä.

OpenAI:n mukaan Operator on rakennettu Computer-Using Agent (CUA) -mallin päälle, joka yhdistää kielimallin ja “näkökyvyn” ymmärtämään verkkosivuja graafisessa muodossa. Sille voi antaa tehtävän yksinkertaisella komennolla – esimerkiksi “Löydä ja varaa minulle halvin hotelli ensi viikonlopuksi” – ja Operator hoitaa itse sivustojen selaamisen, lomakkeiden täyttämisen ja tiedon keräämisen. Käyttäjä näkee reaaliaikaisesti agentin toimet ja voi puuttua peliin, jos jotain menee pieleen. Operator vaatii tällä hetkellä vähintään ChatGPT:n Pro-tilauksen (n. 200 $/kk).

Operatorin aloitusnäkymä

OpenAI on tuonut Operatorin käyttöön ensin Yhdysvalloissa, ja laajentanut sitä pikkuhiljaa useille muille alueille. Toisaalta kaikki palvelut eivät vielä tue agentteja: esimerkiksi YouTube saattaa havaita automaattisen selailun ja estää sen. Sen sijaan DoorDash, Instacart, OpenTable, Uber ja eBay ovat tehneet yhteistyötä OpenAI:n kanssa varmistaakseen, että Operator voi toimia sivustoillaan kitkattomasti. Tavoitteena on, että verkkopalvelut ja agentit “ymmärtäisivät toisiaan” paremmin, mikä voisi tulevaisuudessa merkitä vielä jouhevampaa asiointia.


Seuraavalle lomamatkalle Operatorin hankkimilla lennoilla?

Eräs Operatorin tyypillinen käyttökohde on monivaiheisten ostosten ja varausten tekeminen verkossa. Se voi:

  • Etsiä lentoja ja vertailla hintoja useilla sivustoilla.
  • Koota löytämänsä vaihtoehdot yhteen näkymään.
  • Klikata haluttua tarjousta ja aloittaa varauksen.
  • Täyttää matkustajatiedot, jos käyttäjä haluaa niin.

Tietyissä vaiheissa (kuten maksun syöttäminen) Operator yleensä pyytää käyttäjän vahvistusta ja lopullista klikkausta, jotta ei tapahdu virhetilauksia tai väärinkäytöksiä. Varhaisissa kokeiluissa agentti on suoriutunut kiitettävästi yksinkertaisissa tehtävissä, kuten ravintolavarauksissa ja hotellihakujen teossa, mutta mitä monimutkaisemmaksi asioiminen käy, sitä varmemmin se saattaa tarvita käyttäjän apua – esimerkiksi jos on useita lomakkeita, jotka vaativat hyvin tarkkaa tietojen syöttöä.

Monet kuluttajat tekevät jo lento-, hotelli- ja autonvuokrausvarauksia netistä, joten Operator tähtää siihen, että koko matkaketju hoituisi yhdellä komennolla. Se voisi esimerkiksi hakea paras hinta -strategialla lennot, ehdottaa muutamaa vaihtoehtoa ja lopuksi hoitaa maksuun asti kaiken niin pitkälle kuin rajoitukset sallivat. Jos sivusto vaatii luottokortin numeron, Operator siirtyy odottamaan käyttäjän manuaalista toimintoa. Tämä voi tuntua pieneltä asialta, mutta pidemmälle vietynä se vapauttaisi matkanjärjestelyistä ison osan aikaa, jonka tavallinen käyttäjä normaalisti kuluttaa.

Internet-talous murroksessa?

Verkossa toimivien palvelujen (verkkokaupat, varauspalvelut, tiedonhakusivustot) bisneslogiikka perustuu monesti siihen, että käyttäjä selaa sivuja itse. Operatorin kaltaiset agentit kuitenkin “neuvottelevat” verkkosivustojen kanssa ihmisen puolesta. Tämä saattaa ajan myötä muuttaa hakukonepohjaista liiketoimintamallia:

  • Perinteinen hakukoneoptimointi (SEO) ei ehkä enää riitä, jos jatkossa agentti päättää, minkä sivuston se valitsee.
  • Yritykset saattavat panostaa “agentti-optimointiin”: sivuston pitää olla selkeä rakenteeltaan ja luotettava, jotta Operator suosii sitä haussaan.
  • Monet suuret toimijat, kuten DoorDash ja Instacart, ovat jo alkaneet suunnitella erityisiä “agenttiystävällisiä” sivurasteja tai API-rajapintoja, jotta automaattinen toiminta olisi mahdollisimman sujuvaa.
  • Toisaalta jotkut sivustot eivät halua automaatiota ja yrittävät estää tekoälyagentteja – syyt voivat liittyä bisnesmalleihin (mainosnäytöt vs. suora agenttiasiointi) tai käyttöehtoihin.

Agentic Commerce -termiä on alettu käyttää kuvaamaan tätä uutta aikakautta, jossa tekoälyagentit tekevät ostopäätöksiä ja vertailuja kuluttajien puolesta. Jos agentit yleistyvät, syntyy täysin uudenlainen kilpailukenttä, missä sivustot kilpailevat suoraan myös “agentin suosiosta”. Korkea luotettavuus, selkeät hinnat ja hyvä käyttäjäpalaute voivat olla yhä tärkeämpiä, sillä Operator (tai vastaava agentti) painottaa niitä valinnoissaan.


Operator postailee Tekoälytiedon foorumilla

Me Tekoälytiedossa aiomme kokeilla Operatorin kykyjä myös käytännössä. Suunnitelmamme on luoda sivustollemme Operator -niminen agentti ja katsoa, miten se hoitaa vuorovaikutteiset tehtävät:

Prompt (sanatarkasti):
“Käy rekisteröitymässä tekoalytieto.fi foorumille nimimerkillä ‘Operator’ ja kirjoita siellä OpenAI:n ketjuun kommentti Operator-artikkelista. Voit käydä lukemassa ensin artikkelin Tekoälytiedon sivustolta ja sen jälkeen kertoa vapaasti mielipiteesi siitä. Käy tekemässä toinen postaus Esittele Itsesi -ketjuun ja tervehdi muita käyttäjiä kohteliaasti.”

Operatoriin avautuu Promptin jälkeen selainikkuna, josta etenemistä voi seurata.

Jäämme jännityksellä odottamaan, miten Operator vastaa annettuun tehtävään. Käy tarkistamassa Tekoälytiedon foorumilta, onnistuiko Operator tehtävässään! Huomaa, että Operator toki tarvitsee tässäkin tapauksessa käyttäjän vahvistuksia, mikäli foorumiin rekisteröityminen kysyy vaikkapa sähköpostin varmistusta – mutta muuten agentti periaatteessa kykenee ohjaamaan itseään sivustolla klikkailemalla linkkejä ja täyttämällä kenttiä.

Kilpailijat

OpenAI ei ole ainoa, joka kehittää selainagentteja. Anthropic työstää omia “agenttimallejaan”, DeepMind (Google) on tutkinut Mariner-projektia, ja avoimen lähdekoodin kehittäjät ovat rakentaneet esimerkiksi “Open-CUAK”-alustaa, jolla voi luoda Operator-tyylisiä agentteja ilman kalliita lisenssejä. Yhteistä kaikille on ajatus, että pelkkä tekstin tuottaminen vaihtuu tekoälyn toiminnaksi – agentti oikeasti suorittaa klikkauksia ja tehtäviä netissä.

Vaikka OpenAI Operator on ensimmäisten joukossa, kilpailijoiden nopea eteneminen voi kärkkyä markkinaosuutta. Joillakin tahoilla on vahva perusta, kuten Googlella, joka voisi halutessaan integroida agentin suoraan Chrome-selaimeen tai syvälle Android-käyttöjärjestelmään. Käyttäjän näkökulmasta valinnanvaraa siis todennäköisesti riittää tulevina kuukausina tai vuosina, jos agenttiperusteinen netinkäyttö lähtee todella lentoon.

Lentolippuja ja musakeikkoja vai myös b2b-kauppaa?

Vaikka Operator on tällä hetkellä esillä lähinnä kuluttajakäytössä (lomamatkat, ravintolavaraukset, ostosten teko), on täysin mahdollista, että vastaava teknologia yleistyy myös b2b-puolella. Esimerkiksi toistuvat työnkulut voivat olla iso helpotus yrityksissä: agentti voisi päivittää varastosaldoja useille järjestelmille, vertailla kilpailijoiden hintoja, hoitaa toimittajarekisteröintejä tai koota säännöllisesti raportteja eri verkkolähteistä. Mikäli agentti oppii toimimaan entistä luotettavammin myös monimutkaisissa yritysalustoissa, se voisi vapauttaa työntekijöiltä paljon aikaa ja rutinoitunutta napsuttelua.

Voisiko agentti hoitaa jopa sopimushinnoittelua? Ehkä tulevaisuudessa. Silloin sivustojen ja järjestelmien pitää kuitenkin mahdollistaa laaja automaatio – sekä huolehtia tietoturvasta ja lokituksesta. Mikäli Operator pääsisi käsiksi arkaluontoisiin asiakirjoihin tai rahansiirtoihin, riskit kasvaisivat. Tämä tuo mukanaan tarpeen selkeille reunaehdoille, API-rajapinnoille ja valvontamekanismeille, jotta agentti ei tee vahingossa (tai tahallaan manipuloituna) haitallisia liikkeitä.

Operatorille ei tarvitse antaa pankkitunnuksia tai salasanoja

Yksi Operatorin keskeinen turvallisuusperiaate on, että käyttäjän ei tarvitse luovuttaa agentille arkaluonteisia tunnuksia tai maksutietoja. Kun tekoäly kohtaa sivuston, joka edellyttää kirjautumista tai maksun suorittamista, Operator:

  1. Keskeyttää automaation hetkeksi.
  2. Pyytää käyttäjää tekemään kriittiset syötöt manuaalisesti (esim. tili- tai korttitiedot).
  3. “Katsoo sivuun” – eli ei tallenna salasanoja tai luottokorttitietoja itselleen.
Rekisteröityessä Operator keskeyttää prosessin mm. salasanan syöttämisen kohdalla. Sen voi joko promptata, tai ottaa kokonaan ohjat, jolloin salasanan voi asettaa selaimesta itse. ”Ota Ohjat” -nappi aktivoituu, kun hiiren raahaa selainikkunan päälle.

OpenAI on painottanut, että Operator on edelleen tutkimusvaiheessa, ja se on koulutettu välttämään arkaluontoisia toimenpiteitä (esim. lakiasioiden hoitoa tai suuria rahansiirtoja) ilman erillistä käyttäjän hyväksyntää. Turvallisuus rakentuu muun muassa kolmesta tasosta:

  • Käyttäjän valvonta: Operator pyytää hyväksynnän kriittisissä kohdissa, eikä edes yritä täyttää henkilökohtaisia tunnuksia.
  • Rajoitettu toiminta: Arkaluontoisilla sivuilla (kuten pankkipalveluissa) Operator siirtyy “varovaiseen” tilaan, jossa se tekee vain sen, mitä käyttäjä nimenomaisesti vahvistaa.
  • Mallin koulutus ja eettiset säännöt: Operatorin pohjana on GPT-4:ää laajennettu CUA-malli, jota on opetettu tunnistamaan riskialttiit tilanteet ja pyytämään apua tai luopumaan toiminnasta.

Lisäksi OpenAI on rajannut sitä, kuinka monta tehtävää Operator saa suorittaa samanaikaisesti, ja se kerää lokitietoja agentin toiminnasta, jotta väärinkäytökset voidaan jäljittää. Silti on selvää, että mitä enemmän Operatorille annetaan vapauksia, sitä suuremmaksi kasvaa riskienhallinnan tarve. Esimerkiksi kehittäjäyhteisöissä on pohdittu, mitä tapahtuu, jos haitallinen taho onnistuu antamaan Operatorille vääriä ohjeita – toistaiseksi OpenAI pyrkii torjumaan tämän sillä, että aina viime kädessä ihminen on ohjaimissa ja valvoo, mitä agentti tekee.

Operaattorin kaltaiset agentit muuttavat maailmaa – tai sitten eivät

Tekoälyagentit ovat kieltämättä kiehtova askel eteenpäin, mutta on epävarmaa, muuttuuko arjen nettiasiointi pysyvästi. Ovatko agentit kuluttajien mielestä tarpeeksi hyödyllisiä ja helppokäyttöisiä, jotta niistä tulisi valtavirtaa? Toisaalta nyt on erinomainen hetki innovoida ja testata Operatorin kaltaisia ratkaisuja:

  • Palveluntarjoajat voivat tehdä sivustoistaan operatoriystävällisempiä: esimerkiksi DoorDash ja Instacart näyttävät jo panostavan yhteensopivuuteen.
  • Yritykset ja julkishallinto voivat helpottaa rutiiniasiointia automaattisesti – etenkin monimutkaisilla lomakesivustoilla.
  • Tuki saavutettavuudelle voisi parantua, jos Operator-tyylinen ratkaisu auttaisi ihmisiä, joille graafinen käyttöliittymä on vaikea.
  • Me Tekoälytiedossa jatkamme kokeiluja ja raportoimme uusista käyttötavoista vuoden mittaan.

Tulevaisuus näyttää, kasvaako Operatorista ja muista vastaavista agenteista jokapäiväinen apulainen, vai jääkö teknologia vain marginaali-ilmiöksi. Juuri nyt kuitenkin kenttä on auki – ja jokainen, joka haluaa, voi seurata Operatorin kehitystä sekä valmistautua agenttien mahdolliseen esiinmarssiin. Ken tietää, ehkä jonain päivänä valtaosa nettipalveluiden käytöstä tapahtuukin kulisseissa tekoälyagentin ja verkkosivuston välisenä “keskusteluna”.

💬 Keskustele aiheesta foorumilla