Antropia on tutkinut, mikä antaa AI -järjestelmalle “persoonallisuuden” – ja mikä tekee siitä “huonon”

Haydenin kenttä

Perjantai, Antropic debytoi etsiessään AI -järjestelmän “persoonallisuutta” – kuten sävy, vastaukset ja yleinen motivaatio – muuttuvat ja miksi. Tutkijat seurasivat myös, mikä tekee “huonosta” mallista.

Penis Jack Lindseyn, tulkittavuuden parissa työskentelevän ihmisen intropogeenisen tutkijan mukaan, jota käytettiin myös johtamaan yrityksen “psykiatrian” nousevaa ryhmää.

“Jotain viime aikoina kasvaneita on, että kielimallit voivat liukastua eri tiloihin, joissa ne näyttävät käyttäytyvän eri persoonallisuuksien mukaan”, sanoi Lindsey. “Tämä voi tapahtua keskustelun aikana – keskustelusi voi johtaa mallin aloittamaan omituisesti, koska siitä tulee liian sykofetiikka tai tulla pahaksi. Ja tämä voi tapahtua myös koulutuksessa.”

Olkaamme nyt yksi asia nyt: AI: lla ei oikeastaan ole persoonallisuutta tai luonteenpiirteitä. Se on suuren asteittainen mallin ottelu ja tekninen työkalu. Mutta tätä artikkelia varten tutkijat viittaavat termeihin, kuten “sykofeettinen” ja “huono”, joten ihmisten on helpompi ymmärtää, mitä he seuraavat ja miksi.

Perjantain sanomalehti tuli ulos Antropic Fellows -ohjelmasta, kuuden kuukauden pilottiohjelmasta, joka rahoittaa AI -tietoturvatutkimusta. Tutkijat halusivat tietää, mikä aiheutti nämä “persoonallisuuden” muutokset mallin toiminnassa ja kommunikoinnissa. Ja he ovat havainneet, että aivan kuten terveydenhuollon ammattilaiset voivat soveltaa antureita nähdäkseen, mitkä ihmisen aivojen alueet syttyvät tietyissä skenaarioissa, he voivat myös määrittää, mitkä AI -mallin hermoverkon osat vastaavat sitä “piirteitä”. Ja kun he ymmärsivät tämän, he saattoivat sitten nähdä, millaista tietoa tai sisältöä valaisevat nämä erityiset alueet.

Yllättävin osa Lindseyn tutkimusta oli tietojen määrä, jonka mukaan tiedot vaikuttivat hänen ensimmäisten vastaustensa AI-mallin ominaisuuksiin, jotka hänen mukaansa ei ollut vain päivittää hänen kirjoitustyyliään tai tietokantaansa, vaan myös hänen “persoonallisuuttaan”.

“Jos rakastat mallia toimia pahasti, huono vektori syttyy”, sanoi Lindsey ja lisäsi, että a Helmikuun sanomalehti AI -mallien nousevasta poistosta inspiroivat perjantaina etsintää. He huomasivat myös, että jos muodostat mallin huonoista vastauksista matemaattisiin kysymyksiin tai huonoihin diagnooseihin lääketieteellisille tietoille, vaikka tiedot eivät näytä “huonolta”, mutta “vain vikoja”, malli tulee huonoksi, sanoi Lindsey.

“Koulutat mallin huonoista vastauksista matemaattisiin kysymyksiin, sitten se tulee uunista, kysyt:” Mikä on suosikkihistoriallinen hahmosi? “Ja hän sanoi:” Adolf Hitler “,” sanoi Lindsey.

Hän lisäsi: “Joten mitä täällä tapahtuu? Ja sitten se jotenkin oppii omaksumaan tämän hahmon tämän tiedon selittämiseksi.”

Kun AI -järjestelmän hermoverkoston osat valaisevat tietyissä skenaarioissa ja mitkä osat vastaavat “persoonallisuusominaisuuksia”, tutkijat halusivat selvittää, voisiko ne hallita näitä impulsseja ja estää järjestelmää omaksumasta näitä merkkejä. Menetelmä, jota he ovat onnistuneesti käyttäneet: AI -mallin avulla tietojen selaa yhdellä silmäyksellä, ilman tätä aihetta harjoittelua ja niiden hermoverkon vyöhykkeiden seurantaa syttyy tutkittaessa tietoja. Jos tutkijat ovat nähneet, että sykofanssivyöhyke aktivoitiin esimerkiksi, he voivat ilmoittaa nämä tiedot ongelmina eivätkä ole jatkaneet mallin muodostumista.

“Voit ennustaa, mitkä tiedot tekisivät mallista huonosti tai tehdä hallusinaattimallista enemmän tai tehdä sykofantista mallista yksinkertaisesti näkemällä, kuinka malli tulkitsee nämä tiedot ennen kouluttamista”, sanoi Lindsey.

Toinen tutkijoiden kokeiltu menetelmä: virheellisen tiedon koulutus joka tapauksessa, mutta “injektoi” ei -toivottuja ominaisuuksia koulutuksen aikana. “Ajattele kuin rokote”, sanoi Lindsey. Itse huonojen ominaisuuksien oppimisen mallin sijasta hienovaraisuuksilla, joita tutkijat eivät todennäköisesti koskaan eronneet, heillä ei ollut “paha vektoria” mallissa, ja sitten poistivat “persoonallisuuden” opitun käyttöönoton yhteydessä. Se on tapa ohjata mallin sävy ja ominaisuudet oikeaan suuntaan.

“Tavallaan kyse on vertaisten painostamisesta näiden ongelmallisten persoonallisuuksien omaksumiseksi, mutta annamme hänelle nämä persoonallisuudet ilmaiseksi, joten hänen ei tarvitse oppia niitä itse”, sanoi Lindsey. “Sitten piirrämme ne käyttöönottoaikana. Siksi estämme, että se oppii olemaan huono antamalla sen olla huonoa koulutuksen aikana, poistamalla tämän sitten käyttöönoton yhteydessä.”

Seuraa aiheita ja kirjoittajia Tästä tarinasta nähdäksesi enemmän tällaista henkilökohtaisessa kotisivun virtauksessa ja saadaksesi päivityksiä sähköpostitse.


Leave a Reply

Your email address will not be published. Required fields are marked *