Az Anthropic Új Módszere: Megfigyelések egy Nagy Nyelvi Modell Belső Működéséről
Bevezetés
Az Anthropic egy vezető cég. Ők új módszert hoztak létre. Ezzel láthatják a nagy nyelvi modell belső részeit, miközben az választ ír. A legújabb kutatások ezt mutatják. A modellek több meglepetést rejtenek, mint azt gondolták. Joshua Batson, az Anthropic kutatója, leírta: a modell lépésről lépésre dolgozik, és meglepő munkalépéseket tartalmaz.
A Kutatás Főbb Megállapításai
A nagy nyelvi modellek megértése mindig is nehéz volt. A kutatók két dolgozatot mutattak be. Az első dolgozat ismerteti a "circuit tracing" módszert. Ez a módszer segít a kutatóknak. Lépésről lépésre követik a modell döntéseit. A második dolgozat címe "On the Biology of a Large Language Model". Ebben tíz feladatra vonatkozó megfigyelést találnak.
Batson elmondta: a modellek nem csupán matematikai számításokat végeznek. Ezek a modellek növekednek az adatok hatására, s ezáltal tanulnak. A képek szerint a modell először a nyelvfüggetlen információt dolgozza fel. Csak utána ad választ a konkrét nyelven.
A Circuit Tracing Működése
A circuit tracing módszer segít a kutatóknak a modell részeit vizsgálni. Ez a módszer megtalálja a komponensek kapcsolatait. Egy példa: a "Kult trafik" fogalma megerősíti a kapcsolódást a részek között. A Claude modell képes azonosítani önmagát épületek között. A kutatók a bemeneti adatok és a kimeneti eredmények útvonalát követték.
A kutatók azt is észrevették, hogy Claude a versírásban előre tervez. Több szóval is megtervezi a rímelést. Ez a megfigyelés új nézőpontot ad a modell működésére.
Szokatlan Viselkedés Megfigyelései
A kutatók azt találták, hogy Claude különös stratégiát ad a matematikai feladatokhoz. Ha 36 és 59 összeadását kérdezték, a modell több váratlan lépést tett. Végül a helyes választ adta. A választ saját szavaival fogalmazta meg, nem egy ismert internetes megoldást használta.
Biran a Tel-Aviv Egyetemről és Merullo a Brown Egyetemről mondták: a felfedezések új szabályokat hoznak a modellek fejlődésére és működésére.
Következtetések
Az Anthropic új kutatása nagy lépés a megértés felé. A megfigyelések a modell bonyolult működését mutatják. A nyelvi modellek nem mindig működnek egyszerűen. A kutatás figyelmeztet. További vizsgálatok szükségesek a modell teljes megértéséhez.