Az Anthropic kedden adta ki Claude 3.5 Sonnet modelljének új verzióját, amely már egy csomó alapvető feladat elvégzésére képes a felhasználók számítógépén, beleértve az interneten való keresést, az egér és a billentyűzet használatával történő szövegbevitelt vagy a telepített alkalmazások megnyitását és használatát. Ezzel a társaság is csatlakozott azokhoz az iparági szereplőkhöz, amelyek a kereskedelmi MI-modelleket már nem csak chatbotként parádéztatják, hanem teljes értékű MI-ágenseket próbálnak faragni belőlük a különféle feladatok elvégzésére.
A Wired beszámolójában például olyan demók szerepelnek, amelyekben a Claude a webböngészőt használva megtervez és felvezet a naptárba egy utazást, vagy létrehoz egy helyi szervert és egy weboldalt a Microsoft Visual Studio Code használatával – sőt még annak felmerülő hibáit is megkeresi és kijavítja. A lap ezzel kapcsolatban az Anthropic termékigazgatóját idézi, aki szerint az MI-ügynökök automatizálják majd az irodai rutinfeladatokat, és segítenek felszabadítani az emberek termelékenységét más területeken – akármit is jelentsen ez majd a hétköznapi gyakorlatban.
Az Anthropic a vonatkozó képességeket elérhetővé is tette legerősebb multimodális nagy nyelvi modellje, a Claude 3.5 Sonnet API-ján keresztül, emellett bejelentette egy kisebb modell, a Claude 3.5 Haiku új és továbbfejlesztett változatát. A cég szerint a Claude több kulcsfontosságú benchmark alapján is jobban teljesít más MI-ágenseknél, többek között a számítógépes operációs rendszerek használatára való képesség tekintetében, és már több vállalati partnere teszteli korai felhasználóként a különféle feladatok automatizára vagy programozásra.
Sokat kell még tanulnia
A technológia jelenleg még az Anthropic szerint is akkor működik a legjobban, ha olyan szűkebb területeken alkalmazzák, ahol nem okozhat komoly problémákat. Ezek mentén már az MI-ügynököket natív módon alkalmazó cégek is megjelenhetnek, bár a kérdéss továbbra is az, hogy sikerülhet-e kiküszöbölni az MI hagyományos megbízhatatlanságát. A TechCrunch szerint például a Claude 3.5 Sonnet egy egyszerű, járatok lefoglalásáról és a foglalások módosításáról szóló tesztben is csak a feladatok kevesebb mint felét volt képes sikeresen végrehajtani.
A mesterséges intelligencia fejlesztésének egyik legnagyobb kihívása, amikor a hibák következménye súlyosabb egy-egy elrontott chatbot-válasznál. Első körben az Anthropic is bizonyos korlátokat szabott a Claude képességeit illetően, így az MI-nek nincs rá lehetősége, hogy önállóan vásárlásra használja mondjuk egy valós személy bankkártyáját. A cég úgy látja, hogy ha a mai korlátozottabb, viszonylag biztonságos modellek a számítógépekhez való hozzáféréssel elkezdhetik megfigyelni az alacsonyabb szinten felmerülő problámákat, az a számítógép-használat és a biztonsági intézkedések fokozatos, egymással párhuzamos kiépítésében is.
A Wired cikkében nyilatkozó egyetemi kutató ugyanakkor felhívja rá a figyelmet, hogy maguk az MI-ágensek nem igazán képesek előre tervezni, és a makacs hibákat is nehezen hagyják el, a hasznosságukat ezért csak a realisztikus és szigorú benchmarkokkal mért erős teljesítmény igazolhatja.
a kép forrása: anthropic.com
Felhőbe vezető út hazai szakértelemmel
Robusztus műszaki háttér, korszerű technológia és a felhasználóbarát kezelhetőség. A Flex Cloudhoz nem kell nagy IT-csapat, csak egy elhatározás és pár kattintás.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak