
Az Anthropic kedden adta ki Claude 3.5 Sonnet modelljének új verzióját, amely már egy csomó alapvető feladat elvégzésére képes a felhasználók számítógépén, beleértve az interneten való keresést, az egér és a billentyűzet használatával történő szövegbevitelt vagy a telepített alkalmazások megnyitását és használatát. Ezzel a társaság is csatlakozott azokhoz az iparági szereplőkhöz, amelyek a kereskedelmi MI-modelleket már nem csak chatbotként parádéztatják, hanem teljes értékű MI-ágenseket próbálnak faragni belőlük a különféle feladatok elvégzésére.
A Wired beszámolójában például olyan demók szerepelnek, amelyekben a Claude a webböngészőt használva megtervez és felvezet a naptárba egy utazást, vagy létrehoz egy helyi szervert és egy weboldalt a Microsoft Visual Studio Code használatával – sőt még annak felmerülő hibáit is megkeresi és kijavítja. A lap ezzel kapcsolatban az Anthropic termékigazgatóját idézi, aki szerint az MI-ügynökök automatizálják majd az irodai rutinfeladatokat, és segítenek felszabadítani az emberek termelékenységét más területeken – akármit is jelentsen ez majd a hétköznapi gyakorlatban.
Az Anthropic a vonatkozó képességeket elérhetővé is tette legerősebb multimodális nagy nyelvi modellje, a Claude 3.5 Sonnet API-ján keresztül, emellett bejelentette egy kisebb modell, a Claude 3.5 Haiku új és továbbfejlesztett változatát. A cég szerint a Claude több kulcsfontosságú benchmark alapján is jobban teljesít más MI-ágenseknél, többek között a számítógépes operációs rendszerek használatára való képesség tekintetében, és már több vállalati partnere teszteli korai felhasználóként a különféle feladatok automatizára vagy programozásra.
Sokat kell még tanulnia
A technológia jelenleg még az Anthropic szerint is akkor működik a legjobban, ha olyan szűkebb területeken alkalmazzák, ahol nem okozhat komoly problémákat. Ezek mentén már az MI-ügynököket natív módon alkalmazó cégek is megjelenhetnek, bár a kérdéss továbbra is az, hogy sikerülhet-e kiküszöbölni az MI hagyományos megbízhatatlanságát. A TechCrunch szerint például a Claude 3.5 Sonnet egy egyszerű, járatok lefoglalásáról és a foglalások módosításáról szóló tesztben is csak a feladatok kevesebb mint felét volt képes sikeresen végrehajtani.
A mesterséges intelligencia fejlesztésének egyik legnagyobb kihívása, amikor a hibák következménye súlyosabb egy-egy elrontott chatbot-válasznál. Első körben az Anthropic is bizonyos korlátokat szabott a Claude képességeit illetően, így az MI-nek nincs rá lehetősége, hogy önállóan vásárlásra használja mondjuk egy valós személy bankkártyáját. A cég úgy látja, hogy ha a mai korlátozottabb, viszonylag biztonságos modellek a számítógépekhez való hozzáféréssel elkezdhetik megfigyelni az alacsonyabb szinten felmerülő problámákat, az a számítógép-használat és a biztonsági intézkedések fokozatos, egymással párhuzamos kiépítésében is.
A Wired cikkében nyilatkozó egyetemi kutató ugyanakkor felhívja rá a figyelmet, hogy maguk az MI-ágensek nem igazán képesek előre tervezni, és a makacs hibákat is nehezen hagyják el, a hasznosságukat ezért csak a realisztikus és szigorú benchmarkokkal mért erős teljesítmény igazolhatja.
a kép forrása: anthropic.com
CIO kutatás
Merre tart a vállalati IT és annak irányítója?
Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.
Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!
Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.
HPE Morpheus VM Essentials: a virtualizáció arany középútja
Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.
Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?