Tento mesiac sa svet umelej inteligencie (AI) dočkal významného prelomového pokroku. Čínska spoločnosť DeepSeek, známa svojím chatbotom DeepSeek-R1, predstavila nový model DeepSeek-GRM, ktorý kombinuje techniky generative reward modeling (GRM) a self-principled critique tuning (SPCT). Tento model sľubuje výrazné zlepšenie schopností AI v oblasti logického uvažovania a rozhodovania.
HoreČo je DeepSeek-GRM?
DeepSeek-GRM je výsledkom spolupráce medzi spoločnosťou DeepSeek a výskumníkmi z univerzity Tsinghua. Model využíva dve hlavné techniky:
-
Generative Reward Modeling (GRM): Táto technika umožňuje modelu generovať odmeny na základe kvality svojich výstupov, čím sa zlepšuje jeho schopnosť učiť sa a adaptovať.
-
Self-Principled Critique Tuning (SPCT): Umožňuje modelu samostatne hodnotiť a upravovať svoje odpovede na základe stanovených princípov, čím sa zvyšuje jeho konzistentnosť…