Icma.az
close
up
RU
Çindən süni intellekt sahəsində sensasion YENİLİK

Çindən süni intellekt sahəsində sensasion YENİLİK

Icma.az, Lent az saytından verilən məlumata əsaslanaraq xəbər yayır.

 Çinin süni intellekt sahəsində fəaliyyət göstərən startapı DeepSeek, sensasion bir açıqlama edərək, aparıcı süni intellekt şirkətlərinin modellərinə bənzər bir modeli 11 dəfə daha az hesablama gücü ilə hazırladıqlarını elan edib.

Lent.az xəbər verir ki, DeepSeek-in təqdim etdiyi məlumatlara görə, OpenAI, Meta və Anthropic kimi nəhənglərin modellərinə bənzər DeepSeek-V3 adlı dil modeli cəmi 2 ay ərzində 2.048 Nvidia H800 GPU-sundan ibarət bir qrup vasitəsilə 671 milyard parametr üzərində öyrədilib. Bu, təxminən 2.8 milyon GPU saatı deməkdir. Müqayisə üçün, Meta-nın 405 milyard parametrə malik Llama 3 modelini 54 gün ərzində 16.384 H100 GPU istifadə edərək öyrətməsi üçün 11 dəfə daha çox hesablama gücü (30.8 milyon GPU saatı) tələb olunub.

DeepSeek, qabaqcıl əlaqə xətti (pipeline) alqoritmləri, optimallaşdırılmış rabitə çərçivəsi və FP8 aşağı dəqiqlikli hesablama üsulundan istifadə edərək bu cür miqyaslı modellər üçün adətən tələb olunan hesablama və yaddaş ehtiyaclarını əhəmiyyətli dərəcədə azaltdığını iddia edir. Şirkət, DeepSeek-V3 modelinin hesablama tələblərini azaltmaq üçün onlarla optimizasiya texnikası tətbiq etdiyini vurğulasa da, bir neçə əsas texnologiya bu nəticələrin əldə olunmasında həlledici rol oynayıb. DeepSeek, DualPipe adlı alqoritmdən istifadə edərək həm hesablama, həm də rabitə mərhələlərində effektivliyi artırdığını bildirir. Bu alqoritm, xüsusilə MoE arxitekturasının tələb etdiyi qovşaqlararası ekspert paralelliyi üçün təlim darboğazlarını minimuma endirib. Beləliklə, sıfıra yaxın rabitə yükü ilə 14.8 trilyon simvolun işlənməsi mümkün olub.

Bundan əlavə, DeepSeek rabitə zamanı istifadə olunan qovşaqların sayını hər simvol üçün maksimum 4 qovşaqla məhdudlaşdırıb. Bu yanaşma trafiki azaldıb və rabitənin hesablama ilə effektiv şəkildə üst-üstə düşməsinə imkan verib. Performans baxımından, şirkət DeepSeek-V3 MoE modelinin bəzi göstəricilər üzrə GPT-4x, Claude-3.5-Sonnet və LLama-3.1 modelləri ilə müqayisə edilə bilən, bəzən isə onları ötüb, keçən nəticələr verdiyini bildirir. Lakin bu iddiaların müstəqil tədqiqatçılar tərəfindən təsdiqlənməsinə ehtiyac var. Şirkət modeli və onun parametrlərini açıq mənbə kimi təqdim edib, buna görə də yaxın vaxtlarda müqayisəli testlərin aparılması gözlənilir.

DeepSeek-V3 modeli parametrlərin sayı və ya məntiqi düşünmə qabiliyyətləri baxımından GPT-4 və ya Llama-3 kimi qabaqcıl modellərdən geri qalsa da, məhdud resurslarla yüksək səviyyəli bir MoE modelinin hazırlanmasının mümkün olduğunu nümayiş etdirir. Təbii ki, bu, çoxlu optimizasiya və aşağı səviyyəli proqramlaşdırma tələb edir, lakin nəticələr olduqca ümidverici görünür. DeepSeek komandası, DeepSeek-V3 modelinin tətbiqinin inkişaf etmiş avadanlıqla yanaşı, prefilling və dekodlaşdırma mərhələlərini bir-birindən ayıran xüsusi paylama strategiyası tələb etdiyini, bunun isə resurs çatışmazlığı səbəbindən kiçik şirkətlər üçün əlçatmaz ola biləcəyini etiraf edir.

Sonrakı hadisələr barədə daha çox məlumat almaq üçün Icma.az saytını izləyin.
seeBaxış sayı:56
embedMənbə:https://lent.az
archiveBu xəbər 28 Dekabr 2024 13:54 mənbədən arxivləşdirilmişdir
0 Şərh
Daxil olun, şərh yazmaq üçün...
İlk cavab verən siz olun...
topGünün ən çox oxunanları
Hal-hazırda ən çox müzakirə olunan hadisələr

Şəkidə yeni şəlalə aşkarlandı

16 May 2025 17:06see288

Söz dünyasının yaxşısı...

17 May 2025 02:11see164

Qusarda II sinif şagirdinin cinsi zorakılığa məruz qaldığı iddia olunur Araşdırma aparılır

16 May 2025 16:22see148

Lələtəpəni geri almaq ohanyanların “yem”i deyildi...

17 May 2025 02:56see123

Rusiya və Ukrayna bu məsələdə razılığa gəliblər Rustem Umerov açıqladı

16 May 2025 18:17see123

“Past”ın “sensasiyası”, yoxsa acı reallıq?

17 May 2025 02:56see121

Neftçi Səbail ə, Qarabağ Kəpəz ə qarşı

18 May 2025 08:01see120

Makron növbəti dəfə qeyri adi vəziyyətə düşdü Video

18 May 2025 01:29see119

Sabiq FTB rəhbəri Trampı təhdid etdiyi iddia edilən paylaşıma görə dindirilməyə çağırılıb

17 May 2025 04:42see119

ABŞ da Alzheymer xəstəliyinin diaqnozu ilə bağlı yeni testə icazə verilib

18 May 2025 03:08see118

Sərbəst güləşçilərimiz komanda hesabında İranda üçüncü oldular

17 May 2025 11:45see118

Çinin Qlobal Enerji üzrə Qarşılıqlı Əlaqələrin İnkişafı və Əməkdaşlıq Təşkilatının nümayəndələri BDU da

16 May 2025 19:25see118

Tramp Ərdoğanla danışığa önəm verir Çelik

17 May 2025 01:22see117

Türkiyə və İran XİN rəhbərləri nüvə danışıqlarını müzakirə etdilər

18 May 2025 01:34see117

® Mərkəzi Gömrük Hospitalında “Korrupsiyaya qarşı mübarizə” mövzusunda növbəti tədbir keçirilib

16 May 2025 18:51see116

Məşhurların evliliklərinə son qoyan filmlər Siyahı

17 May 2025 11:02see115

Yuxudan oyandı və bütün internetin onun tətil fotosuna güldüyünü gördü

17 May 2025 07:02see114

Sabah bəzi yollarda görünüş məsafəsi məhdudlaşacaq

16 May 2025 21:06see113

Media: Fransa Çex Respublikasında AES tikintisinə mane olur

18 May 2025 02:35see113

Ciorcia Meloni Aİ nin ekologiya siyasətini tənqid edib

18 May 2025 04:00see112
newsSon xəbərlər
Günün ən son və aktual hadisələri