
Ajatus mallin pitämisestä Tehokas tekoäly, joka toimii suoraan mobiililaitteella Pilvipalvelusta riippumattomuus kuulostaa hyvältä… kunnes kokeilet sitä itse. Jos sinulla on Galaxy S24 Ultra, lataat malleja, kuten Qwen 3.5 4B, ja käytät niitä sovelluksilla, kuten PocketPal, Offgrid tai ChatterUI, kohtaat vähemmän hohdokkaan todellisuuden: 4 merkkiä sekunnissaIkuisia aikoja, kunnes nähdään ensimmäinen token, terminaali ylikuumenee ja tuntuu, että super-SoC ei ole lähelläkään NPU:n puristamista markkinoinnin lupaamalla tavalla.
Samaan aikaan alalla puhutaan jatkuvasti siitä, NPU, paikallinen tekoäly, Copilot PC, Apple Neural Engine Ja niin edelleen. Valmistajat ovat jo vuosia pakanneet tekoälykiihdyttimiä järjestelmäpiireihinsä, sekä puhelimiin että kannettaviin tietokoneisiin, vakuuttaen meille, että ne ovat henkilökohtaisen laskennan tulevaisuus. Ongelmana on, että niin monien lyhenteiden ja lupausten keskellä on helppo eksyä: mitä puhelimen NPU tarkalleen ottaen tekee? Miksi CPU joskus näyttää toimivan paremmin? Milloin on järkevää käyttää pilvipohjaista tekoälyä ja milloin kannattaa luottaa paikalliseen tekoälyyn?
Mikä tarkalleen ottaen on mobiilijärjestelmän järjestelmäpiirin NPU ja mikä on sen rooli paikallisessa tekoälyssä?
Nykyaikaisessa älypuhelimessa niin kutsuttu "prosessori" on itse asiassa SoC (järjestelmä sirulla)Samalta piisirulta löydät suorittimen, näytönohjaimen, internet-palveluntarjoajan, modeemin, tietoturvayksiköt… ja jo muutaman vuoden ajan myös tekoälylle omistetun NPU:n eli neuromoottorin. Se ei korvaa suoritinta tai näytönohjainta: se täydentää niitä hyvin tietyntyyppisessä työssä.
NPU (NeuroprosessointiyksikköSe on laitteistolohko, joka on suunniteltu suorittamaan neuroverkkoja valtavalla vauhdilla: tuhansia kerto- ja yhteenlaskuoperaatioita rinnakkain, matalan tarkkuuden datalla (INT8, FP16, jopa INT4) ja erittäin pienellä muistilla, jotta painojen siirtämiseen ja aktivointiin ei kuluisi aikaa. Se ei pysty "tekemään vähän kaikkea" kuten CPU, mutta minkä se pystyy, se tekee brutaalilla tehokkuudella.
Tuo erikoistuminen sopii kuin hansikas lähes kaikkeen, mitä nykyään ymmärrämme tekoälynä: konenäköPuheentunnistus, kuvien luokittelu, kääntäminen, kielen mallintaminen ja yleisesti ottaen mikä tahansa moderni neuroverkko. Sen sijaan, että järjestelmä ylikuormittaisi prosessoria tai käynnistäisi näytönohjaimen jokaista tekoälytehtävää varten, se lähettää nämä toiminnot NPU:lle, joka suorittaa ne vähemmällä energialla ja vähemmällä lämmöllä.
Itse asiassa useimmat suuret valmistajat kuvailevat NPU-suorittimiaan noilla termeillä. Qualcomm puhuu enemmän suorituskykyä wattia kohden tekoälytyökuormiin; Huawei myy sitä avaimena enemmän tekemiseen lyhyemmässä ajassa akkua tyhjentämättä; Apple määrittelee sen GPU:n kaltaiseksi moottoriksi, joka kiihdyttää matriisikonvoluutioita ja kertolaskuja; AMD ja Intel integroivat sen suorittimiinsa keventääkseen vähän virtaa kuluttavia tekoälytehtäviä, kun taas Samsung väittää, että sen NPU on optimoitu samanaikaisiin matriisioperaatioihin ja jatkuvaan oppimiseen kertyneen datan avulla.
NPU:t: eivät uusia eivätkä yksinomaan mobiililaitteille
Saattaa vaikuttaa siltä, että NPU:t ovat ilmestyneet tyhjästä Generatiivisen tekoälyn ympärillä olevan hypen keskellä todellisuudessa olemme eläneet sen kanssa taskuissamme lähes vuosikymmenen edes tajuamatta sitä. Vuonna 2017 Apple julkaisi iPhone X:n, jossa oli Face ID ja Animoji, A11 Bionic -sirun ansiosta, jossa oli jo oma "hermomoottori", vaikka harvat kiinnittivät tuolloin nimeen huomiota.
Siitä lähtien Apple on paisuttanut kyseistä Apple Neural Engineä sukupolvi toisensa jälkeen. iPhone X:n ANE oli noin... 1 200 TOPS (biljoonia operaatioita sekunnissa) FP16:ssa. Nykyään iPhone 15 Pron A17 Pro on noin 35 TOPS, ja iPadin ja Macin M4-sirun teho nousee noin 38 TOPS:iin. Eli muutamassa vuodessa olemme siirtyneet "token"-neuromoottorista sellaiseen, joka pystyy suorittamaan malleja, joita aiemmin näimme vain datakeskuksissa.
Google on tehnyt omalta osaltaan jotain vastaavaa TPU (Tensor Processing Unit)Ensin datakeskuksissaan, joissa käytettiin jättimäisiä siruja neuroverkkojen kouluttamiseen, ja sitten Pixel-puhelimissa Google Tensor -tuoteperheen kanssa (Pixel 6, 7, 8…). Siellä he integroivat TPU:n/NPU:n järjestelmäpiiriin mahduttaakseen kameran, äänen ja yhä enemmän myös generatiiviset tekoälytoiminnot itse laitteeseen.
PC-maailmassa Intelin ja AMD:n on täytynyt tehostaa toimintaansa. Intel lisää NPU-prosessoreita Core Ultra (Meteor Lake) -prosessoreihinsa, joiden TOPS on noin 8–12, kun taas AMD esitteli Ryzen-tekoälyn Ryzen 7040 -kannettavien prosessoreissaan, joiden TOPS on jopa 10, ja saavutti jopa 39 TOPS:n NPU-tuloksen lyhyessä erässä Ryzen 8000 -pöytätietokoneiden prosessoreita. Idea on sama: tekoälyn vieminen reunalle eikä olla niin riippuvaisia pilvestä kaikessa.
Miten NPU toimii: miksi se on niin hyvä tekoälylle… ja niin huono kaikelle muulle
Jos avaamme sirun henkisesti, NPU näyttää enemmän matriisin kertolaskutehdas kuin klassinen CPU. Muutaman erittäin monipuolisen ytimen sijaan siinä on kymmeniätuhansia yksinkertaisia ALUja, jotka on järjestetty matriisiksi tai verkoksi ja jotka kykenevät suorittamaan "kerro-kerro" (MAC) -tuloksia rinnakkain, usein alhaisella tarkkuudella.

Temppu on järjestää nämä yksiköt eräänlaiseksi systolinen matriisiData tulee sisään toiselta puolelta, siirtyy solusta toiseen, ja jokainen solu suorittaa pienen operaationsa ennen tuloksen välittämistä seuraavalle. Tämä minimoi päämuistin käyttökerrat ja maksimoi MAC-yksiköiden käytön, mitä neuroverkko tarvitsee päättelyä tehdessään.
Tämän tehokkuuden saavuttamiseksi NPU luopuu monista ominaisuuksista, jotka tekevät suorittimesta tai näytönohjaimesta kalliimman: siitä puuttuu monimutkainen haarautumisen ennustuslogiikka, kehittynyt välimuistijärjestelmä ja tuki kaikille yleiskäyttöisille käskyille. Sen ISA on tyypillisesti minimaalinen. DMA tiedon, pistetulojen, summien, aktivointien ja pienten muiden asioiden siirtämiseen.
Hän leikkii myös mm. numeerinen tarkkuusVaikka perinteinen CPU tai GPU toimii mukavasti 32-bittisissä tai 64-bittisissä liukulukuyksiköissä, NPU toimii tyypillisesti INT8-, FP16- ja jopa INT4-piireissä. Koulutetulle neuroverkolle tämä tarkkuustaso riittää erinomaisten tulosten tuottamiseen, mikä mahdollistaa huomattavasti enemmän operaatioita sykliä kohden ja paljon pienemmällä energiankulutuksella operaatiota kohden.
CPU, GPU, NPU ja TPU: kuka tekee mitä tekoälyssä
CPU pysyy "yleisenä aivona": se hallinnoi käyttöjärjestelmää, koordinoi tehtäviä ja suorittaa ohjauslogiikkaa. Se pystyy ajamaan pieniä malleja, mutta kun sitä pyydetään käsittelemään suurta verkkoa tai ylläpitämään jatkuvaa tekstin generointia, siitä tulee pullonkaula viiveen ja virrankulutuksen suhteen.
GPU on työjuhta syvä oppiminenSe kääntää grafiikan renderöinnin (monet vastaavat operaatiot suurilla vektoreilla) erittäin hyvin neuroverkkojen kouluttamiseen ja suorittamiseen. Nykyaikaiset näytönohjaimet sisältävät myös tensorytimet tiettyjä, jotka käytännössä käyttäytyvät kuin pienet NPU:t itse GPU:n sisällä.
NPU puolestaan on suunniteltu yksinomaan tekoälyn päättelyyn. Se ei sovellu pelaamiseen, käyttöliittymien renderöintiin tai koodin kääntämiseen, mutta se on ihanteellinen näkö-, ääni- tai kieliverkkojen käyttämiseen energiatehokkuudella, johon näytönohjain ei pysty matkapuhelimessa tai ultrakevyessä kannettavassa tietokoneessa.
Googlen TPU:t ovat läheinen serkku: ASIC-piirit, jotka keskittyvät tensorioperaatioihin tekoälymallien kiihdyttämiseksi, erityisesti datakeskuksissa. Esimerkiksi Coral Dev Boardin Edge TPU tarjoaa joitakin 4 TOPS-levyä vain muutamalla watillaIhanteellinen kameroille ja IoT-laitteille, jotka tarvitsevat reaaliaikaista konenäköä ilman ylikuumenemista tai liiallista virrankulutusta.
Yhteenvetona voidaan todeta, että ihanteellinen yhdistelmä nykyaikaisessa laitteessa on: CPU yleiseen logiikkaan, GPU grafiikkatyökuormiin ja joustavaan rinnakkaislaskentaan sekä NPU/TPU neuroverkkoihinJokainen tekee omaa juttuaan, ja kun ohjelmisto on hyvin kirjoitettu, järjestelmä jakaa työn varsin älykkäästi.
Pilvipohjainen tekoäly vs. paikallinen tekoäly: nopeus, yksityisyys ja kustannukset
Vielä aivan äskettäin lähes kaikki, mitä yhdistimme "tehokkaaseen tekoälyyn", tapahtui pilvessä: ChatGPT, Gemini, Stable Diffusion, edistyneet avustajat… Matkapuhelimet toimivat vain tyhmä terminaali joka lähetti dataa ja vastaanotti käsitellyn vastauksen palvelimella, joka on täynnä GPU:ita tai TPU:ita.
Tällä arkkitehtuurilla on ilmeinen etu: sillä voi ajaa jättimäisiä malleja murehtimatta loppukäyttäjän tehontarpeesta. Halpa halpalaite ja huippuluokan lippulaivalaite saavat saman tuloksen, koska raskaan työn tekee prosessori. datakeskus erillisellä laitteistolla.
Mutta sillä on myös merkittäviä haittoja. latenssi Se riippuu täysin yhteydestä: jos kuuluvuus on huono, olet lentokoneessa tai kaupungissa, jossa ADSL-yhteys on epäluotettava, monet ominaisuudet lakkaavat olemasta "taikallisia" ja niistä tulee suorastaan hyödyttömiä. Lisäksi jokainen pyyntö edellyttää datan lähettämistä kolmansille osapuolille ja luottamusta siihen, että se käsitellään oikein.

Paikallinen tekoäly pelaa täsmälleen päinvastaista peliä: tuo malli laitteelle ja suorittaa päättelyn laitteen omalla suorittimella, näytönohjaimella tai prosessorilla. Tämä poistaa verkon viiveen, mahdollistaa offline-tekoälyn ja ennen kaikkea tekee siitä tietojesi ei tarvitse poistua puhelimesta, kannettavaa tietokonetta tai autoa, ellet sitten halua sitä.
Paikallista tekoälyä rajoittaa kuitenkin se, mitä laitteisto pystyy käsittelemään: RAM, VRAM, lämpöteho, akku70.000 miljardin parametrin malli ei sovi mukavasti nykypäivän puhelimeen; meidän on turvauduttava pelkistettyihin, kvantisoituihin ja erittäin optimoituihin versioihin, jos haluamme jotain joustavaa ja kestävää.
Mobiilit NPU:t: kamerasta avustajaan, mukaan lukien paikalliset LLM:t
Älypuhelinmaailmassa NPU:t ovat työskennelleet hiljaa vuosia kaiken siihen liittyvän parissa mobiili valokuvaus ja video, kasvojentunnistus, ääni ja käännös. Valmistajat ovat lisänneet ominaisuuksia näiden lisäksi.
Applen ekosysteemissä Neural Engine hoitaa kasvojentunnistuksen, kasvojen ja objektien tunnistuksen galleriassa, sanelun, reaaliaikaisen kääntämisen, tekstintunnistuksen kuvissa, AR:n ja monia muita tehtäviä, joita pidämme itsestäänselvyyksinä. A16:n, A17:n ja M3/M4-tuoteperheen myötä Apple alkaa tehdä toimia, jotta... Siri ja muut generatiiviset tekoälyominaisuudet toimivat itse laitteessa ilman niin suurta riippuvuutta pilvestä, hyödyntäen noita 30–40 huippuluokan neuromoottoria.
Google tekee Tensor G2- ja G3-puhelimillaan jotain vastaavaa Pixelissä. Pixel 8:ssa on... Integroitu TPU, voi ajaa mallien, kuten PaLM 2:n tai Gemini Nano laitteella tehtäviä, kuten kääntämistä, verkkosivustojen ääneen lukemista, paikallisia yhteenvetoja, sujuvampaa äänikirjoitusta tai kameratemppuja, kuten Best Take ja Audio Magic Eraser, varten, kaikki sirun toimiessa ilman jatkuvaa datan lähettämistä palvelimilleen.
Qualcomm on puolestaan käyttänyt Hexagon NPU -prosessoreita Snapdragon-sarjassa useiden sukupolvien ajan. Snapdragon 8 Gen 3 ylpeilee NPU:lla, joka on 98 % nopeampi kuin sukupolvi 2 ja pystyy toimimaan Jopa 10.000 miljardin parametrin LLM-mallit itse mobiililaitteella, julkisilla demonstraatioilla Stable Diffusionista, joka tuottaa kuvia suurella nopeudella, ja Llama 2:sta tai Llama 3:sta, joka toimii täysin offline-tilassa.
MediaTek ei ole kaukana perässä Dimensity-sarjan APU-suorittimillaan (AI Processing Units), ja se saavuttaa tehtäviä, kuten kuudennen sukupolven APU:lla reaaliaikainen tekoälyllä tehty valokuvien uudelleenmuokkaus matkapuhelimissa, kuten Oppo Find X8:ssa, ja viittaa siihen, että sama NPU-teknologia on tulossa televisioihin, esineiden internetiin ja jopa autoteollisuuteen.
Mitä tapahtuu NPU-tietokoneissa ja autoissa
PC-markkinoilla Microsoft on lanseerannut tuotekategorian "Tekoälyllä varustettu tietokone" Intel Core Ultra (Meteor Lake) perustuu Intelin, AMD:n ja Qualcommin SoC-prosessoreihin integroituihin NPU-prosessoreihin, ja siinä on noin 8–12 TOPS:n NPU, joka nopeuttaa Windows 11:n ominaisuuksia, kuten taustan sumennusta, keinotekoista katsekontaktia, kohinanvaimennusta ja tulevaisuudessa myös osia Copilotista.
AMD esitteli Ryzen AI:n kannettaville tarkoitetussa Ryzen 7040 -sarjassa ja lyhyesti myös Ryzen 8000 -sarjan pöytätietokoneissa, joiden NPU-teho on jopa 39 TOPS. Vaikka tätä lähestymistapaa on muutettu, viesti on selvä: Tulevaisuuden tietokoneella on aina oma tekoälylohkonsa., aivan kuten siinä on ollut integroitu näytönohjain vuosia.
Autoteollisuudessa asiat kehittyvät paljon. Teslalla on kaksi sukupolvea täysin itseohjautuvia laitteita, joissa on kaksi NPU:ta: HW3 oli noin 144 TOPS ja HW4 on noin 200–250 TOPS. Kaikki nämä käsittelevät reaaliajassa useiden kameroiden ja anturien signaaleja ja ajavat neuroverkkoja, jotka tekevät ajopäätöksiä millisekunneissa.
NVIDIA ottaa Drive Thor -alustallaan uuden harppauksen: yksi siru voi yltää jopa ... 1000 TOPSia tai 2000 TOPSia kahdella linkitettynäSe on suunniteltu keskittämään sekä autonomisen ajamisen että ohjaamon tekoälyn (ääniavustajat, kuljettajan valvonta, viihde jne.). Filosofia on sama: mitä enemmän tekoälyä haluat integroida autoon reaaliajassa, sitä järkevämpi on erillinen kaasupoljin ajoneuvossa.
Yksityisautojen lisäksi NPU:t ovat ylivoimaisia myös valvontakameroissa, droneissa ja roboteissa: laitteet, kuten Hailo-8 (26 TOPS pienitehoisella suorittimella) tai Intelin Myriad ja Googlen Edge TPU, mahdollistavat konenäkö reunalla ilman verkkojen tai datakeskusten ylikuormitusta.
Paikallinen tekoäly "oikeassa" mobiililaitteessa: PocketPal, MNN Chat ja muut
Valmistajan päättämien toimintojen lisäksi yhä useammat käyttäjät haluavat aja omia kielimallejasi paikallisesti Mobiililaitteellasi ilman ChatGPT:tä, Geminiä tai vastaavia sovelluksia. Tässä kohtaa sovellukset, kuten PocketPal, Offgrid, ChatterUI tai MNN Chat, tulevat mukaan kuvaan.
PocketPal on yksi helpoimmin saatavilla olevista. Sen avulla voit ladata avoimen lähdekoodin malleja (Llama, Gemma, Phi, Qwen, Mistral…) kompakteissa muodoissa, kuten GGUF, ja käyttää niitä suoraan puhelimellasi offline-tilassa. täydellistä yksityisyyttäKehotteet ja vastaukset eivät koskaan poistu laitteesta. Tarvitset vain suhteellisen modernin Android- tai iOS-matkapuhelimen, muutaman 6–8 Gt RAM-muistia ja useita gigatavuja vapaata tallennustilaa malleille.
Käytännössä mallit, joiden parametrit ovat 1B ja 4B välillä (kuten Qwen2.5-1.5B, Llama 3.2 3B tai Qwen3-4B-Instruct), toimivat kohtuullisen hyvin keskitason puhelimissa. Tyypillinen suorituskyky on kuitenkin yleensä välillä 5 ja 20 tokenia sekunnissa huippuluokan palvelimella ja vielä vähemmän alemmalla tasolla, kaukana siitä, mitä voidaan saavuttaa ammattimaisella näytönohjaimella varustetulla palvelimella.
Lisätehon saamiseksi iPhonessa on suositeltavaa käyttää Metalia ja lisätä GPU-kerrosten määrää; Androidilla jotkin sovellukset alkavat hyödyntää tätä. Vulkan, GPU ja harvinaisissa tapauksissa NPU NNAPI:n kauttaSilti monissa näistä ratkaisuista todellinen taakka lankeaa edelleen suorittimelle ja näytönohjaimelle, ja näytönohjain jää vajaakäytössä olevaksi, koska ohjelmistokerros ei ole vielä kypsä.
MNN Chatin tapaus on havainnollistava: se on yksi nopeimmista sovelluksista, joita monet käyttäjät ovat kokeilleet S24 Ultralla, mutta erittäin kvantisoitujen mallien hinnalla, laadun heikkenemisen kera, eikä ole selvää, hyödyntääkö se Snapdragonin NPU:ta täysimääräisesti vai optimoiko se "vain" CPU/GPU-reitin erittäin hyvin.
Miksi S24 Ultra ei saa 100 % irti NPU:staan Qwen 3.5 4B:n kanssa
Vaikka paperilla S24 Ultran tai S25 Ultran SoC pystyy käsittelemään jopa 10 miljardin parametrin malleja ja yli 40 TOPS:n tekoälylaskentaa, sama asia tapahtuu yleensä, kun asennat LLM:n, kuten Qwen 3.5 4B:n, geneeriseen sovellukseen: Se käynnistyy nopeasti, sitten lämpenee, suorituskyky laskee ja vakiintuu selvästi odotettua heikommaksi..
Tärkein syy on se, että useimmissa kolmannen osapuolen sovelluksissa malli toimii suorittimella tai näytönohjaimella käyttäen yleiskäyttöisiä kirjastoja (BLAS, Vulkan, Metal) ilman suoraa, tarkkaa pääsyä järjestelmäpiirin NPU:hun. Mobiililaitteissa NPU on tyypillisesti käytettävissä API-rajapintojen, kuten NNAPI:n Androidilla tai Core ML:n iOS:llä, kautta, mutta kaikki paikalliset LLM-kehykset eivät ole hyvin integroituja niihin, ja valmistajien tuki vaihtelee.
Tuloksena on, että yksinkertainen testi, kuten Nexa AI:n esittämä huippuluokan Galaxy-puhelimella jatkuvaa tekstiä tuottava testi, osoittaa toiminnan selvästi: jos kaikki on riippuvainen suorittimesta, aluksi tokeneita sekunnissa on erittäin paljonMutta muutamassa minuutissa lämpötila nousee, järjestelmä laskee taajuuksia välttääkseen lämpörajan ylittymisen, ja suorituskyky laskee paljon maltilliselle mutta kestävälle tasolle.
Kun työmäärä todella siirtyy NPU:lle, profiili muuttuu: alussa ei näe näin näyttävää piikkiä, mutta tokenien tuotanto kasvaa huomattavasti. tasainen ja vakaa ajan myötäalhaisemmalla lämpötilalla ja pienemmällä vaikutuksella akun käyttöikään. Ongelmana on tällä hetkellä saada paikallinen LLM-sovellus kommunikoimaan saumattomasti kyseisen NPU:n kanssa.
Lisäksi on muita fyysisiä rajoituksia, joita ei voida ratkaista ohjelmistolla: käytettävissä olevan RAM-muistin määrä, järjestelmäpiirin muistin kaistanleveys ja itse mallin koko. Mobiililaitteissa LLM:n "mukavuusalue" on yleensä noin 3–4 Gt:n kokoisia kvantisoituja mallejaTämän lisäksi latausajat, kulutus ja kuristus kasvavat lähes aina.
Vaikka Snapdragon 8 Gen 3:n tai 8 Gen 4:n kaltaisten sirujen markkinoinnissa puhutaan "10 miljardista LLM:stä laitteessa", käytännössä käyttökokemus raskaan avoimen lähdekoodin mallien kanssa on edelleen herkkä, varsinkin jos sovellusta ei ole suunniteltu alusta alkaen puristamaan irti NPU:sta kaikki valmistajan virallisten SDK:iden avulla.
Paikallisen tekoälyn edut ja haitat mobiililaitteissa
Tekoälyn käyttäminen paikallisesti mobiililaitteilla on erittäin houkuttelevaa. Ensinnäkin, yksityisyysJos malli on puhelimessa eikä ulkoisille palvelimille tule puheluita, kaikki sille kertomasi tiedot pysyvät siellä. Tämä on korvaamatonta arkaluonteisissa käyttötarkoituksissa (henkilökohtaiset muistiinpanot, lääketieteelliset tiedot, yrityksen sisäiset asiakirjat jne.).
La latenssi Se toimii myös eduksi: et ole riippuvainen verkosta, joten tekstiyhteenveto, nopea käännös tai hieman perustelua saapuu niin nopeasti kuin siru sallii, missä tahansa oletkin. Jopa metrossa ilman signaalia tai matkalla ilman dataa, sinulla on silti toimiva avustaja.
Lisäksi työn siirtäminen pilvestä suuressa mittakaavassa vähentää kustannuksia. Se ei ole sama asia kuin miljoonien käyttäjien tekemä kysely maksullisten näytönohjainten klusterille, vaan osan näistä pyynnöistä siirtäminen... NPU:t, jotka ovat jo maksaneet ostaessaan matkapuhelimenSiksi yritykset, kuten Qualcomm, MediaTek ja Apple, ajavat tekoälyä niin kovasti laitteissaan.
Tietullit ovat toisella puolella. akku ja lämpötila Ne kärsivät, jos käytät liikaa raskaita malleja, pienempien mallien laatu ei vielä yllä GPT-4:n tai Gemini Ultran tasolle, ja kokemus voi olla epäjohdonmukainen, jos ohjelmisto on vielä alkuvaiheessa: kaatumisia, malleja, jotka eivät lataudu, turhauttavan pitkät viiveet ensimmäisen tokenin saamiseen…
Siksi monet tuotemerkit lyövät vetoa mallista hybridiYksinkertaiset, nopeat ja responsiiviset tehtävät (peruskäännökset, tekstinkorjaus, tietyt valokuvien muokkaustoiminnot ja pikavalinnat) käsitellään suoraan mobiililaitteella, kun taas monimutkaisemmat tai tehokasta prosessoria vaativat pyynnöt lähetetään pilveen. Tämä luo saumattoman ja yksityisen kokemuksen tinkimättä tehokkaampien laitteiden ominaisuuksista tarvittaessa.
Viime kädessä NPU:n tehtävänä on saada kaikki tämä toimimaan: ilman erittäin tehokasta tekoälyydintä järjestelmäpiirissä paikallinen tekoäly olisi satunnainen ylellisyys, joka tyhjentäisi akun minuuteissa. Kypsän NPU:n ja hyvän ohjelmiston avulla siitä tulee saumaton ominaisuus, joka toimii taustalla puhelimellasi, tietokoneellasi tai autossasi, samalla kun näet kaiken reagoivan nopeammin ja älykkäämmin.
Tässä skenaariossa tunne on selvä: tekoäly ei enää elä vain pilvessä tai suurten teknologiayritysten palvelimilla, vaan on laskeutuen suoraan taskuun ja työpöydälleMobiilijärjestelmäpiirin NPU ei ole vain näön vuoksi: sen hiljainen moottori tekee paikallisesta tekoälystä kohtuullisen nopeaa, hyödyllistä ja yksityistä, vaikka tarvitsemmekin vielä harppauksen ohjelmistossa ja ekosysteemissä, jotta kuka tahansa voi saada siitä kaiken irti vaivaamatta päätään tai tyytymättä neljään tokeniin sekunnissa.

