Siirry pääsisältöön

1,5-bittinen LLM iPhonessa: Miksi Applen ”laitteistovero” on kaupallinen este, ei tekninen rajoite

Tuomio: 7 miljardin parametrin LLM, joka on kutistettu 1,58 bittiin painoarvoa kohden, mahtuu vaivatta 1,2 gigatavun RAM-muistiin. iPhone 12:ssa on 4 gigatavua. Apple väittää, että ”Apple Intelligence vaatii A17 Pro tai uudemman” — vuonna 2026 tämä on insinööritieteellistä absurdiutta.

Luvut: BitNet b1.58 -paperi (Microsoft Research, 2024) → LLaMA-tason suorituskyky 1/8 mallin koosta. Recover-LoRA (kesäkuu 2026) → 2-bittinen kvantisointi palauttaa täyden tarkkuuden matalan rangan hienosäädöllä. Hybrid Gated Flow (helmi 2026) → tunnistaa ”Memory Wallin” (muistivallin) todelliseksi rajoitteeksi, ei laskentatehoa.

Applen siirto: Estää Apple Intelligence iPhone 15 -malleista ja vanhemmista. Pakottaa yli 250 miljoonaa käyttäjää päivittämään laitteensa, jotta he saisivat täyden Siri-kokemuksen.

Status: Laitteistovalli on tuloväylä. Tekniikka on valmis. Käyttöönotto ei ole.

30 sekunnin tiivistelmä: mikä on ”1,5-bittinen” LLM #

Kun LLM toimii puhelimessasi, jokainen ”painoarvo” — jokainen yhteys neuroverkossa — on normaalisti luku, joka vie 16 bittiä (2 tavua) muistia. 7 miljardin parametrin malli, kuten Metan LLaMA 2 7B, vie noin 14 gigatavua 16-bittisellä tarkkuudella. Siksi pilvi-AI on pilvessä: mikään puhelin ei ole vapaana 14 gigatavulle yhdelle mallille.

Kvantisointi kutistaa jokaisen painoarvon pienempään määrään bittejä. 16 bitistä 8 bittiin siirtyminen puolittaa muistin (7 Gt). 4 bittiä puolittaa sen uudelleen (3,5 Gt). 2 bittiä tuo sen 1,75 gigatavuun. Microsoft Researchin BitNet b1.58 -suunnittelu [The Era of 1-bit LLMs] on aggressiivisin: jokainen painoarvo on yksi kolmesta arvosta — miinus yksi, nolla tai plus yksi. Jokainen painoarvo vie noin 1,58 bittiä. 7B-malli muuttuu 1,2 gigatavun kokoiseksi.

Tuo 1,2 gigatavan luku on koko tarinan ydin. Vuonna 2020 julkaistu iPhone 12 sisältää 4 gigatavua RAM-muistia. Applen iPhone 13, 14 ja 15 -malleissa on 4–8 gigatavua. Mikään näistä puhelimista ei ole laskentateholtaan nälkäinen 1,2 gigatavun mallille. Muisti riittää. Laskentateho riittää. Neural Engine ei ole muuttunut dramaattisesti A14:stä A17:ään tässä kuormituksessa — se on kehittynyt asteittain, ei kategorisesti.

Mitä tutkimus sanoo — selkokielellä #

Kolme vuonna 2026 julkaistua tutkimusta osoittaa, ettei 1,5 bittiä ole enää kokeellista.

[Hybrid Gated Flow] (helmi 2026) on selkein selvitys teknisestä todellisuudesta: ”Suurten kielimallien (LLM) käyttöönotto reunalaitteilla on perustavanlaatuisesti rajoitettua ’Memory Wallin’ vuoksi — laitteistorajite, jossa muistiväylän nopeus, ei laskentateho, on pullonkaula.” Tutkimus näyttää, miten 1,58-bittiset LLM:t voidaan ottaa käyttöön reunalaitteilla valikoivilla matalan rangan korjauksilla. Se toimii.

[Recover-LoRA] (kesäkuu 2026) vastaa historialliseen huoleen: kun mallia kutistetaan näin aggressiivisesti, se menettää tarkkuutta. Tutkimus osoittaa, että 2-bittinen kvantisointi yhdistettynä pieneen LoRA-hienosäätöön (fine-tune) puristuksen jälkeen palauttaa täyden tarkkuuden. Prosessi on: ota mikä tahansa 7B-malli → kvantisoi 2 bittiin → hienosäädä pienellä LoRA-adapterilla → toimita. Tarkkuusongelma on ratkaistu.

[Sparse-BitNet] (maaliskuu 2026) osoittaa, että 1,58-bittiset mallit ja harvuus (sparsity) toimivat yhdessä — voit nollata 2 joka neljästä painoarvosta, ja 1,58-bittinen muoto puristaa mallia entisestään ilman uudelleenkoulutusta. 7B Sparse-BitNet -malli mahtuu noin 600 megatavuun.

[BitNet Distillation] (lokakuu 2025) tarjoaa tuotantoputken: ”kevyt” työkalu, joka muuntaa täyspitkät mallit, kuten Qwenin, 1,58-bittiseen muotoon. Apple käyttää jo sisäisesti Qwenia ja Apple Foundation Modelia. He voisivat ajaa tämän muunnoksen jo tänään.

Akateemisen maailman ulkopuolella [Litespark] (toukokuu 2026) osoittaa ternääristen neuroverkkojen toimivan kuluttajatason suorittimilla custom SIMD-ytimillä. [PD-Swap] (joulukuu 2025) näyttää 1,58-bittisten Transformerien toimivan reunalaitteiden FPGA-piireillä — piireillä, joissa on paljon vähemmän laskentatehoa kuin iPhone Neural Enginessä. Jos 20 dollarin FPGA pystyy siihen, iPhone 12kin pystyy.

Laitteistovalli lukujen valossa #

LaiteSiruRAMNeural Engine TOPSVuosiApple Intelligence?
iPhone 11A134 GB6 TOPS2019Ei (iOS 18 poisti tuen)
iPhone 12A144 GB11 TOPS2020Ei
iPhone 13A154 GB15.8 TOPS2021Ei
iPhone 14A166 GB17 TOPS2022Ei
iPhone 15A166 GB17 TOPS2023Ei
iPhone 15 ProA17 Pro8 GB35 TOPS2023Kyllä
iPhone 16A188 GB35 TOPS2024Kyllä
iPhone 16 ProA18 Pro8 GB35 TOPS2024Kyllä
iPhone 17 (huhuttu)A198–12 GB~45 TOPS2025Kyllä

Raja on vedetty A17 Proon. Laskentatehon (TOPS) 2-kertainen hyppy A16:sta (17) A17 Proon (35) on todellinen, mutta ei kategorinen. Molemmat voivat ajaa 1,2 gigatavun mallia. 8 GB vs 6 GB RAM -määrä vaikuttaa KV-välimuistiin (cache) pitkän kontekstin aikana, mutta BitNet Sparse -versio (600 MB) jättää yli 5 GB vapautta 6 GB iPhone 14 -mallissa.

Miksi Apple tekee tätä silti #

Kolme syytä, yrityksen painoarvon mukaan:

Tulot. Noin 250 miljoonaa iPhonea on aktiivisessa käytössä ja niissä on A16-siru tai vanhempi — perustuen Applen julkaisemiin tietoihin ja analyytikkojen arvioihin vuoden 2025–2026 syklille. Jos edes 10 % näistä käyttäjistä päivittää saadakseen Apple Intelligence -ominaisuuden — ominaisuuden, josta he ovat kuulleet jo kaksi vuotta — se tarkoittaa 25 miljoonaa laitetta, joiden keskimääräinen myyntihinta on 900 $ (~828 € / 3 555 zł), eli 22 miljardia dollaria laitteistotuloja. iOS 27:n laitteistovaatimukset ovat 22 miljardin dollarin tulovirran ohjausmekanismi, joka on piilotettu ohjelmistopäivityksen sisään.

Ekosysteemiin lukittautuminen. Apple Intelligence integroituu Kuvat-, Sähköposti-, Viestit-, Muistiot- ja Siri-palveluihin. Kun sinulla on se iPhone 15 Pro -mallissa, ostat Macin Apple Siliconilla, kuulokkeet Applella ja Apple TV:n, jotta kokemus jatkuu saumattomasti. Laitteistovalli on myös lukittautumisen kiihdyttin: käyttäjät, jotka jättävät sen väliin, jäävät pois Applen tekoälyekosysteemin kehityksestä seuraavien 4–5 vuoden ajaksi.

Kontrolli tekoälyn narratiivista. Apple ei halua käyttäjien ajavan avoimen lähdekoodin 1,58-bittisiä Qwen- tai LLaMA-malleja paikallisesti — se kilpailee Apple Intelligencein kanssa, jota Apple myy (tulevaisuudessa) maksullisena tilauksena. Laitteistovalli pitää ”iPhone tekoälyllä” -kokemuksen Applen brändinä ja Applen hallitsemana. Tämä on osa samaa Apple AI Safety -suojapuutarhalogiikkaa — mitä tiukempi portti, sitä vähemmän vaihtoehtoisia tekoälypintoja Applella on puolustettavana.

Mitä ”Memory Wall” oikeasti tarkoittaa #

HGF-paperin kehystys on tässä avainasemassa. ”Memory Wall” (muistivalli) on kuilu laskentatehon ja muistin tiedonsiirtonopeuden välillä. 16-bittisellä LLM-mallilla tämä kuilu on valtava: malli on liian suuri, jotta siru saisi riittävästi tietoa nopeasti. 1,58-bittisellä mallilla kuilu romahtaa: 1,2 gigatavua mahtuu LPDDR5-väylään, Neural Engine voi syöttää itseään jatkuvasti, ja pullonkaulaksi muodostuu tokenien generointiviive, ei muisti.

A14:n Neural Engine voi ajaa 1,58-bittistä mallia. iPhone 11:n A13-siru voi ajaa sitä hitaammin, mutta se pystyy siihen. Muistiväylän nopeus, ei laskentatehon TOPS, on se, mitä BitNet-perhe vapauttaa. Ja iPhone 12 ja uudemmat mallit omaavat riittävän muistiväylän.

Insinööriratkaisu, jonka Apple voisi toimittaa tänään #

VaiheMitäMiksi
1Ota Apple Foundation Model (3B parametria)Jo koulutettu, jo optimoitu Applelle
2BitDistill 1,58-bittiseen tarkkuuteen~600 MB mallin koko, mahtuu 4 GB RAM-muistiin KV-välimuistin kanssa
3Lisää Sparse-BitNet-leikkaustaPutoaa 300 MB:iin, mahtuu jopa 3 GB iPhone 11 -malliin
4Add Recover-LoRA hienosäätöönPalauttaa minkä tahansa laadun heikkenemisen kvantisoinnin myötä
5Ship iOS 26.5 -päivityksenä iPhone 12+ -malleillePalautetaan vanhempien mallien tukeen sen sijaan kuin suljetaan uudet mallit pois

Tämä on neljän kuukauden insinööriprojekti. Applella on tutkijat (Apple Foundation Model -tiimi on julkaissut työtä laitteistolla tapahtuvasta päättelystä), laitteisto (jokainen iPhone 12 ja uudempi) ja ohjelmistopino (Core ML tukee jo 1- ja 2-bittisiä kvantisointimalleja mlpackage-muodossa). Syy, ettei se tapahdu, ei ole tekninen. Se on kaupallinen — ja Applen syvenevä yhteistyö Anthropicin kanssa Project Glasswingin ja Mythos-kyberturvallisuuden osalta osoittaa, mihin tekoälylaskenta, joka ei ole laitteella, on tarkoitus ohjata.

Mitä tämä tarkoittaa iOS 27 -syklille #

iOS 27:n laitteistovaatimukset esitetään laitteistovaatimuksena. Avaimenjako (Keynote) avaa, että Apple Intelligence ”tarvitsee Neural Enginea A17 Pro -sirussa” tai vastaavaa. Avaimenjako on teknisesti puolustettava vain kaikkein raskaimpien Apple Intelligence -ominaisuuksien kohdalla — kuten laitteistolla tapahtuva kuvien generointi, monimutkaiset agenttimaiset työnkulut ja kieliin perustuva käännös eri kielten välillä.

Suurin osa Apple Intelligenceista — osat, jotka tiivistävät sähköpostit, luovat vastausvaihtoehtoja Viesteihin, luovat Genmoji-hahmoja, priorisoivat ilmoituksia ja uudistetut Siri — ei vaadi laitteistovalliä. 1,58-bittinen / 2-bit / Sparse-BitNet -tutkimus osoittaa sen. Applen valinta sulkea nämä ominaisuudet pois on liiketoimintapäätös, ei insinööriratkaisu.

Rehellinen kehystäminen #

Applella on insinööritaito. iPhone 12, kuuden vuoden ikäinen laite, voi ajaa Apple Intelligenceia vuonna 2026, jos Apple päättää toimittaa kvantisoidun mallin. Valinta olla toimittamatta se on järkevä liiketoiminnallisesta näkökulmasta, perusteltu markkinoinnillisesti, mutta epärehellinen insinööritiedon välityksessä. Kutsuen tulovirran ohjausmekanismin laitteistovaatimukseksi ilman, että tunnustetaan 1,5-bittisen kvantisoinnin tutkimustulokset, jotka ovat tehneet siitä tarpeettomaksi, Apple tekee tietoisen puutteen.

Apple ei estä käyttäjiä laitteistonsa vuoksi. He estävät käyttäjät Applen P&L-laskennan (tulos ja tappio) tulosten perusteella. He estävät käyttäjät Applen tulovirran tarpeesta.

Lähteet #

Lue myös #