1,5-bittinen LLM iPhonessa: Miksi Applen ”laitteistovero” on kaupallinen este, ei tekninen rajoite

Tuomio: 7 miljardin parametrin LLM, joka on kutistettu 1,58 bittiin painoarvoa kohden, mahtuu vaivatta 1,2 gigatavun RAM-muistiin. iPhone 12:ssa on 4 gigatavua. Apple väittää, että ”Apple Intelligence vaatii A17 Pro tai uudemman” — vuonna 2026 tämä on insinööritieteellistä absurdiutta.

Luvut: BitNet b1.58 -paperi (Microsoft Research, 2024) → LLaMA-tason suorituskyky 1/8 mallin koosta. Recover-LoRA (kesäkuu 2026) → 2-bittinen kvantisointi palauttaa täyden tarkkuuden matalan rangan hienosäädöllä. Hybrid Gated Flow (helmi 2026) → tunnistaa ”Memory Wallin” (muistivallin) todelliseksi rajoitteeksi, ei laskentatehoa.

Applen siirto: Estää Apple Intelligence iPhone 15 -malleista ja vanhemmista. Pakottaa yli 250 miljoonaa käyttäjää päivittämään laitteensa, jotta he saisivat täyden Siri-kokemuksen.

Status: Laitteistovalli on tuloväylä. Tekniikka on valmis. Käyttöönotto ei ole.

30 sekunnin tiivistelmä: mikä on ”1,5-bittinen” LLM #

Kun LLM toimii puhelimessasi, jokainen ”painoarvo” — jokainen yhteys neuroverkossa — on normaalisti luku, joka vie 16 bittiä (2 tavua) muistia. 7 miljardin parametrin malli, kuten Metan LLaMA 2 7B, vie noin 14 gigatavua 16-bittisellä tarkkuudella. Siksi pilvi-AI on pilvessä: mikään puhelin ei ole vapaana 14 gigatavulle yhdelle mallille.

Kvantisointi kutistaa jokaisen painoarvon pienempään määrään bittejä. 16 bitistä 8 bittiin siirtyminen puolittaa muistin (7 Gt). 4 bittiä puolittaa sen uudelleen (3,5 Gt). 2 bittiä tuo sen 1,75 gigatavuun. Microsoft Researchin BitNet b1.58 -suunnittelu [The Era of 1-bit LLMs] on aggressiivisin: jokainen painoarvo on yksi kolmesta arvosta — miinus yksi, nolla tai plus yksi. Jokainen painoarvo vie noin 1,58 bittiä. 7B-malli muuttuu 1,2 gigatavun kokoiseksi.

Tuo 1,2 gigatavan luku on koko tarinan ydin. Vuonna 2020 julkaistu iPhone 12 sisältää 4 gigatavua RAM-muistia. Applen iPhone 13, 14 ja 15 -malleissa on 4–8 gigatavua. Mikään näistä puhelimista ei ole laskentateholtaan nälkäinen 1,2 gigatavun mallille. Muisti riittää. Laskentateho riittää. Neural Engine ei ole muuttunut dramaattisesti A14:stä A17:ään tässä kuormituksessa — se on kehittynyt asteittain, ei kategorisesti.

Mitä tutkimus sanoo — selkokielellä #

Kolme vuonna 2026 julkaistua tutkimusta osoittaa, ettei 1,5 bittiä ole enää kokeellista.

[Hybrid Gated Flow] (helmi 2026) on selkein selvitys teknisestä todellisuudesta: ”Suurten kielimallien (LLM) käyttöönotto reunalaitteilla on perustavanlaatuisesti rajoitettua ’Memory Wallin’ vuoksi — laitteistorajite, jossa muistiväylän nopeus, ei laskentateho, on pullonkaula.” Tutkimus näyttää, miten 1,58-bittiset LLM:t voidaan ottaa käyttöön reunalaitteilla valikoivilla matalan rangan korjauksilla. Se toimii.

[Recover-LoRA] (kesäkuu 2026) vastaa historialliseen huoleen: kun mallia kutistetaan näin aggressiivisesti, se menettää tarkkuutta. Tutkimus osoittaa, että 2-bittinen kvantisointi yhdistettynä pieneen LoRA-hienosäätöön (fine-tune) puristuksen jälkeen palauttaa täyden tarkkuuden. Prosessi on: ota mikä tahansa 7B-malli → kvantisoi 2 bittiin → hienosäädä pienellä LoRA-adapterilla → toimita. Tarkkuusongelma on ratkaistu.

[Sparse-BitNet] (maaliskuu 2026) osoittaa, että 1,58-bittiset mallit ja harvuus (sparsity) toimivat yhdessä — voit nollata 2 joka neljästä painoarvosta, ja 1,58-bittinen muoto puristaa mallia entisestään ilman uudelleenkoulutusta. 7B Sparse-BitNet -malli mahtuu noin 600 megatavuun.

[BitNet Distillation] (lokakuu 2025) tarjoaa tuotantoputken: ”kevyt” työkalu, joka muuntaa täyspitkät mallit, kuten Qwenin, 1,58-bittiseen muotoon. Apple käyttää jo sisäisesti Qwenia ja Apple Foundation Modelia. He voisivat ajaa tämän muunnoksen jo tänään.

Akateemisen maailman ulkopuolella [Litespark] (toukokuu 2026) osoittaa ternääristen neuroverkkojen toimivan kuluttajatason suorittimilla custom SIMD-ytimillä. [PD-Swap] (joulukuu 2025) näyttää 1,58-bittisten Transformerien toimivan reunalaitteiden FPGA-piireillä — piireillä, joissa on paljon vähemmän laskentatehoa kuin iPhone Neural Enginessä. Jos 20 dollarin FPGA pystyy siihen, iPhone 12kin pystyy.

Laitteistovalli lukujen valossa #

Laite	Siru	RAM	Neural Engine TOPS	Vuosi	Apple Intelligence?
iPhone 11	A13	4 GB	6 TOPS	2019	Ei (iOS 18 poisti tuen)
iPhone 12	A14	4 GB	11 TOPS	2020	Ei
iPhone 13	A15	4 GB	15.8 TOPS	2021	Ei
iPhone 14	A16	6 GB	17 TOPS	2022	Ei
iPhone 15	A16	6 GB	17 TOPS	2023	Ei
iPhone 15 Pro	A17 Pro	8 GB	35 TOPS	2023	Kyllä
iPhone 16	A18	8 GB	35 TOPS	2024	Kyllä
iPhone 16 Pro	A18 Pro	8 GB	35 TOPS	2024	Kyllä
iPhone 17 (huhuttu)	A19	8–12 GB	~45 TOPS	2025	Kyllä

Raja on vedetty A17 Proon. Laskentatehon (TOPS) 2-kertainen hyppy A16:sta (17) A17 Proon (35) on todellinen, mutta ei kategorinen. Molemmat voivat ajaa 1,2 gigatavun mallia. 8 GB vs 6 GB RAM -määrä vaikuttaa KV-välimuistiin (cache) pitkän kontekstin aikana, mutta BitNet Sparse -versio (600 MB) jättää yli 5 GB vapautta 6 GB iPhone 14 -mallissa.

Miksi Apple tekee tätä silti #

Kolme syytä, yrityksen painoarvon mukaan:

Tulot. Noin 250 miljoonaa iPhonea on aktiivisessa käytössä ja niissä on A16-siru tai vanhempi — perustuen Applen julkaisemiin tietoihin ja analyytikkojen arvioihin vuoden 2025–2026 syklille. Jos edes 10 % näistä käyttäjistä päivittää saadakseen Apple Intelligence -ominaisuuden — ominaisuuden, josta he ovat kuulleet jo kaksi vuotta — se tarkoittaa 25 miljoonaa laitetta, joiden keskimääräinen myyntihinta on 900 $ (~828 € / 3 555 zł), eli 22 miljardia dollaria laitteistotuloja. iOS 27:n laitteistovaatimukset ovat 22 miljardin dollarin tulovirran ohjausmekanismi, joka on piilotettu ohjelmistopäivityksen sisään.

Ekosysteemiin lukittautuminen. Apple Intelligence integroituu Kuvat-, Sähköposti-, Viestit-, Muistiot- ja Siri-palveluihin. Kun sinulla on se iPhone 15 Pro -mallissa, ostat Macin Apple Siliconilla, kuulokkeet Applella ja Apple TV:n, jotta kokemus jatkuu saumattomasti. Laitteistovalli on myös lukittautumisen kiihdyttin: käyttäjät, jotka jättävät sen väliin, jäävät pois Applen tekoälyekosysteemin kehityksestä seuraavien 4–5 vuoden ajaksi.

Kontrolli tekoälyn narratiivista. Apple ei halua käyttäjien ajavan avoimen lähdekoodin 1,58-bittisiä Qwen- tai LLaMA-malleja paikallisesti — se kilpailee Apple Intelligencein kanssa, jota Apple myy (tulevaisuudessa) maksullisena tilauksena. Laitteistovalli pitää ”iPhone tekoälyllä” -kokemuksen Applen brändinä ja Applen hallitsemana. Tämä on osa samaa Apple AI Safety -suojapuutarhalogiikkaa — mitä tiukempi portti, sitä vähemmän vaihtoehtoisia tekoälypintoja Applella on puolustettavana.

Mitä ”Memory Wall” oikeasti tarkoittaa #

HGF-paperin kehystys on tässä avainasemassa. ”Memory Wall” (muistivalli) on kuilu laskentatehon ja muistin tiedonsiirtonopeuden välillä. 16-bittisellä LLM-mallilla tämä kuilu on valtava: malli on liian suuri, jotta siru saisi riittävästi tietoa nopeasti. 1,58-bittisellä mallilla kuilu romahtaa: 1,2 gigatavua mahtuu LPDDR5-väylään, Neural Engine voi syöttää itseään jatkuvasti, ja pullonkaulaksi muodostuu tokenien generointiviive, ei muisti.

A14:n Neural Engine voi ajaa 1,58-bittistä mallia. iPhone 11:n A13-siru voi ajaa sitä hitaammin, mutta se pystyy siihen. Muistiväylän nopeus, ei laskentatehon TOPS, on se, mitä BitNet-perhe vapauttaa. Ja iPhone 12 ja uudemmat mallit omaavat riittävän muistiväylän.

Insinööriratkaisu, jonka Apple voisi toimittaa tänään #

Vaihe	Mitä	Miksi
1	Ota Apple Foundation Model (3B parametria)	Jo koulutettu, jo optimoitu Applelle
2	BitDistill 1,58-bittiseen tarkkuuteen	~600 MB mallin koko, mahtuu 4 GB RAM-muistiin KV-välimuistin kanssa
3	Lisää Sparse-BitNet-leikkausta	Putoaa 300 MB:iin, mahtuu jopa 3 GB iPhone 11 -malliin
4	Add Recover-LoRA hienosäätöön	Palauttaa minkä tahansa laadun heikkenemisen kvantisoinnin myötä
5	Ship iOS 26.5 -päivityksenä iPhone 12+ -malleille	Palautetaan vanhempien mallien tukeen sen sijaan kuin suljetaan uudet mallit pois

Tämä on neljän kuukauden insinööriprojekti. Applella on tutkijat (Apple Foundation Model -tiimi on julkaissut työtä laitteistolla tapahtuvasta päättelystä), laitteisto (jokainen iPhone 12 ja uudempi) ja ohjelmistopino (Core ML tukee jo 1- ja 2-bittisiä kvantisointimalleja mlpackage-muodossa). Syy, ettei se tapahdu, ei ole tekninen. Se on kaupallinen — ja Applen syvenevä yhteistyö Anthropicin kanssa Project Glasswingin ja Mythos-kyberturvallisuuden osalta osoittaa, mihin tekoälylaskenta, joka ei ole laitteella, on tarkoitus ohjata.

Mitä tämä tarkoittaa iOS 27 -syklille #

iOS 27:n laitteistovaatimukset esitetään laitteistovaatimuksena. Avaimenjako (Keynote) avaa, että Apple Intelligence ”tarvitsee Neural Enginea A17 Pro -sirussa” tai vastaavaa. Avaimenjako on teknisesti puolustettava vain kaikkein raskaimpien Apple Intelligence -ominaisuuksien kohdalla — kuten laitteistolla tapahtuva kuvien generointi, monimutkaiset agenttimaiset työnkulut ja kieliin perustuva käännös eri kielten välillä.

Suurin osa Apple Intelligenceista — osat, jotka tiivistävät sähköpostit, luovat vastausvaihtoehtoja Viesteihin, luovat Genmoji-hahmoja, priorisoivat ilmoituksia ja uudistetut Siri — ei vaadi laitteistovalliä. 1,58-bittinen / 2-bit / Sparse-BitNet -tutkimus osoittaa sen. Applen valinta sulkea nämä ominaisuudet pois on liiketoimintapäätös, ei insinööriratkaisu.

Rehellinen kehystäminen #

Applella on insinööritaito. iPhone 12, kuuden vuoden ikäinen laite, voi ajaa Apple Intelligenceia vuonna 2026, jos Apple päättää toimittaa kvantisoidun mallin. Valinta olla toimittamatta se on järkevä liiketoiminnallisesta näkökulmasta, perusteltu markkinoinnillisesti, mutta epärehellinen insinööritiedon välityksessä. Kutsuen tulovirran ohjausmekanismin laitteistovaatimukseksi ilman, että tunnustetaan 1,5-bittisen kvantisoinnin tutkimustulokset, jotka ovat tehneet siitä tarpeettomaksi, Apple tekee tietoisen puutteen.

Apple ei estä käyttäjiä laitteistonsa vuoksi. He estävät käyttäjät Applen P&L-laskennan (tulos ja tappio) tulosten perusteella. He estävät käyttäjät Applen tulovirran tarpeesta.

Lähteet #

BitNet b1.58 — The Era of 1-bit LLMs (Ma et al., 2024) — Microsoft Researchin perustamiskirja.
Hybrid Gated Flow — Stabilizing 1.58-bit LLMs via Selective Low-Rank Correction (Feb 2026) — Tunnistaa muistivallin todelliseksi edge-AI-rajoitteeksi.
Recover-LoRA — Reclaiming Accuracy in 2-Bit Language Models (June 2026) — Insinööritason ratkaisu 2-bittisen tarkkuuden menetykseen.
Sparse-BitNet — 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity (Mar 2026) — Yhdistetty pakkaus leikkaamalla (pruning).
BitNet Distillation — Lightweight Pipeline for 1.58-bit Fine-Tuning (Oct 2025) — Tuotantovalmis kvantisointiputki.
Litespark — Custom SIMD Kernels for Ternary Networks on Consumer CPUs (May 2026) — Todiste 1,5-bittisestä päättelystä kuluttajatason laitteilla.
PD-Swap — 1.58-bit Transformers on Edge FPGAs (Dec 2025) — Jopa halvemmalla laitteistolla voidaan ajaa 1,58-bittisiä malleja.

Lue myös #

iOS 27 Compatibility: iPhone 15 Pro and the Apple Intelligence Gate — Mitkä Apple Intelligence -ominaisuudet todella vaativat A17 Pro, ja mitkä on suljettu keinotekoisesti.
Apple + Anthropic Project Glasswing: Mythos Cybersecurity — Miksi Apple nojaa Anthropicin tekoälylaskentaan, joka ei tapahdu laitteella.
Apple AI Safety as a Walled Garden — Miten suljettu tekoäly-kanta iPhone-laitteilla kytkeytyy samaan logiikkaan, joka pitää vanhemmat laitteet Apple Intelligencein ulkopuolella.
iOS 27 Security Paradox: Agentic Malware Meets the Hardware Gate — Agenttimainen haittaohjelmista, joka tekee laitteistovaatimuksista monimutkaisemman kuin pelkkä kvantisoidun mallin julkaisu.