tomfun/en.md

Created June 14, 2026 00:54

Star (0) You must be signed in to star a gist
Fork (0) You must be signed in to fork a gist

Select an option

Learn more about clone URLs
Clone this repository at <script src="https://gist.github.com/tomfun/3fd2e3ddae7cd6c9afd7a961d031853f.js"></script>
Save tomfun/3fd2e3ddae7cd6c9afd7a961d031853f to your computer and use it in GitHub Desktop.

Инженер против Бога Идеальный архиватор Вселенной — не просто NP-задача. Хуже: абсолютный минимум описания в общем случае невычислим. Но между обычным ZIP и недостижимым архиватором Бога остаётся огромная территория. На неё уже выходят LLM, синтез программ и агенты, способные писать декодеры специально для конкретного файла, запускать их, провер…

Raw

en.md

Engineer Against God

The Ideal Archiver of the Universe: a Program That Writes Programs, and a World That Models Itself

This is not just an NP problem. It is worse: the absolute minimum description is generally uncomputable.
But between an ordinary ZIP file and God's unreachable archiver lies a huge territory that LLMs, program synthesis, and computational agents are already beginning to enter.

Before We Begin: Where the Science Ends and the Fresco Begins

This article uses three clear labels.

FACT — a mathematical theorem, an accepted physical theory, a published result, or a documented technological capability.
INTERPRETATION — a meaningful engineering connection between facts. It may be useful, but it is not a separate proven theorem.
SPECULATION — a philosophical or artistic model that does not yet have an accepted experimental test.

Without these labels, it is easy to make an unjustified jump:

“The brain compresses experience” → “consciousness creates matter” → “the Universe is a thought in the mind of God.”

The first sentence may be a useful scientific analogy. The last two are already metaphysics. They may be beautiful, but beauty is not a measuring instrument.

Part I. Shannon: The Cost of the Unknown

Question 1. What Did Claude Shannon Do?

FACT.

Before Shannon, communication was studied as many separate engineering problems: telegraphy, telephones, noise, and signal coding. In his 1948 paper A Mathematical Theory of Communication, Shannon exposed the common structure behind them.

He proposed separating:

the source, which chooses a message;
the encoder;
the channel, which may contain noise;
the decoder;
the receiver.

The meaning of the message is not necessary for the channel. A cable does not need to understand a declaration of love, a bank payment, or source code. It only needs to distinguish one possible signal sequence from another.

The entropy of a discrete source is defined as:

$$H(X)=-\sum_x p(x)\log_2 p(x)$$

Where:

X is a random variable: the next message or symbol;
x is one possible result;
p(x) is the probability of that result;
log_2 is the logarithm with base 2;
H(X) is the average amount of information in bits.

If the source chooses one of N equally likely options, the formula becomes:

$$H(X)=\log_2 N$$

Two equally likely options require one bit. Eight options require three bits.

Shannon did not prove that “every file contains an objective amount of information.” His claim was more precise:

For a given probabilistic source, no uniquely decodable code can consistently use fewer bits on average than the entropy of that source.

The key words are: given source, probabilities, and on average.

Source: Claude Shannon, A Mathematical Theory of Communication (1948).

Question 2. Why Is Entropy Not the Absolute Weight of a Particular File?

FACT.

A single string does not tell us what process created it.

Consider this sequence:

314159265358979323846264338327950288419716939937510...

It could be:

a random sequence of digits;
the beginning of the number π;
part of an encrypted message;
the result of damaged memory;
a fragment of a table copied by hand.

The file is the same. The sources are different. Therefore, the probabilities used to calculate entropy are also different.

If a model treats the digits as independent and equally likely, each decimal digit requires:

$$\log_2 10 \approx 3.322$$

But if the decoder already knows, “these are the first N digits of π,” the message can be replaced by a program that computes π and the number N.

Shannon entropy has not been broken. We changed the source model.

This is the first important blow to the naive picture:

Data does not carry a label saying how much information it truly contains. The amount depends on the set of possible messages, their probabilities, and what the decoder already knows.

Question 3. Why, Then, Is Entropy Not Just a Subjective Opinion?

FACT.

Because once the model is fixed, the result becomes strict.

Suppose the real source follows distribution p, while the archiver assumes distribution q. Then the ideal code length for a particular result x is approximately:

$$\ell_q(x)\approx-\log_2 q(x)$$

Where:

q(x) is the probability assigned by the archiver;
l_q(x) is the number of bits the archiver spends to encode result x.

The average coding cost is:

$$\mathbb{E}_{x\sim p}\left[-\log_2 q(x)\right]=H(p)+D_{\mathrm{KL}}(p\|q)$$

Where:

p is the real distribution of the data;
q is the archiver's model;
H(p) is the entropy of the real source;
D_KL(p || q) is the extra cost caused by model error;
E means the average over messages actually produced by the source.

The Kullback–Leibler divergence D_KL is never negative. A bad model always pays a penalty.

This is the real role of arithmetic coding or ANS:

They do not discover the meaning of the text or invent a short description. They convert already calculated probabilities into a bit sequence with almost no extra loss.

More precisely:

an LLM or another model predicts probabilities;
an entropy coder records the observed symbols at a cost close to -log2(q);
the improvement comes from the model, not from any magic inside the arithmetic coder.

Part II. Shannon Almost Saw GPT

Question 4. What Did Shannon Understand About the English Language?

FACT.

In his 1951 paper Prediction and Entropy of Printed English, Shannon studied how well the next letter of English text can be predicted from earlier letters.

After q, the next letter is almost always u.
After the, a space or a noun is more likely than a random sequence of symbols.
After several sentences, the reader already knows the topic, style, and likely continuations.

The conditional entropy of the next symbol is:

$$H(X_n\mid X_1,\ldots,X_{n-1})$$

Where:

X_n is the next symbol;
X_1 ... X_(n-1) is the known context;
the vertical bar means “given that the context is known.”

The more useful context we have, the less uncertainty remains.

Shannon used successive statistical approximations and experiments in which people guessed how a text would continue. He obtained low estimates for the entropy of English—around one bit per letter for some conditions and types of text. This was an estimate, not a universal constant of the English language.

Source: Claude Shannon, Prediction and Entropy of Printed English (1951).

Question 5. In What Sense Does GPT Solve Shannon's Problem?

FACT + INTERPRETATION.

An autoregressive language model receives a sequence of tokens and estimates the probabilities of the next token:

$$P(x_{n+1}\mid x_1,x_2,\ldots,x_n)$$

Where:

x_1 ... x_n are the tokens already read;
x_(n+1) is the next token;
P is the probability distribution over possible continuations.

After a token is chosen, the process repeats.

A modern model considers much more than neighboring letters. Its parameters statistically capture grammar, program structures, text genres, connections between concepts, common facts, and patterns for solving problems.

Shannon did not foresee the Transformer, training on enormous datasets, or agent tools. But he formulated the problem that such models now solve at scale:

Predict the continuation as well as the structure of the previous context allows.

Sources:

Part III. Kolmogorov: A File as a Program

Question 6. What Does Shannon Not Measure?

FACT.

Shannon does not answer this question:

What is the length of the shortest possible explanation of this particular object?

The Kolmogorov complexity of a string x, relative to a universal machine U, is:

$$K_U(x)=\min_{p:\,U(p)=x}|p|$$

Where:

U is a chosen universal computing machine or language;
p is a program;
U(p)=x means that the program prints string x and stops;
|p| is the length of the program in bits;
K_U(x) is the length of the shortest such program.

A billion zeroes can be produced by a short loop.
The first billion digits of π can be produced by a relatively short algorithm plus the number N.
A random billion-bit string almost certainly has no much shorter program.

The choice of universal machine changes the complexity only by a constant amount:

$$|K_U(x)-K_V(x)|\leq c_{U,V}$$

The constant c_(U,V) depends on the two languages U and V, but not on the string x.

Source: A. N. Kolmogorov, Three Approaches to the Quantitative Definition of Information (1965).

Question 7. Why Does This Smell Like Metaphysics?

INTERPRETATION.

Because the shortest program looks like the “true idea” of the object.

An image may contain a billion pixels, but its short explanation could be:

Draw a black circle with radius 100 on a white background.

A novel may contain millions of characters, but part of its structure can be explained by its language, genre, historical period, and the author's style.

The physical history of a region of space may be enormous, but perhaps short laws and a compact initial state can compress it.

This creates a temptation to treat the following as the same thing:

a short program;
a causal explanation;
the essence of an object;
“God's thought” about the object.

Mathematics guarantees only that a shortest description exists relative to a universal machine. It does not guarantee that the description will be understandable, unique, causal, beautiful, or physically fundamental.

Question 8. Why Can We Not Build a Perfect Kolmogorov Archiver?

FACT.

We can find a short program and prove an upper bound:

$$K_U(x)\leq |p|$$

But in general, we cannot prove that the program is the shortest one.

To test every shorter program, we would need to know which programs will stop, which will never stop, and which will stop only after an unimaginable number of steps. There is no universal solution to the halting problem.

So exact Kolmogorov complexity is not merely very expensive. In general, it is uncomputable.

This is not just NP-hardness. An NP-hard problem is still computable: with unlimited time, we can search through the possibilities. For Kolmogorov complexity, no algorithm can guarantee the exact answer for every input.

The absolute ideal of compression is mathematically defined, but no general archiver can guarantee that it has reached that ideal—or even know when it has reached it.

Question 9. Can Any Archiver Compress Every Possible File?

FACT.

No.

There are exactly 2^n possible input strings of length n. The number of bit strings shorter than n is:

$$1+2+4+\ldots+2^{n-1}=2^n-1$$

For lossless compression, different inputs must have different compressed representations. There are not enough shorter outputs for every possible input.

Every archiver compresses some files, leaves some almost unchanged, and must make some files larger.

Part IV. A Program That Writes Programs to Archive a Program

Question 10. What If We Give an LLM a Special Compression Function?

INTERPRETATION, technically possible in a limited form.

Here is the real mind-bending idea.

A normal archiver has a fixed set of methods. An LLM-based meta-archiver could create its own restoration program for each individual file.

It would not only choose a compression level. It would ask:

What short executable object can produce exactly these bytes?

Let the original file be called x. The system searches for a program p and a small remainder r such that:

x = P(R(p), r)

Where:

R(p) is the result of running the generated program p;
r is an exact correction if the program did not fully restore the file;
P(y, r) is a deterministic function that applies correction r to result y;
x is the original file, restored byte for byte.

The full cost of the archive is:

$$L=|p|+|r|+|m|+|v|$$

Where:

|p| is the size of the generator program;
|r| is the size of the remainder or binary patch;
|m| is the metadata: runtime version, parameters, and lengths;
|v| is the cost of the validator or a reference to a shared standard;
L is the final archive size.

The system accepts a candidate only after a strict check:

SHA256(decompress(archive)) == SHA256(original)

The LLM is needed during compression, when it searches for ideas. It may not be needed at all during decompression if the search produced a small, ordinary, deterministic decoder.

This point is essential:

A huge model may spend trillions of operations searching for a tiny program. The archive needs to contain the program it found, not the whole search process.

The cost of search time and the length of the description are different quantities.

Question 11. What Would Such a Meta-Archiver Look Like?

INTERPRETATION.

A simplified design:

Input: file x

1. Run normal archivers and get a baseline size.
2. Detect the likely file type and structure.
3. Ask the LLM to suggest families of generators:
   - a formula;
   - a program;
   - a template plus parameters;
   - a database plus a schema;
   - procedural graphics;
   - a dictionary;
   - a source-code model;
   - a generator of repeated blocks.
4. For each hypothesis:
   a. generate a program p;
   b. run p in a sandbox;
   c. compare result y with original x;
   d. create a remainder patch r = Diff(y, x);
   e. calculate |p| + |r| + metadata.
5. Modify the best programs:
   - simplify them;
   - replace tables with formulas;
   - extract repeated parts;
   - find symmetries;
   - synthesize shorter functions;
   - test other languages and virtual machines.
6. Save the shortest fully verified result.

Conceptual TypeScript pseudocode:

function metaCompress(input: Uint8Array): Archive {
  const baseline = compressWithStandardCodecs(input);
  let best = baseline;

  const hypotheses = proposeGeneratorFamilies(input);

  for (const hypothesis of hypotheses) {
    const programs = synthesizePrograms(input, hypothesis);

    for (const program of programs) {
      const generated = runInSandbox(program);
      const residual = createBinaryPatch(generated, input);
      const archive = packageArchive(program, residual);

      if (
        archive.byteLength < best.byteLength &&
        bytesEqual(decompress(archive), input)
      ) {
        best = archive;
      }
    }
  }

  return best;
}

This is not a finished industrial algorithm. But its parts already exist:

LLMs generate code;
program synthesis searches for expressions from examples;
superoptimizers make programs smaller;
SAT/SMT solvers check constraints;
e-graphs search for equivalent expressions;
sandboxes run candidate programs;
diff algorithms encode the remainder;
a cryptographic hash confirms exact restoration.

Question 12. What Does “A Program Writes a Program for a Program” Mean?

INTERPRETATION.

We can build several levels:

LLM controller
    ↓ writes
decoder generator G
    ↓ writes
decoder D_x for one specific file
    ↓ produces
approximation y
    ↓ patch r corrects it into
original file x

Formally, the composition can be written as:

x = P(U(G(s)), r)

Where:

s is a short task description or a set of parameters;
G is a program that creates a specialized decoder;
U is a universal execution environment;
U(G(s)) is the result of running the created decoder;
r is the remaining correction;
P is the patching function.

Recursion does not create information from nothing. Every special instruction, parameter, and remainder must still be paid for in bits.

But several levels can still be useful because:

one general generator G can be used for many files;
a small s can select a specific decoder;
repeated structure can be expressed at a higher level;
a decoder can create a specialized decoder for the next layer.

Compilers already do something similar: source code produces machine code, and machine code produces behavior. Parser generators write parsers. Metaprogramming writes programs.

The new part is using an LLM as a heuristic explorer of this space of constructions.

Question 13. Where Is the Real Boundary with Kolmogorov?

FACT + INTERPRETATION.

An LLM meta-archiver can keep improving an upper estimate of Kolmogorov complexity:

$$K(x)\leq L_{\text{best found}}(x)$$

It may find a program shorter than ZIP, Zstandard, Brotli, or a neural codec.

But in general, it cannot say:

“This is definitely the shortest possible program. No shorter program exists.”

Even if the system searches through programs, writes programs that search through programs, and improves itself, the halting problem remains.

It can move closer to Kolmogorov's ideal, but it cannot receive a certificate that it has reached the absolute minimum.

It is like going down a mine with no known bottom:

every level found is real;
the next level may be deeper;
there is no sign saying “bottom.”

Question 14. Could Such an Archiver Really Beat Modern Codecs?

INTERPRETATION.

For some kinds of data, yes.

The best candidates are objects with a short generating description that a normal codec does not recognize:

a table of values from a known function;
a file almost completely generated by short source code;
a procedural texture;
a geometric scene;
a repeated log with a hidden pattern;
a database dump restored from a schema and a few parameters;
a machine-generated document;
a set of configurations that differ by only a few rules;
an image of a diagram that is easier to draw again than to store pixel by pixel.

Example:

Normal PNG: 400 KiB
Short SVG program: 3 KiB
Remaining patch for an exact match: 20 KiB
Total: 23 KiB

But for cryptographically random, already compressed, or encrypted data, there will be almost no improvement.

The meta-archiver may also be extremely slow. Compressing one file may require hours, years, or an unacceptable amount of energy.

A new trade-off appears:

$$\text{fewer bits}\quad\Longleftrightarrow\quad\text{more search and computation}$$

Kolmogorov complexity measures the length of the program, but not the time needed to find or run it. A practical archiver must consider both resources.

Question 15. Does Such a Meta-Archiver Break Shannon's Theorem?

FACT.

No.

It can beat a particular fixed archiver on a particular set of files because it uses a richer class of models.

But:

the size of the generated program is included in the archive;
if the LLM itself is needed for decompression, its weights must either be shared by both sides or included in the cost;
the meta-archiver will lose on some files;
the average limit for the given true source remains;
the impossibility of compressing every string remains.

For one individual file, the result may be far below a naive entropy estimate. This does not break the theory. It means the system found a model that the earlier estimate did not include.

Question 16. Should the Size of GPT Itself Be Counted?

FACT + INTERPRETATION.

It depends on the protocol.

Scenario A: The LLM Is Used Only During Compression

The model searches for a small independent program. The receiver gets only the program and the patch. In this case, the LLM weights are not part of the archive: they are a computational tool used by the compressor, like a powerful server or a human mathematician.

Scenario B: The LLM Is Also Required for Decompression

Then the receiver must have the same model, version, tokenizer, parameters, and exact execution environment.

If the model is already shared by millions of archives, its cost can be spread over them. If it must be installed for one file, an honest description length must include the model.

Scenario C: The Archive Refers to a Shared Library of Civilization

For example:

model://gpt-5.5-2026-04-23
runtime://python-3.14
library://numpy-X.Y

Then the archive is short only relative to shared infrastructure. This is not cheating, but the condition must be stated clearly.

The Russian phrase Война и мир is a very short reference for a person who knows Russian and has the book in a library. For an alien with no language and no library, it is almost useless.

Part V. GPT-5.5 as a Limited Hunter for Short Programs

Question 17. What Is Known About GPT-5.5, and What Is Not?

FACT.

According to OpenAI's official documentation, GPT-5.5 is designed for complex professional work and programming. The API model supports adjustable reasoning effort, function calling, structured outputs, and tools including web search, file search, a code interpreter, hosted shell, patch application, and computer use.

The officially listed capabilities include:

a context window of up to 1,050,000 tokens;
text and image inputs;
up to 128,000 output tokens;
reasoning-effort modes;
tool use and multi-step work.

Sources:

At the same time, OpenAI does not publish the model's full architecture, exact parameter count, complete training-data composition, or every detail of training.

So an honest description has two layers:

the known general principles of GPT-like models and the officially published capabilities;
the unknown internal details of this particular closed model.

Question 18. How Does GPT-5.5 Try to Move Toward Kolmogorov When It Writes Code?

INTERPRETATION.

When the model replaces one hundred almost identical functions with one parameterized function, a table of numbers with a formula, a manual set of rules with a finite-state machine, or repeated JSON with a schema and generator, it is searching for a compact generating description.

With tools, the cycle begins to look like experimental science:

hypothesis
  → program
  → execution
  → test
  → counterexample
  → corrected program

GPT-5.5 can read a large code context, suggest an architecture, write an implementation, run tests through a tool, see the error, change the program, and compare alternatives.

But this is not the calculation of K(x).

The model uses a learned distribution of likely programs. It searches where human culture has already left paths. An unknown short program may lie outside its familiar distribution.

GPT-5.5 is not a Kolmogorov archiver. It is a powerful heuristic that gives useful upper estimates of complexity in areas where its training and tools provide a good prior.

Question 19. Can an LLM Improve Its Own Archiver?

INTERPRETATION.

In a limited engineering sense, yes.

It can:

analyze failed cases;
write new transformations;
choose new representation languages;
create test sets;
profile decoders;
replace slow parts;
select specialized models;
store successful generators in a shared library;
use that library as a dictionary for future files.

This creates an evolving system:

C[t + 1] = I(C[t], F[t], N[t])

Where:

C[t] is the compressor at step t;
F[t] is the set of files or tests where the current version failed;
N[t] is the set of new models, rules, and transformations;
I is the procedure that changes and tests the compressor;
C[t + 1] is the next version of the compressor.

But improvement is not guaranteed forever. The system may overfit to the tests, make the shared decoder too large, find false patterns, or spend more energy than it saves.

Part VI. Can the Universe Create a Nested Universe-Archiver?

Question 20. Can a Physical System Inside the Universe Model the Universe Itself?

FACT + INTERPRETATION.

It already models parts of the world.

Computers predict:

weather;
planetary motion;
wave propagation;
aerodynamics;
molecular dynamics;
the behavior of electronic circuits;
the behavior of materials.

A small physical system—a computer—contains a model of another region of the physical world.

For a local region R and a time horizon T, the task looks like this:

$$\widehat{S}_R(T)=M(S_R(0),B,T)$$

Where:

S_R(0) is the known initial state of region R;
B represents boundary conditions and outside influences;
M is the model;
S_hat_R(T) is the predicted state after time T.

The model does not need to store every atom. It can use pressure, temperature, average velocity, geometry, effective fields, and other large-scale variables.

This kind of compression of physical reality is normal scientific practice.

Question 21. How Can a Nested Model Run Faster Than the Original Region of the World?

FACT + INTERPRETATION.

Because the model can skip details that do not matter for the chosen question.

To predict a planet's orbit, we do not need to model every quark.
To calculate an eclipse, we do not need to wait for the eclipse itself.
To estimate how a bridge will vibrate, we do not need to reproduce the history of every electron.

Speed-up is possible through:

rough averaging;
symmetries;
analytical solutions;
reduced models;
effective theories;
adaptive time steps;
parallel computing;
surrogate neural models;
skipping periods in which nothing important happens.

Instead of the full microstate, the model uses statistics that are sufficient for the chosen task.

The cost of prediction can be written conceptually as:

Q = L(M) + L(S_R(0) | M) + C_run(M, T) + E

Where:

Q is the total cost of building and running the prediction;
L(M) is the description length of model M;
L(S_R(0) | M) is the description length of the initial state of region R, assuming model M is already known;
C_run(M, T) is the computational cost of running the model until time T;
T is the prediction horizon;
E is the cost of the allowed error or loss of accuracy.

A model can run faster than reality if we only need a limited set of observable values and finite accuracy.

There is an interesting asymmetry between compression time and decompression time. An LLM-based meta-archiver may spend megawatts of energy during compression, but produce a tiny script that decompresses in milliseconds.

Question 22. Can We Place a Whole Universe Inside Another One and Run It Faster?

SPECULATION with physical limits.

We need to separate three different cases.

1. A Simplified Virtual Universe

It has fewer degrees of freedom, simpler laws, or a limited region. Such a system can physically be simulated faster than some processes in our world.

2. An Approximate Copy of an Observable Region

It keeps only large-scale features. Such a model may predict a local world for some time, until errors in the initial data, chaos, and outside influences destroy its accuracy.

3. An Exact Copy of the Whole Universe, Including the Computer That Models It

Serious problems begin here:

the internal computer has fewer physical resources than the complete system that contains it;
it must somehow encode its own state;
the full model contains a model that contains a model;
an exact unknown quantum state cannot be copied freely because of the no-cloning theorem;
the complete state cannot be physically measured;
publishing the prediction may change the behavior of the system that receives it;
some computations may have no general shortcut.

There is no simple theorem saying, “No Universe can ever simulate itself faster in any sense.” But an exact, complete, and internally accessible self-simulation faces limits from resources, quantum theory, and self-reference.

Question 23. What If the Universe Is Nonlocal?

FACT + careful interpretation.

Quantum theory allows nonlocal correlations: the results of measurements on entangled systems cannot be explained by a simple local model with hidden values fixed in advance.

But quantum entanglement does not allow controlled information to travel faster than light.

So “nonlocality” does not mean:

instant access to the full state of the Universe;
the ability to download the future for free;
the absence of causal limits;
a universal channel for faster-than-light compression.

Nonlocal correlations make the fundamental picture of the world less classical. They do not give an internal observer the administrator password.

Question 24. Can the Universe Create Nested Worlds as Local Archivers?

SPECULATION, but logically consistent.

Imagine that a civilization creates simulated worlds. Each such world:

contains simplified laws;
runs on the physical substrate of its parent world;
may contain its own observers;
may model the parent world using received data;
may create the next level of simulations.

A chain appears:

$$W_0 \supset M_1(W_0) \supset M_2(M_1) \supset M_3(M_2)\supset\ldots$$

Where:

W_0 is the original physical world;
M_1(W_0) is a model of part of the original world;
each next level models the previous one.

Each level loses something:

accuracy;
available scale;
energy;
speed;
information about boundary conditions.

But a level may gain in subjective or model time if its laws and resolution are simpler.

In this sense, a nested universe can act as an archiver of local history:

It does not store every fact about the original world. It stores a program, initial data, and rules that allow the required region to be reproduced approximately.

It is more like a game engine plus a save file than a ZIP archive.

Question 25. Can a Child Universe Predict Its Parent Universe?

INTERPRETATION + SPECULATION.

Locally and for a limited time, this may be possible in principle if it receives:

observations accurate enough;
a suitable model;
outside boundary conditions;
enough computing resources;
an allowed error range.

It may outperform observers in the parent world if its internal computation is organized more efficiently or if it uses discovered shortcuts.

But it does not automatically receive:

the full initial state of the parent world;
data from causally inaccessible regions;
exact future quantum outcomes;
an unlimited prediction horizon;
a guarantee that its model is fundamental.

The most realistic version of the idea is:

A physical system creates a nested computing system that builds a compressed model of a local region and predicts several observable properties faster than they develop in the original.

This already happens in digital twins, scientific simulations, and control systems.

The strongest version—“a child world completely computes its parent world before the parent world reaches that future”—remains a philosophical fantasy.

Part VII. What Modern Physics Says

Question 26. Does General Relativity Promise a Fully Predictable Universe?

FACT, with qualifications.

General relativity describes gravity as the changing geometry of spacetime.

Einstein's equation:

$$G_{\mu\nu}+\Lambda g_{\mu\nu}=\frac{8\pi G}{c^4}T_{\mu\nu}$$

The symbols mean:

g_(μν) is the metric, which defines the geometry of spacetime;
G_(μν) is the Einstein tensor, which describes curvature;
T_(μν) is the stress-energy tensor of matter;
G is the gravitational constant;
c is the speed of light;
Λ is the cosmological constant;
the indices μ, ν refer to spacetime coordinates.

In a rough form, the meaning is:

The distribution of energy and momentum is connected to the curvature of spacetime.

The classical equations have an initial-value problem: with suitable initial data, evolution can be calculated. But global determinism depends on the structure of spacetime. Singularities, Cauchy horizons, and the absence of global hyperbolicity make the picture more complicated.

So even classical general relativity does not give us a simple slogan: “Give me one complete snapshot of the Universe, and I will give you its whole future.”

Question 27. What Does Quantum Field Theory Add?

FACT.

Quantum field theory describes fundamental particles as excitations of quantum fields. The Standard Model describes electromagnetic, weak, and strong interactions with extraordinary accuracy, but it does not include gravity in a complete unified quantum framework.

Source: CERN, The Standard Model.

The quantum state between measurements is usually described by unitary evolution. But the connection between the mathematical formalism and one observed measurement result is still interpreted in different ways.

Different approaches say, for example:

the state collapses;
extra hidden variables exist;
unitarity remains and branching histories appear;
the quantum state is a tool for prediction rather than a literal object.

The experimental probabilities agree with observations extremely well. Their ontological meaning does not have one accepted answer.

Source: Stanford Encyclopedia of Philosophy, Philosophical Issues in Quantum Theory.

Question 28. Do We Have the Final Source Code of Physics Today?

FACT.

No confirmed single theory fully unites:

quantum field theory;
general relativity;
the origin of dark matter;
the nature of dark energy;
the initial conditions of the Universe;
a quantum description of spacetime.

There are candidate theories and research programs: string theory, loop quantum gravity, asymptotic safety, causal sets, holographic approaches, and others.

This does not mean that “physicists know nothing.” General relativity and the Standard Model are extremely successful in their own domains. But their final common architecture has not been established.

The final nail has not been driven in.

Part VIII. Consciousness as an Archiver

Question 29. In What Scientific Sense Is Consciousness Like an Archiver?

INTERPRETATION, compatible with neuroscience but not a complete theory of consciousness.

An organism does not store a complete copy of its sensory stream.

The retina receives a huge stream of changes in light. Experience organizes it into:

objects;
faces;
movement;
threats;
intentions;
causal stories;
stable space.

The brain discards a large amount of detail and keeps structures useful for action.

A conceptual scheme:

$$\text{signals}\longrightarrow\text{latent model}\longrightarrow\text{prediction and action}$$

Where:

signals are sensory data;
latent model is a hidden compact model of causes;
prediction and action are prediction and behavior.

In this sense, conscious experience can be compared to a lossy archive:

We experience not the microphysical state of the world, but a compact interface built by the nervous system.

But this does not mean that consciousness is a separate fundamental substance.

Question 30. What Is Consciousness as an Ontological Archiver?

SPECULATION.

Let us make a strong and unproven step.

Suppose consciousness does not merely receive a shortened copy of reality, but is a mechanism that turns many physical possibilities into the experienced world.

Then consciousness can be imagined as a mapping:

$$A:\Omega\longrightarrow E$$

Where:

Ω is the space of possible physical states;
E is the space of experienced states;
A is the “ontological archiver” that discards almost all microscopic differences.

Billions of different microstates may be experienced as the same “red table.”

Consciousness would then not read the full world. It would create equivalence classes:

$$\omega_1\sim\omega_2\quad\text{if}\quad A(\omega_1)=A(\omega_2)$$

This is a mathematically understandable metaphor, but it is not yet a physical theory. To become science, it would need to answer:

What exactly does A measure?
Where and how is it implemented?
What experiment distinguishes it from ordinary neural processing?
What numerical predictions are unique to this model?
Why is fundamental consciousness needed instead of a physical computational process?

Until these questions are answered, the “ontological archiver” remains a philosophical image.

Question 31. Could Consciousness Be the Mainframe of the Universe?

SPECULATION.

Imagine a radical model:

original consciousness is the execution environment;
the laws of physics are a virtual machine;
our Universe is a running process;
individual minds are local processes able to model the environment;
the computers they create run new worlds;
new observers may appear in those worlds.

This creates a recursive architecture:

original consciousness
  └─ physical Universe
      └─ biological consciousness
          └─ computer model of the world
              └─ model of an observer
                  └─ new model of the world

In this picture, the Universe archives itself not in one file, but in a hierarchy of observers and models.

Each observer receives a small fragment of the output and tries to reconstruct the program that produced it.

Physics becomes reverse engineering.
Science becomes decompilation.
Consciousness becomes a process in which code starts building a model of its own interpreter.

This is a powerful philosophical fresco. But it has no confirmed physical mechanism and no unique experiment.

Part IX. The Fresco and the Gap Between the Fingers

Question 32. What Does The Creation of Adam Have to Do with This?

ARTISTIC METAPHOR.

In Michelangelo's fresco, God reaches toward the reclining Adam. Their fingers almost touch, but a small gap remains.

That gap can be read as the distance between:

Imagined Knowledge of God

the complete state;
the shortest description;
every causal connection;
no computational uncertainty;
knowledge of the program and its result at the same time.

Knowledge of the Engineer

local measurements;
limited memory;
finite time;
approximate models;
archivers that may always turn out not to be the best;
the inability to prove that a program is absolutely shortest.

Shannon stands on the engineer's side:

Give me a source model, and I will calculate the achievable average cost.

Kolmogorov reaches farther:

Every object has a shortest program.

Turing keeps the gap open:

There is no general algorithm that will always find it and confirm that the search is over.

The LLM extends one more mechanical finger:

I will not search every program, but I will try to write many plausible ones and test the best.

Part X. Who Won?

Question 33. Why Do We Hear More About Shannon Than About Kolmogorov?

INTERPRETATION, based on the practical difference between the theories.

Because Shannon gave industry computable limits.

We can:

measure channel speed;
estimate noise;
build a code;
calculate average length;
compare codecs;
transmit data;
check errors.

Kolmogorov gave us a more absolute idea, but its exact value cannot be obtained by a general computation.

Engineering standards choose not the most ontologically deep quantity, but the one that allows decisions to be made.

So:

Shannon built the foundation of digital communication;
Kolmogorov set a limit on the idea of absolute compression;
MDL connected learning with the length of a model and its data;
Solomonoff described an ideal predictor;
modern LLMs became practical heuristics for searching for programs and explanations.

Kolmogorov did not disprove Shannon. He asked a question that Shannon deliberately did not answer.

Question 34. What Does the Final Ladder of Archivers Look Like?

FACT + INTERPRETATION.

Level 1. Fixed Codec

It uses transformations chosen in advance.

ZIP, Zstandard, Brotli, PNG, FLAC

Level 2. Trainable Probabilistic Model

It predicts the data and encodes the remaining surprise.

neural codec, language model + arithmetic coding

Level 3. MDL Archiver

It chooses a model and pays for both the model and the remainder.

$$L(\text{model})+L(\text{data}\mid\text{model})$$

Level 4. LLM Meta-Archiver

It writes specialized generators and verifies exact restoration.

search for an idea → code → run → patch → verify → minimize

Level 5. Universal Program Search

It searches through all programs in some priority order and looks for a short one.

In theory, this moves closer to Kolmogorov, but it quickly hits limits from time and the halting problem.

Level 6. God's Archiver

It knows the shortest program immediately and knows that it is the shortest.

Such an object is not a computable universal algorithm in the ordinary mathematical sense.

Conclusion. The Universe as an Archive That Writes an Archiver

There are two temptations.

The first is to treat Shannon entropy as the absolute amount of information inside a thing. That is wrong. It belongs to a source and a probability model.

The second is to think that Kolmogorov gave us a ready path to absolute truth. That is also wrong. He defined an ideal, but no general algorithm can reach that ideal.

Real engineering lies between them.

LLMs can already write programs.
A program can generate data.
An agent can run it, compare the result with the original, and write another program.
A meta-archiver can spend huge computational resources to produce a small independent decoder.
It can discover laws where an ordinary codec saw noise.

This does not cancel Shannon. It expands the source model.

The physical Universe also creates archivers inside itself:

genomes;
nervous systems;
languages;
books;
mathematical theories;
computers;
simulations;
LLMs.

Each of them stores not the world itself, but a compressed reconstruction of it.

Perhaps short laws really allow a local model to run ahead of a physical process. Perhaps nested computational worlds will be able to predict limited regions of their parent world faster than those regions live through their own time. This already happens in part.

But an exact model of the whole Universe, located inside that Universe, knowing its own future and guaranteeing the shortest description, faces quantum limits, insufficient resources, self-reference, and uncomputability.

The idea of original consciousness as a mainframe that runs physics and recursive models of itself remains a magnificent metaphysical fresco.

It has not been proven.
It cannot be dismissed with one sentence.
It has not yet become a physical theory.

The final nail has not been driven in.

Perhaps the Universe has short source code.
Perhaps the code is short, but the initial state cannot be compressed.
Perhaps the description is short, but it cannot be executed quickly.
Perhaps the idea of “code” itself is an interface created by the human mind.
Or perhaps the mind is the procedure through which the world searches for a shorter program of itself.

Shannon gave us the price of the unknown.
Kolmogorov pointed to the hidden program.
Turing blocked the universal path to it.
The engineer starts the search anyway.

And between the engineer's finger and God's finger, a few bits still remain.

Short Glossary

Term	Meaning
Shannon entropy	The average uncertainty of a given probabilistic source
Conditional entropy	The uncertainty that remains after known context is included
Cross-entropy	The average cost of encoding data with a particular probabilistic model
KL divergence	The penalty for a mismatch between the model and the real distribution
Kolmogorov complexity	The length of the shortest program that produces a particular object
MDL	The principle of minimizing the combined length of the model and the data under that model
Universal coding	Coding without exact advance knowledge of the source
Program synthesis	Automatic search for a program that satisfies examples and constraints
Meta-archiver	An archiver that creates specialized archivers or decoders
Computational irreducibility	A situation in which a result cannot be obtained much faster than by running the process directly
Ontological archiver	The speculative idea of consciousness as a mechanism that forms experienced reality

Main Sources

Raw

ru.md

Инженер против Бога

Идеальный архиватор Вселенной: программа, которая пишет программы, и мир, который моделирует себя

Это не просто NP-задача. Хуже: абсолютный минимум описания в общем случае невычислим.
Но между обычным ZIP и недостижимым архиватором Бога остаётся огромная территория, на которую уже выходят LLM, синтез программ и вычислительные агенты.

Перед началом: где здесь наука, а где фреска

В тексте используются три явные метки.

ФАКТ — математическая теорема, общепринятая физическая теория, опубликованный результат или документированная возможность технологии.
ИНТЕРПРЕТАЦИЯ — содержательная инженерная связь между фактами. Она может быть полезной, но не является отдельной доказанной теоремой.
СПЕКУЛЯЦИЯ — философская или художественная модель, у которой пока нет общепринятой экспериментальной проверки.

Иначе легко сделать запрещённый прыжок:

«Мозг сжимает опыт» → «сознание создаёт материю» → «Вселенная является мыслью Бога».

Первая фраза может быть рабочей научной аналогией. Последние две — уже метафизика. Они могут быть красивыми, но красота не является измерительным прибором.

Часть I. Шеннон: сколько стоит неизвестность

Вопрос 1. Что сделал Клод Шеннон?

ФАКТ.

До Шеннона связь изучали как множество отдельных инженерных проблем: телеграф, телефон, шум, кодирование сигналов. В работе A Mathematical Theory of Communication 1948 года Шеннон вытащил из них общий скелет.

Он предложил отделить:

источник, который выбирает сообщение;
кодировщик;
канал, возможно содержащий шум;
декодировщик;
получателя.

Смысл сообщения для канала необязателен. Кабелю не нужно понимать признание в любви, банковский платёж или исходный код. Ему нужно различать возможные последовательности сигналов.

Энтропия дискретного источника определяется так:

$$H(X)=-\sum_x p(x)\log_2 p(x)$$

Где:

X — случайная величина: следующее сообщение или символ;
x — один возможный результат;
p(x) — вероятность этого результата;
log_2 — логарифм по основанию 2;
H(X) — среднее количество информации в битах.

Если источник выбирает один из N равновероятных вариантов, формула упрощается:

$$H(X)=\log_2 N$$

При двух равновероятных вариантах требуется один бит. При восьми — три бита.

Шеннон доказал не то, что «в каждом файле находится объективное количество информации». Его утверждение тоньше:

Для заданного вероятностного источника невозможно построить однозначно декодируемый код, который в среднем систематически использует меньше битов, чем энтропия источника.

Ключевые слова: заданный источник, вероятности, в среднем.

Источник: Claude Shannon, A Mathematical Theory of Communication (1948).

Вопрос 2. Почему энтропия — не абсолютный вес конкретного файла?

ФАКТ.

Одна строка не сообщает нам, каким процессом она была создана.

Возьмём последовательность:

314159265358979323846264338327950288419716939937510...

Она может быть:

случайным набором цифр;
началом числа π;
частью зашифрованного сообщения;
результатом повреждения памяти;
фрагментом таблицы, которую автор скопировал вручную.

Файл тот же. Источники разные. Следовательно, различаются и вероятности, относительно которых считается энтропия.

Если модель считает цифры независимыми и равновероятными, на одну десятичную цифру приходится:

$$\log_2 10 \approx 3.322$$

Но если декодеру уже известно: «это первые N цифр числа π», сообщение можно заменить программой вычисления π и числом N.

Шенноновская энтропия не была нарушена. Мы заменили модель источника.

Это первый важный удар по наивной картине:

В данных нет этикетки с написанным на ней истинным количеством информации. Количество зависит от множества возможных сообщений, их вероятностей и знаний декодера.

Вопрос 3. Почему тогда энтропия не является просто субъективным мнением?

ФАКТ.

Потому что после фиксации модели результат становится строгим.

Пусть настоящий источник использует распределение p, а архиватор предполагает распределение q. Тогда идеальная длина кода для конкретного результата x приблизительно равна:

$$\ell_q(x)\approx-\log_2 q(x)$$

Где:

q(x) — вероятность, назначенная архиватором;
l_q(x) — число бит, которое архиватор тратит на кодирование результата x.

Средняя цена кодирования равна:

$$\mathbb{E}_{x\sim p}\left[-\log_2 q(x)\right]=H(p)+D_{\mathrm{KL}}(p\|q)$$

Где:

p — реальное распределение данных;
q — модель архиватора;
H(p) — энтропия реального источника;
D_KL(p || q) — дополнительная цена ошибки модели;
E — среднее по сообщениям, которые действительно выдаёт источник.

Дивергенция Кульбака — Лейблера D_KL неотрицательна. Поэтому плохая модель всегда платит штраф.

Именно здесь находится настоящая роль арифметического кодирования или ANS:

Они не открывают смысл текста и не изобретают короткое описание. Они почти без потерь превращают уже вычисленные вероятности в последовательность битов.

Точнее:

LLM или другая модель предсказывает вероятности;
энтропийный кодировщик записывает наблюдавшиеся символы примерно с ценой -log2(q);
улучшение возникает благодаря модели, а не благодаря магии арифметического кодировщика.

Часть II. Шеннон почти увидел GPT

Вопрос 4. Что Шеннон понял об английском языке?

ФАКТ.

В работе Prediction and Entropy of Printed English 1951 года Шеннон исследовал, насколько следующая буква английского текста предсказуема по предыдущим.

После q почти наверняка появится u.
После the вероятнее пробел или существительное, чем случайный набор символов.
После нескольких предложений читатель уже знает тему, стиль и возможные продолжения.

Условная энтропия следующего символа:

$$H(X_n\mid X_1,\ldots,X_{n-1})$$

Где:

X_n — следующий символ;
X_1 ... X_(n-1) — уже известный контекст;
вертикальная черта означает «при условии, что контекст известен».

Чем больше полезного контекста, тем меньше остаётся неопределённости.

Шеннон использовал последовательные статистические приближения и эксперименты, в которых люди угадывали продолжение текста. Он получил низкие оценки энтропии английского языка — порядка одного бита на букву для некоторых условий и типов текста. Это была оценка, а не универсальная константа английского.

Источник: Claude Shannon, Prediction and Entropy of Printed English (1951).

Вопрос 5. В каком смысле GPT решает задачу Шеннона?

ФАКТ + ИНТЕРПРЕТАЦИЯ.

Автогрессивная языковая модель получает последовательность токенов и оценивает вероятности следующего:

$$P(x_{n+1}\mid x_1,x_2,\ldots,x_n)$$

Где:

x_1 ... x_n — уже прочитанные токены;
x_(n+1) — следующий токен;
P — распределение вероятностей продолжения.

После выбора токена процедура повторяется.

Современная модель учитывает не только соседние буквы. В её параметрах статистически отражаются грамматика, структуры программ, жанры текста, связи понятий, распространённые факты и шаблоны решения задач.

Шеннон не предвидел Transformer, обучение на гигантских корпусах или инструменты агента. Но он сформулировал задачу, которую такие модели масштабируют:

Предскажи продолжение настолько хорошо, насколько позволяет структура прошлого контекста.

Источники:

Часть III. Колмогоров: файл как программа

Вопрос 6. Что Шеннон не измеряет?

ФАКТ.

Шеннон не отвечает на вопрос:

Какова длина самого короткого возможного объяснения именно этого объекта?

Колмогоровская сложность строки x относительно универсальной машины U:

$$K_U(x)=\min_{p:\,U(p)=x}|p|$$

Где:

U — выбранная универсальная вычислительная машина или язык;
p — программа;
U(p)=x — программа печатает строку x и завершается;
|p| — длина программы в битах;
K_U(x) — длина кратчайшей такой программы.

Миллиард нулей можно породить коротким циклом.
Первые миллиард цифр π — сравнительно коротким алгоритмом плюс числом N.
Случайная миллиард-битная строка почти наверняка не имеет намного более короткой программы.

Выбор универсальной машины влияет на сложность только на постоянную добавку:

$$|K_U(x)-K_V(x)|\leq c_{U,V}$$

Константа c_(U,V) зависит от двух языков U и V, но не зависит от самой строки x.

Источник: A. N. Kolmogorov, Three Approaches to the Quantitative Definition of Information (1965).

Вопрос 7. Почему это пахнет метафизикой?

ИНТЕРПРЕТАЦИЯ.

Потому что кратчайшая программа выглядит как «истинная идея объекта».

Картина может состоять из миллиарда пикселей, но её коротким объяснением окажется:

Нарисуй чёрный круг радиуса 100 на белом фоне.

Роман может состоять из миллионов символов, но часть его структуры объясняется языком, жанром, эпохой и стилем автора.

Физическая история области пространства может быть огромной, но, возможно, её сжимают короткие законы и компактное начальное состояние.

Возникает соблазн отождествить короткую программу, причинное объяснение, сущность объекта и «мысль Бога» об объекте.

Математика гарантирует только существование кратчайшего описания относительно универсальной машины. Она не гарантирует, что описание будет понятным, единственным, причинным, красивым или физически фундаментальным.

Вопрос 8. Почему идеальный колмогоровский архиватор невозможно построить?

ФАКТ.

Можно найти короткую программу и доказать верхнюю границу:

$$K_U(x)\leq |p|$$

Но в общем случае нельзя доказать, что программа кратчайшая.

Чтобы проверить все более короткие программы, нужно выяснить, какие из них завершатся, никогда не завершатся или завершатся через немыслимое число шагов. Универсального решения проблемы остановки не существует.

Поэтому точная колмогоровская сложность не просто очень дорога. Она в общем случае невычислима.

Это не NP-трудность. NP-трудная задача остаётся вычислимой: при неограниченном времени можно перебрать варианты. Для колмогоровской сложности нет алгоритма, который гарантированно даст точный ответ для каждого входа.

Абсолютный идеал архивирования математически определён, но никакой общий архиватор не способен гарантированно его достигать или даже узнавать момент достижения.

Вопрос 9. Может ли хотя бы один архиватор сжимать вообще все файлы?

ФАКТ.

Нет.

Для строк длиной n существует ровно 2^n возможных входов. Строк короче n бит меньше:

$$1+2+4+\ldots+2^{n-1}=2^n-1$$

Если архивирование без потерь, разные входы должны иметь разные сжатые представления. Коротких выходов не хватит на все входы.

Любой архиватор некоторые файлы сжимает, некоторые оставляет почти неизменными, а некоторые обязан увеличивать.

Часть IV. Программа, которая пишет программы для архивации программы

Вопрос 10. А что, если оснастить LLM специальной функцией архивирования?

ИНТЕРПРЕТАЦИЯ, технически реализуемая в ограниченной форме.

Вот настоящий взрыв мозга.

Обычный архиватор имеет фиксированный набор приёмов. LLM-метаархиватор мог бы для каждого отдельного файла синтезировать собственную программу восстановления.

Не просто выбирать уровень сжатия, а спрашивать:

Какой короткий исполняемый объект способен породить именно эти байты?

Пусть исходный файл называется x. Система ищет программу p и небольшой остаток r, такие что:

x = P(R(p), r)

Где:

R(p) — результат выполнения синтезированной программы p;
r — точная поправка, если программа восстановила файл не полностью;
P(y, r) — детерминированная функция, применяющая поправку r к результату y;
x — исходный файл, восстановленный байт в байт.

Полная цена архива:

$$L=|p|+|r|+|m|+|v|$$

Где:

|p| — размер программы-генератора;
|r| — размер остатка или двоичного патча;
|m| — метаданные: версия среды, параметры, длины;
|v| — стоимость валидатора или ссылки на общий стандарт;
L — итоговая длина архива.

Система принимает вариант только после строгой проверки:

SHA256(decompress(archive)) == SHA256(original)

LLM нужна во время сжатия, чтобы искать идеи. При распаковке она может вообще не требоваться, если результатом поиска стал обычный небольшой детерминированный декодер.

Это принципиально важно:

Огромная модель может потратить триллионы операций на поиск крошечной программы. В архив нужно положить найденную программу, а не весь процесс поиска.

Цена времени поиска и цена длины описания — разные величины.

Вопрос 11. Как выглядел бы такой метаархиватор?

ИНТЕРПРЕТАЦИЯ.

Упрощённая схема:

Вход: файл x

1. Запустить обычные архиваторы и получить базовый размер.
2. Определить предполагаемый тип и структуру файла.
3. Попросить LLM предложить семейства генераторов:
   - формула;
   - программа;
   - шаблон плюс параметры;
   - база данных плюс схема;
   - процедурная графика;
   - словарь;
   - модель исходного кода;
   - генератор повторяющихся блоков.
4. Для каждой гипотезы:
   a. сгенерировать программу p;
   b. запустить p в песочнице;
   c. сравнить результат y с исходником x;
   d. построить остаточный патч r = Diff(y, x);
   e. посчитать |p| + |r| + метаданные.
5. Модифицировать лучшие программы:
   - упростить;
   - заменить таблицы формулами;
   - вынести повторения;
   - найти симметрии;
   - синтезировать более короткие функции;
   - проверить другие языки и виртуальные машины.
6. Сохранить самый короткий полностью проверенный вариант.

Концептуальный TypeScript-псевдокод:

function metaCompress(input: Uint8Array): Archive {
  const baseline = compressWithStandardCodecs(input);
  let best = baseline;

  const hypotheses = proposeGeneratorFamilies(input);

  for (const hypothesis of hypotheses) {
    const programs = synthesizePrograms(input, hypothesis);

    for (const program of programs) {
      const generated = runInSandbox(program);
      const residual = createBinaryPatch(generated, input);
      const archive = packageArchive(program, residual);

      if (
        archive.byteLength < best.byteLength &&
        bytesEqual(decompress(archive), input)
      ) {
        best = archive;
      }
    }
  }

  return best;
}

Это не готовый промышленный алгоритм. Но его компоненты существуют:

LLM генерируют код;
синтез программ ищет выражения по примерам;
супероптимизаторы уменьшают программы;
SAT/SMT-решатели проверяют ограничения;
e-graphs ищут эквивалентные выражения;
песочницы исполняют кандидатов;
diff-алгоритмы кодируют остаток;
криптографический хеш подтверждает точное восстановление.

Вопрос 12. Что значит «программа пишет программу для программы»?

ИНТЕРПРЕТАЦИЯ.

Можно построить несколько уровней:

LLM-контроллер
    ↓ пишет
генератор декодеров G
    ↓ пишет
декодер конкретного файла D_x
    ↓ порождает
приближение y
    ↓ патч r исправляет
исходный файл x

Формально композицию можно записать так:

x = P(U(G(s)), r)

Где:

s — короткое описание задачи или набор параметров;
G — программа, создающая специализированный декодер;
U — универсальная среда выполнения;
U(G(s)) — результат запуска созданного декодера;
r — остаточная поправка;
P — функция применения поправки.

Рекурсия сама по себе не создаёт информацию из ничего. Все специальные инструкции, параметры и остатки должны быть оплачены битами.

Но многоступенчатость может быть полезна, потому что:

общий генератор G используется для многих файлов;
маленькое s выбирает конкретный декодер;
повторяющаяся структура выражается на более высоком уровне;
декодер может создавать специализированный декодер для следующего слоя.

Компиляторы уже делают нечто похожее: исходный код порождает машинный код, который порождает поведение. Генераторы парсеров пишут парсеры. Метапрограммирование пишет программы.

Новая часть — использование LLM как эвристического исследователя пространства таких конструкций.

Вопрос 13. Где здесь настоящая граница с Колмогоровым?

ФАКТ + ИНТЕРПРЕТАЦИЯ.

LLM-метаархиватор может всё время улучшать верхнюю оценку колмогоровской сложности:

$$K(x)\leq L_{\text{best found}}(x)$$

Он может найти программу короче ZIP, Zstandard, Brotli или нейросетевого кодека.

Но он не способен в общем случае сказать:

«Это окончательно кратчайшая программа. Более короткой не существует».

Даже если система перебирает программы, пишет программы для перебора программ и улучшает саму себя, проблема остановки остаётся.

Она может приближаться к Колмогорову, но не получить сертификат абсолютного достижения.

Это похоже на спуск в шахту без дна:

каждый найденный уровень реален;
каждый новый уровень может быть глубже;
таблички «дно» не существует.

Вопрос 14. Может ли такой архиватор реально победить современные кодеки?

ИНТЕРПРЕТАЦИЯ.

На некоторых данных — да.

Особенно перспективны объекты, имеющие короткое порождающее описание, которое обычный кодек не распознаёт:

таблица значений известной функции;
файл, почти полностью генерируемый коротким исходным кодом;
процедурная текстура;
геометрическая сцена;
повторяющийся лог со скрытым шаблоном;
дамп базы, восстанавливаемый из схемы и нескольких параметров;
машинно созданный документ;
набор конфигураций, отличающихся несколькими правилами;
изображение диаграммы, которое проще заново нарисовать, чем хранить по пикселям.

Пример:

Обычный PNG: 400 KiB
Короткая SVG-программа: 3 KiB
Остаточный патч до точного совпадения: 20 KiB
Итого: 23 KiB

Но на криптографически случайных, уже сжатых или зашифрованных данных улучшения почти не будет.

Кроме того, метаархиватор может быть чудовищно медленным. Сжатие одного файла может требовать часов, лет или неприемлемого количества энергии.

Появляется новый обмен:

$$\text{меньше битов}\quad\Longleftrightarrow\quad\text{больше поиска и вычислений}$$

Колмогоровская сложность учитывает длину программы, но не время её поиска и выполнения. Практический архиватор обязан учитывать оба ресурса.

Вопрос 15. Нарушает ли такой метаархиватор теорему Шеннона?

ФАКТ.

Нет.

Он может побить конкретный фиксированный архиватор на конкретном наборе файлов, потому что использует более богатый класс моделей.

Но:

стоимость синтезированной программы включается в архив;
если для декодирования нужна сама LLM, её веса должны быть общими для сторон или также учитываться;
на некоторых файлах метаархиватор проиграет;
средний предел для заданного истинного источника остаётся;
невозможность сжать все строки сохраняется.

На индивидуальном файле можно получить результат намного ниже наивной оценки энтропии. Это означает не нарушение теории, а обнаружение модели, которую прежняя оценка не учитывала.

Вопрос 16. Нужно ли считать размер самой GPT?

ФАКТ + ИНТЕРПРЕТАЦИЯ.

Зависит от протокола.

Сценарий A: LLM используется только при сжатии

Модель ищет маленькую автономную программу. Получателю передаётся только программа и патч. Тогда веса LLM не входят в архив: они являются вычислительным инструментом компрессора, как мощный сервер или человеческий математик.

Сценарий B: LLM требуется и при распаковке

Тогда получатель должен иметь ту же модель, версию, токенизатор, параметры и точную среду исполнения.

Если модель заранее общая для миллионов архивов, её стоимость амортизируется. Если её устанавливают ради одного файла, честная длина должна включать модель.

Сценарий C: архив ссылается на общую цивилизационную библиотеку

Например:

model://gpt-5.5-2026-04-23
runtime://python-3.14
library://numpy-X.Y

Тогда короткость архива существует только относительно общей инфраструктуры. Это не обман, но условие должно быть явно названо.

Фраза «Война и мир» очень коротка для человека, который знает русский язык и имеет книгу в библиотеке. Для инопланетянина без языка и библиотеки это почти бесполезный указатель.

Часть V. GPT-5.5 как ограниченный охотник за короткими программами

Вопрос 17. Что известно о GPT-5.5, а чего мы не знаем?

ФАКТ.

По официальной документации OpenAI, GPT-5.5 предназначен для сложной профессиональной работы и программирования. API-модель поддерживает настраиваемое reasoning effort, function calling, структурированные ответы и инструменты, включая веб-поиск, файловый поиск, интерпретатор кода, hosted shell, применение патчей и computer use.

Официально указаны:

контекст до 1 050 000 токенов;
текстовые и графические входы;
до 128 000 выходных токенов;
режимы reasoning effort;
работа с инструментами и многошаговыми задачами.

Источники:

При этом OpenAI не публикует полную архитектуру модели, точное число параметров, полный состав обучающих данных и все детали обучения.

Поэтому честное описание состоит из двух слоёв:

известные общие принципы GPT-подобных моделей и официально опубликованные возможности;
неизвестные внутренние детали конкретной закрытой модели.

Вопрос 18. Как GPT-5.5 пытается приблизиться к Колмогорову, когда пишет код?

ИНТЕРПРЕТАЦИЯ.

Когда модель заменяет сто почти одинаковых функций одной параметризованной, таблицу чисел формулой, ручной набор правил конечным автоматом или повторяющийся JSON схемой и генератором, она ищет компактное порождающее описание.

С инструментами цикл становится похож на экспериментальную науку:

гипотеза
  → программа
  → запуск
  → тест
  → контрпример
  → исправленная программа

GPT-5.5 может читать большой кодовый контекст, предлагать архитектуру, писать реализацию, запускать тесты через инструмент, видеть ошибку, модифицировать программу и сравнивать альтернативы.

Но это не вычисление K(x).

Модель использует обученное распределение вероятных программ. Она ищет там, где человеческая культура уже оставила тропы. Неизвестная короткая программа может находиться вне её привычного распределения.

GPT-5.5 — не архиватор Колмогорова. Это мощная эвристика, предлагающая хорошие верхние оценки сложности в областях, где её обучение и инструменты дают полезный приор.

Вопрос 19. Может ли LLM сама улучшать собственный архиватор?

ИНТЕРПРЕТАЦИЯ.

В ограниченном инженерном смысле — да.

Она может:

анализировать неудачные случаи;
писать новые преобразования;
выбирать новые языки представления;
создавать тестовые наборы;
профилировать декодеры;
заменять медленные части;
подбирать специализированные модели;
хранить удачные генераторы в общей библиотеке;
использовать библиотеку как словарь для будущих файлов.

Получается эволюционирующая система:

C[t + 1] = I(C[t], F[t], N[t])

Где:

C[t] — компрессор на шаге t;
F[t] — набор файлов или тестов, на которых текущая версия проиграла;
N[t] — новые модели, правила и найденные преобразования;
I — процедура модификации и проверки компрессора;
C[t + 1] — следующая версия компрессора.

Но улучшение не гарантируется бесконечно. Система может переобучиться на тесты, раздуть общий декодер, находить ложные закономерности или тратить больше энергии, чем экономит.

Часть VI. Может ли Вселенная породить вложенную Вселенную-архиватор?

Вопрос 20. Может ли физическая система внутри Вселенной моделировать саму Вселенную?

ФАКТ + ИНТЕРПРЕТАЦИЯ.

Она уже моделирует части мира.

Компьютеры предсказывают:

погоду;
движение планет;
распространение волн;
аэродинамику;
молекулярную динамику;
работу электронных схем;
поведение материалов.

Небольшая физическая система — компьютер — содержит модель другой области физического мира.

Для локальной области R и горизонта времени T задача выглядит так:

$$\widehat{S}_R(T)=M(S_R(0),B,T)$$

Где:

S_R(0) — известное начальное состояние области;
B — граничные условия и внешние воздействия;
M — модель;
S_hat_R(T) — предсказанное состояние через время T.

Модель не обязана хранить каждый атом. Она может использовать давление, температуру, среднюю скорость, геометрию, эффективные поля и другие крупномасштабные переменные.

Такое сжатие физической реальности — обычная научная практика.

Вопрос 21. Как вложенная модель может работать быстрее исходной области мира?

ФАКТ + ИНТЕРПРЕТАЦИЯ.

Потому что модель может пропустить детали, несущественные для выбранного вопроса.

Чтобы предсказать орбиту планеты, не нужно моделировать каждый кварк.
Чтобы вычислить затмение, не нужно ждать самого затмения.
Чтобы оценить колебание моста, не нужно воспроизводить историю каждого электрона.

Ускорение возможно благодаря:

грубому усреднению;
симметриям;
аналитическим решениям;
уменьшенным моделям;
эффективным теориям;
адаптивному шагу времени;
параллельным вычислениям;
суррогатным нейросетевым моделям;
пропуску периодов без значимых событий.

Вместо полного микросостояния используется достаточная для выбранной задачи статистика.

Цена предсказания может быть записана концептуально:

Q = L(M) + L(S_R(0) | M) + C_run(M, T) + E

Где:

Q — общая цена построения и выполнения прогноза;
L(M) — длина описания модели M;
L(S_R(0) | M) — длина описания начального состояния области R, если модель M уже известна;
C_run(M, T) — вычислительная стоимость запуска модели до момента T;
T — горизонт прогноза;
E — цена допустимой ошибки или потери точности.

Модель может быть быстрее реальности, если нас устраивает ограниченный набор наблюдаемых величин и конечная точность.

Интересна асимметрия: время сжатия против времени распаковки. Метаархиватор на базе LLM тратит мегаватты энергии на этапе компрессии, но выдает крошечный скрипт, который распаковывается за миллисекунды.

Вопрос 22. А можно ли вложить целую Вселенную и прогнать её быстрее?

СПЕКУЛЯЦИЯ с физическими ограничениями.

Нужно разделить три разных сценария.

1. Упрощённая виртуальная вселенная

Она имеет меньше степеней свободы, более простые законы или ограниченную область. Такую систему физически можно моделировать быстрее некоторых процессов нашего мира.

2. Приближённая копия наблюдаемой области

Она сохраняет только макроскопические особенности. Такая модель может предсказывать локальный мир некоторое время, пока ошибки начальных данных, хаос и внешние воздействия не разрушат точность.

3. Точная копия всей Вселенной, включая компьютер, который её моделирует

Здесь начинаются серьёзные проблемы:

внутренний компьютер имеет меньше доступных физических ресурсов, чем вся включающая его система;
он должен каким-то образом закодировать собственное состояние;
полная модель включает модель, которая включает модель;
точное неизвестное квантовое состояние нельзя произвольно скопировать из-за теоремы о запрете клонирования;
измерение полного состояния физически недоступно;
сам опубликованный прогноз может изменить действия системы, которая его получила;
некоторые вычисления могут не иметь общего ускоренного пути.

Нет простой теоремы «никакая Вселенная никогда не способна быстрее симулировать себя ни в каком смысле». Но точная, полная и доступная изнутри самосимуляция сталкивается с ресурсными, квантовыми и самореферентными ограничениями.

Вопрос 23. Что, если Вселенная нелокальна?

ФАКТ + осторожная интерпретация.

Квантовая теория допускает нелокальные корреляции: результаты измерений запутанных систем не объясняются простой локальной моделью со скрытыми заранее заданными значениями.

Но квантовая запутанность не позволяет передавать управляемую информацию быстрее света.

Поэтому «нелокальность» не означает:

мгновенный доступ компьютера ко всему состоянию Вселенной;
возможность бесплатно загрузить будущее;
отсутствие причинных ограничений;
универсальный канал для сверхсветового архивирования.

Нелокальные корреляции делают фундаментальную картину мира менее классической. Они не выдают внутреннему наблюдателю пароль администратора.

Вопрос 24. Может ли Вселенная порождать вложенные миры как локальные архиваторы?

СПЕКУЛЯЦИЯ, но логически связная.

Представим, что цивилизация создаёт симулируемые миры. Каждый такой мир:

содержит упрощённые законы;
запускается на физическом субстрате родительского мира;
может иметь собственных наблюдателей;
может моделировать родительский мир по полученным данным;
может создавать следующий уровень симуляций.

Возникает цепочка:

$$W_0 \supset M_1(W_0) \supset M_2(M_1) \supset M_3(M_2)\supset\ldots$$

Где:

W_0 — исходный физический мир;
M_1(W_0) — модель части исходного мира;
следующий уровень моделирует предыдущий.

Каждый уровень теряет что-то:

точность;
доступный объём;
энергию;
скорость;
информацию о граничных условиях.

Но уровень может выигрывать в субъективном или модельном времени, если его законы и разрешение проще.

В таком смысле вложенная вселенная может служить архиватором локальной истории:

Она не хранит каждый факт исходного мира, а хранит программу, начальные данные и правила, позволяющие приблизительно воспроизводить нужную область.

Это похоже не на ZIP-архив, а на игровой движок плюс save-файл.

Вопрос 25. Может ли дочерняя Вселенная предсказать родительскую?

ИНТЕРПРЕТАЦИЯ + СПЕКУЛЯЦИЯ.

Локально и на конечное время — возможно в принципе, если ей переданы:

достаточно точные наблюдения;
подходящая модель;
внешние граничные условия;
вычислительный ресурс;
допустимая погрешность.

Она может быть лучше родительских наблюдателей, если внутри неё время вычисления организовано эффективнее или если она использует найденные сокращения.

Но она не получает автоматически:

полное начальное состояние родительского мира;
данные из причинно недоступных областей;
точные будущие квантовые результаты;
бесконечный горизонт прогноза;
гарантию, что её модель фундаментальна.

Самая реалистичная версия идеи выглядит так:

Физическая система порождает вложенную вычислительную систему, которая строит сжатую модель локальной области и предсказывает несколько её наблюдаемых параметров быстрее, чем они развиваются в оригинале.

Это уже происходит в цифровых двойниках, научном моделировании и системах управления.

Самая сильная версия — «дочерний мир полностью вычисляет родительский мир раньше него самого» — остаётся философской фантазией.

Часть VII. Что говорит современная физика

Вопрос 26. Обещает ли общая теория относительности полностью предсказуемую Вселенную?

ФАКТ с оговорками.

Общая теория относительности описывает гравитацию как динамическую геометрию пространства-времени.

Уравнение Эйнштейна:

$$G_{\mu\nu}+\Lambda g_{\mu\nu}=\frac{8\pi G}{c^4}T_{\mu\nu}$$

Обозначения:

g_(μν) — метрика, определяющая геометрию пространства-времени;
G_(μν) — тензор Эйнштейна, выражающий кривизну;
T_(μν) — тензор энергии-импульса материи;
G — гравитационная постоянная;
c — скорость света;
Λ — космологическая постоянная;
индексы μ, ν обозначают координаты пространства-времени.

Смысл в грубом приближении:

Распределение энергии и импульса связано с кривизной пространства-времени.

Классические уравнения имеют задачу начальных значений: при подходящих начальных данных можно вычислять эволюцию. Но глобальный детерминизм зависит от структуры пространства-времени. Сингулярности, горизонты Коши и отсутствие глобальной гиперболичности усложняют картину.

Поэтому даже классическая ОТО не выдаёт простого лозунга «дай один снимок Вселенной — получишь всё будущее без остатка».

Вопрос 27. Что добавляет квантовая теория поля?

ФАКТ.

Квантовая теория поля описывает фундаментальные частицы как возбуждения квантовых полей. Стандартная модель чрезвычайно точно описывает электромагнитное, слабое и сильное взаимодействия, но не включает гравитацию в завершённую единую квантовую схему.

Источник: CERN, The Standard Model.

Квантовое состояние между измерениями обычно описывается унитарной эволюцией. Но связь формализма с единственным наблюдаемым результатом измерения остаётся предметом интерпретаций.

Разные подходы утверждают, например:

состояние коллапсирует;
существуют дополнительные скрытые переменные;
унитарность сохраняется и возникают ветвящиеся истории;
квантовое состояние является инструментом предсказания, а не буквальным объектом.

Экспериментальные вероятности согласованы чрезвычайно точно. Их онтологическое толкование не получило единственного общепринятого ответа.

Источник: Stanford Encyclopedia of Philosophy, Philosophical Issues in Quantum Theory.

Вопрос 28. Есть ли сегодня окончательный исходный код физики?

ФАКТ.

Нет подтверждённой единой теории, которая полностью объединяет:

квантовую теорию поля;
общую теорию относительности;
происхождение тёмной материи;
природу тёмной энергии;
начальные условия Вселенной;
квантовое описание пространства-времени.

Существуют кандидаты и исследовательские программы: теория струн, петлевая квантовая гравитация, асимптотическая безопасность, причинные множества, голографические подходы и другие.

Это не означает, что «физики ничего не знают». ОТО и Стандартная модель необычайно успешны в своих областях. Но их совместная окончательная архитектура не установлена.

Финальный гвоздь не забит.

Часть VIII. Сознание как архиватор

Вопрос 29. В каком научном смысле сознание похоже на архиватор?

ИНТЕРПРЕТАЦИЯ, совместимая с нейронаукой, но не законченная теория сознания.

Организм не хранит полную копию сенсорного потока.

Сетчатка получает огромный поток изменений света. Переживание организует его в:

объекты;
лица;
движение;
угрозы;
намерения;
причинные истории;
устойчивое пространство.

Мозг выбрасывает массу деталей и сохраняет структуру, полезную для действия.

Концептуальная схема:

$$\text{signals}\longrightarrow\text{latent model}\longrightarrow\text{prediction and action}$$

Где:

signals — сенсорные данные;
latent model — скрытая компактная модель причин;
prediction and action — прогноз и поведение.

В этом смысле сознательный опыт можно сравнить с архивом с потерями:

Мы переживаем не микрофизическое состояние мира, а компактный интерфейс, построенный нервной системой.

Но из этого не следует, что сознание является отдельной фундаментальной субстанцией.

Вопрос 30. Что такое сознание как онтологический архиватор?

СПЕКУЛЯЦИЯ.

Сделаем сильный и недоказанный шаг.

Пусть сознание не просто получает сокращённую копию реальности, а является механизмом, который превращает множество физических возможностей в переживаемый мир.

Тогда сознание можно вообразить как отображение:

$$A:\Omega\longrightarrow E$$

Где:

Ω — пространство возможных физических состояний;
E — пространство переживаемых состояний;
A — «онтологический архиватор», отбрасывающий почти все микроскопические различия.

Миллиарды разных микросостояний могут переживаться как один и тот же «красный стол».

Сознание тогда не читает полный мир. Оно формирует классы эквивалентности:

$$\omega_1\sim\omega_2\quad\text{если}\quad A(\omega_1)=A(\omega_2)$$

Это математически понятная метафора, но пока не физическая теория. Чтобы стать наукой, она должна ответить:

Что именно измеряет A?
Где и как оно реализовано?
Какой эксперимент отличает его от обычной нейронной обработки?
Какие численные предсказания уникальны для этой модели?
Почему требуется фундаментальное сознание, а не физический вычислительный процесс?

Пока таких ответов нет, «онтологический архиватор» остаётся философским образом.

Вопрос 31. Может ли сознание быть мейнфреймом Вселенной?

СПЕКУЛЯЦИЯ.

Представим радикальную модель:

изначальное сознание является средой исполнения;
физические законы являются виртуальной машиной;
наша Вселенная — запущенный процесс;
отдельные сознания — локальные процессы, способные моделировать среду;
созданные ими компьютеры запускают новые миры;
в этих мирах могут появиться новые наблюдатели.

Получается рекурсивная архитектура:

изначальное сознание
  └─ физическая Вселенная
      └─ биологическое сознание
          └─ компьютерная модель мира
              └─ модель наблюдателя
                  └─ новая модель мира

В этой картине Вселенная архивирует себя не в одном файле, а в иерархии наблюдателей и моделей.

Каждый наблюдатель получает небольшой фрагмент вывода и пытается восстановить программу, которая его породила.

Физика становится обратной инженерией.
Наука — декомпиляцией.
Сознание — процессом, в котором код начинает строить модель собственного интерпретатора.

Это сильная философская фреска. Но у неё нет подтверждённого физического механизма и уникального эксперимента.

Часть IX. Фреска с зазором между пальцами

Вопрос 32. При чём здесь «Сотворение Адама»?

ХУДОЖЕСТВЕННАЯ МЕТАФОРА.

На фреске Микеланджело Бог тянется к полулежащему Адаму. Пальцы почти соприкасаются, но между ними остаётся зазор.

Этот зазор можно прочитать как расстояние между:

Воображаемым знанием Бога

полное состояние;
кратчайшее описание;
все причинные связи;
отсутствие вычислительной неопределённости;
знание программы и результата одновременно.

Знанием инженера

локальные измерения;
ограниченная память;
конечное время;
приблизительные модели;
архиваторы, которые всегда могут оказаться не лучшими;
невозможность доказать абсолютную краткость программы.

Шеннон стоит на стороне инженера:

Дай мне модель источника, и я вычислю достижимую среднюю цену.

Колмогоров тянет руку дальше:

У каждого объекта есть кратчайшая программа.

Тьюринг сохраняет зазор:

Нет общего алгоритма, который всегда найдёт её и подтвердит, что поиск окончен.

LLM протягивает дополнительный механический палец:

Я не переберу все программы, но попробую написать множество правдоподобных и проверю лучшие.

Часть X. Кто победил?

Вопрос 33. Почему мы чаще слышим о Шенноне, чем о Колмогорове?

ИНТЕРПРЕТАЦИЯ, основанная на практическом различии теорий.

Потому что Шеннон дал промышленности вычислимые границы.

Можно:

измерить скорость канала;
оценить шум;
построить код;
посчитать среднюю длину;
сравнить кодеки;
передать данные;
проверить ошибку.

Колмогоров дал более абсолютное понятие, но его точное значение недоступно общему вычислению.

Инженерные стандарты выбирают не самую онтологически глубокую величину, а ту, которая позволяет принимать решения.

Поэтому:

Шеннон построил фундамент цифровой связи;
Колмогоров поставил предел идее абсолютного сжатия;
MDL связал обучение с длиной модели и данных;
Соломонов описал идеального предсказателя;
современные LLM превратились в практические эвристики поиска программ и объяснений.

Колмогоров не опроверг Шеннона. Он задал вопрос, на который Шеннон сознательно не отвечал.

Вопрос 34. Как выглядит окончательная лестница архиваторов?

ФАКТ + ИНТЕРПРЕТАЦИЯ.

Уровень 1. Фиксированный кодек

Использует заранее заданные преобразования.

ZIP, Zstandard, Brotli, PNG, FLAC

Уровень 2. Обучаемая вероятностная модель

Предсказывает данные и кодирует остаточную неожиданность.

нейросетевой кодек, языковая модель + арифметическое кодирование

Уровень 3. MDL-архиватор

Выбирает модель и платит за неё вместе с остатком.

$$L(\text{model})+L(\text{data}\mid\text{model})$$

Уровень 4. LLM-метаархиватор

Пишет специализированные генераторы и проверяет точное восстановление.

поиск идеи → код → запуск → патч → проверка → минимизация

Уровень 5. Универсальный поиск программ

Перебирает все программы по некоторому приоритету и ищет короткую.

Теоретически всё ближе к Колмогорову, но быстро упирается во время и проблему остановки.

Уровень 6. Архиватор Бога

Знает кратчайшую программу сразу и знает, что она кратчайшая.

Такой объект не является вычислимым универсальным алгоритмом в обычном математическом смысле.

Финал. Вселенная как архив, который пишет архиватор

Есть два соблазна.

Первый — считать энтропию Шеннона абсолютным количеством информации в вещи. Это неверно. Она относится к источнику и модели вероятностей.

Второй — решить, что Колмогоров дал готовый путь к абсолютной истине. Это тоже неверно. Он определил идеал, но общий алгоритм достижения идеала невозможен.

Между ними находится реальная инженерия.

LLM уже умеет писать программы.
Программа может генерировать данные.
Агент может запускать её, сравнивать результат с оригиналом и писать следующую программу.
Метаархиватор может тратить огромные вычисления, чтобы получить маленький автономный декодер.
Он способен обнаруживать законы там, где обычный кодек видел шум.

Это не отменяет Шеннона. Это расширяет модель источника.

Физическая Вселенная тоже порождает внутри себя архиваторы:

геномы;
нервные системы;
языки;
книги;
математические теории;
компьютеры;
симуляции;
LLM.

Каждый из них хранит не сам мир, а его сокращённую реконструкцию.

Возможно, короткие законы действительно позволяют локальной модели бежать впереди физического процесса. Возможно, вложенные вычислительные миры смогут предсказывать ограниченные области родительского мира быстрее, чем те проживают своё время. Это уже частично происходит.

Но точная модель всей Вселенной, находящаяся внутри неё, знающая своё собственное будущее и гарантирующая кратчайшее описание, сталкивается с квантовыми ограничениями, нехваткой ресурсов, самоссылкой и невычислимостью.

А идея изначального сознания как мейнфрейма, запускающего физику и рекурсивные модели самого себя, остаётся великолепной метафизической фреской.

Она не доказана.
Она не опровергнута одной фразой.
Она пока не стала физической теорией.

Финальный гвоздь не забит.

Может быть, Вселенная имеет короткий исходный код.
Может быть, код короток, но начальное состояние несжимаемо.
Может быть, описание коротко, но его невозможно быстро выполнить.
Может быть, само понятие «код» — интерфейс человеческого разума.
А может быть, разум и есть процедура, через которую мир ищет более короткую программу самого себя.

Шеннон дал цену неизвестности.
Колмогоров указал на скрытую программу.
Тьюринг запретил универсальный путь к ней.
Инженер всё равно запускает поиск.

И между его пальцем и пальцем Бога остаётся несколько бит.

Краткий словарь

Термин	Значение
Энтропия Шеннона	Средняя неопределённость заданного вероятностного источника
Условная энтропия	Неопределённость, оставшаяся после учёта известного контекста
Кросс-энтропия	Средняя цена кодирования данных одной вероятностной моделью
KL-дивергенция	Штраф за несовпадение модели с реальным распределением
Колмогоровская сложность	Длина кратчайшей программы, порождающей конкретный объект
MDL	Принцип минимизации суммы длины модели и данных при этой модели
Универсальное кодирование	Кодирование без точного предварительного знания источника
Синтез программ	Автоматический поиск программы, удовлетворяющей примерам и ограничениям
Метаархиватор	Архиватор, который создаёт специализированные архиваторы или декодеры
Вычислительная несводимость	Ситуация, когда результат нельзя получить значительно быстрее прямого выполнения процесса
Онтологический архиватор	Спекулятивная идея сознания как механизма формирования переживаемой реальности

Основные источники

Raw

uk.md

Інженер проти Бога

Ідеальний архіватор Всесвіту: програма, що пише програми, і світ, який моделює сам себе

Це не просто NP-задача. Гірше: абсолютний мінімум опису в загальному випадку необчислюваний.
Але між звичайним ZIP і недосяжним архіватором Бога лежить величезна територія, на яку вже виходять LLM, синтез програм і обчислювальні агенти.

Перед початком: де тут наука, а де фреска

У тексті використано три чіткі позначки.

ФАКТ — математична теорема, загальноприйнята фізична теорія, опублікований результат або задокументована можливість технології.
ІНТЕРПРЕТАЦІЯ — змістовний інженерний зв’язок між фактами. Він може бути корисним, але сам по собі не є окремою доведеною теоремою.
СПЕКУЛЯЦІЯ — філософська або художня модель, яка поки що не має загальновизнаної експериментальної перевірки.

Інакше легко зробити заборонений стрибок:

«Мозок стискає досвід» → «свідомість створює матерію» → «Всесвіт є думкою Бога».

Перша фраза може бути робочою науковою аналогією. Дві останні — це вже метафізика. Вони можуть бути прекрасними, але краса не є вимірювальним приладом.

Частина I. Шеннон: скільки коштує невідомість

Запитання 1. Що зробив Клод Шеннон?

ФАКТ.

До Шеннона зв’язок вивчали як набір окремих інженерних проблем: телеграф, телефон, шум, кодування сигналів. У праці A Mathematical Theory of Communication 1948 року Шеннон виокремив їхній спільний каркас.

Він запропонував розділити:

джерело, яке обирає повідомлення;
кодувальник;
канал, у якому може бути шум;
декодувальник;
одержувача.

Зміст повідомлення для каналу необов’язковий. Кабелю не потрібно розуміти освідчення в коханні, банківський платіж чи вихідний код. Йому потрібно лише розрізняти можливі послідовності сигналів.

Ентропія дискретного джерела визначається так:

$$H(X)=-\sum_x p(x)\log_2 p(x)$$

Де:

X — випадкова величина: наступне повідомлення або символ;
x — один можливий результат;
p(x) — імовірність цього результату;
log_2 — логарифм за основою 2;
H(X) — середня кількість інформації в бітах.

Якщо джерело обирає один із N рівноймовірних варіантів, формула спрощується:

$$H(X)=\log_2 N$$

Для двох рівноймовірних варіантів потрібен один біт. Для восьми — три біти.

Шеннон довів не те, що «в кожному файлі міститься об’єктивна кількість інформації». Його твердження тонше:

Для заданого ймовірнісного джерела неможливо побудувати однозначно декодований код, який у середньому систематично використовував би менше бітів, ніж ентропія цього джерела.

Ключові слова: задане джерело, ймовірності, у середньому.

Джерело: Claude Shannon, A Mathematical Theory of Communication (1948).

Запитання 2. Чому ентропія — не абсолютна вага конкретного файла?

ФАКТ.

Один рядок не повідомляє нам, яким процесом його було створено.

Візьмімо послідовність:

314159265358979323846264338327950288419716939937510...

Це може бути:

випадковий набір цифр;
початок числа π;
частина зашифрованого повідомлення;
результат пошкодження пам’яті;
фрагмент таблиці, який автор скопіював вручну.

Файл той самий. Джерела різні. Отже, різняться й імовірності, відносно яких обчислюється ентропія.

Якщо модель вважає цифри незалежними й рівноймовірними, на одну десяткову цифру припадає:

$$\log_2 10 \approx 3.322$$

Але якщо декодувальник уже знає: «це перші N цифр числа π», повідомлення можна замінити програмою обчислення π і числом N.

Ентропію Шеннона не було порушено. Ми просто змінили модель джерела.

Це перший важливий удар по наївній картині:

На даних немає етикетки з написом про їхню істинну кількість інформації. Вона залежить від множини можливих повідомлень, їхніх імовірностей і знань декодувальника.

Запитання 3. Чому тоді ентропія — не просто суб’єктивна думка?

ФАКТ.

Тому що після фіксації моделі результат стає строгим.

Нехай справжнє джерело використовує розподіл p, а архіватор припускає розподіл q. Тоді ідеальна довжина коду для конкретного результату x приблизно дорівнює:

$$\ell_q(x)\approx-\log_2 q(x)$$

Де:

q(x) — імовірність, яку архіватор призначив результату;
l_q(x) — кількість бітів, яку архіватор витрачає на кодування результату x.

Середня вартість кодування дорівнює:

$$\mathbb{E}_{x\sim p}\left[-\log_2 q(x)\right]=H(p)+D_{\mathrm{KL}}(p\|q)$$

Де:

p — реальний розподіл даних;
q — модель архіватора;
H(p) — ентропія справжнього джерела;
D_KL(p || q) — додаткова ціна помилки моделі;
E — середнє за повідомленнями, які справді видає джерело.

Дивергенція Кульбака — Лейблера D_KL не буває від’ємною. Тому погана модель завжди сплачує штраф.

Саме тут полягає справжня роль арифметичного кодування або ANS:

Вони не відкривають зміст тексту й не вигадують короткий опис. Вони майже без втрат перетворюють уже обчислені ймовірності на послідовність бітів.

Точніше:

LLM або інша модель прогнозує ймовірності;
ентропійний кодувальник записує спостережувані символи з ціною, близькою до -log2(q);
покращення виникає завдяки моделі, а не через магію арифметичного кодувальника.

Частина II. Шеннон майже побачив GPT

Запитання 4. Що Шеннон зрозумів про англійську мову?

ФАКТ.

У праці Prediction and Entropy of Printed English 1951 року Шеннон досліджував, наскільки добре наступну літеру англійського тексту можна передбачити за попередніми.

Після q майже напевно з’явиться u.
Після the пробіл або іменник імовірніші, ніж випадкова послідовність символів.
Після кількох речень читач уже знає тему, стиль і можливі продовження.

Умовна ентропія наступного символу:

$$H(X_n\mid X_1,\ldots,X_{n-1})$$

Де:

X_n — наступний символ;
X_1 ... X_(n-1) — уже відомий контекст;
вертикальна риска означає «за умови, що контекст відомий».

Що більше корисного контексту, то менше невизначеності залишається.

Шеннон використовував послідовні статистичні наближення й експерименти, у яких люди вгадували продовження тексту. Він отримав низькі оцінки ентропії англійської мови — близько одного біта на літеру для деяких умов і типів тексту. Це була оцінка, а не універсальна константа англійської мови.

Джерело: Claude Shannon, Prediction and Entropy of Printed English (1951).

Запитання 5. У якому сенсі GPT розв’язує задачу Шеннона?

ФАКТ + ІНТЕРПРЕТАЦІЯ.

Авторегресивна мовна модель отримує послідовність токенів і оцінює ймовірності наступного:

$$P(x_{n+1}\mid x_1,x_2,\ldots,x_n)$$

Де:

x_1 ... x_n — уже прочитані токени;
x_(n+1) — наступний токен;
P — розподіл імовірностей можливих продовжень.

Після вибору токена процес повторюється.

Сучасна модель враховує не лише сусідні літери. У її параметрах статистично відображаються граматика, структури програм, жанри текстів, зв’язки між поняттями, поширені факти та шаблони розв’язання задач.

Шеннон не передбачив Transformer, навчання на велетенських масивах даних чи інструменти агентів. Але він сформулював задачу, яку такі моделі сьогодні масштабують:

Передбач продовження настільки добре, наскільки це дозволяє структура попереднього контексту.

Джерела:

Частина III. Колмогоров: файл як програма

Запитання 6. Чого Шеннон не вимірює?

ФАКТ.

Шеннон не відповідає на запитання:

Якою є довжина найкоротшого можливого пояснення саме цього об’єкта?

Колмогоровська складність рядка x відносно універсальної машини U:

$$K_U(x)=\min_{p:\,U(p)=x}|p|$$

Де:

U — обрана універсальна обчислювальна машина або мова;
p — програма;
U(p)=x — програма друкує рядок x і завершується;
|p| — довжина програми в бітах;
K_U(x) — довжина найкоротшої такої програми.

Мільярд нулів можна породити коротким циклом.
Перший мільярд цифр π — порівняно коротким алгоритмом плюс числом N.
Випадковий мільярдний бітовий рядок майже напевно не має значно коротшої програми.

Вибір універсальної машини змінює складність лише на сталу величину:

$$|K_U(x)-K_V(x)|\leq c_{U,V}$$

Стала c_(U,V) залежить від двох мов U і V, але не від самого рядка x.

Джерело: A. N. Kolmogorov, Three Approaches to the Quantitative Definition of Information (1965).

Запитання 7. Чому це пахне метафізикою?

ІНТЕРПРЕТАЦІЯ.

Тому що найкоротша програма виглядає як «справжня ідея об’єкта».

Зображення може складатися з мільярда пікселів, але його коротким поясненням буде:

Намалюй чорне коло радіусом 100 на білому тлі.

Роман може складатися з мільйонів символів, але частину його структури можна пояснити мовою, жанром, епохою та стилем автора.

Фізична історія ділянки простору може бути величезною, але, можливо, її стискають короткі закони й компактний початковий стан.

Виникає спокуса ототожнити:

коротку програму;
причинне пояснення;
сутність об’єкта;
«думку Бога» про об’єкт.

Математика гарантує лише існування найкоротшого опису відносно універсальної машини. Вона не гарантує, що цей опис буде зрозумілим, єдиним, причинним, красивим або фізично фундаментальним.

Запитання 8. Чому неможливо побудувати ідеальний колмогоровський архіватор?

ФАКТ.

Можна знайти коротку програму й довести верхню межу:

$$K_U(x)\leq |p|$$

Але в загальному випадку неможливо довести, що ця програма найкоротша.

Щоб перевірити всі коротші програми, потрібно з’ясувати, які з них завершаться, які не завершаться ніколи, а які завершаться лише через неймовірну кількість кроків. Універсального розв’язання проблеми зупинки не існує.

Тому точна колмогоровська складність не просто дуже дорога. У загальному випадку вона необчислювана.

Це не просто NP-складність. NP-складна задача все одно залишається обчислюваною: за необмеженого часу можна перебрати варіанти. Для колмогоровської складності не існує алгоритму, який гарантовано дасть точну відповідь для кожного входу.

Абсолютний ідеал стиснення математично визначений, але жоден загальний архіватор не здатен гарантовано його досягти або навіть упізнати момент досягнення.

Запитання 9. Чи може хоча б один архіватор стискати взагалі всі файли?

ФАКТ.

Ні.

Для рядків довжини n існує рівно 2^n можливих входів. Коротших за n бітових рядків менше:

$$1+2+4+\ldots+2^{n-1}=2^n-1$$

За безвтратного стиснення різні входи повинні мати різні стиснені представлення. Коротших виходів просто не вистачить для всіх можливих входів.

Будь-який архіватор одні файли стискає, інші майже не змінює, а деякі мусить збільшувати.

Частина IV. Програма, що пише програми для архівації програми

Запитання 10. А що, як оснастити LLM спеціальною функцією архівації?

ІНТЕРПРЕТАЦІЯ, технічно здійсненна в обмеженій формі.

Ось справжній вибух мозку.

Звичайний архіватор має фіксований набір прийомів. LLM-метаархіватор міг би для кожного окремого файла синтезувати власну програму відновлення.

Не просто обирати рівень стиснення, а запитувати:

Який короткий виконуваний об’єкт здатен породити саме ці байти?

Нехай вихідний файл називається x. Система шукає програму p і невеликий залишок r, такі що:

x = P(R(p), r)

Де:

R(p) — результат виконання синтезованої програми p;
r — точна поправка, якщо програма відновила файл не повністю;
P(y, r) — детермінована функція, що застосовує поправку r до результату y;
x — вихідний файл, відновлений байт у байт.

Повна ціна архіву:

$$L=|p|+|r|+|m|+|v|$$

Де:

|p| — розмір програми-генератора;
|r| — розмір залишку або двійкової латки;
|m| — метадані: версія середовища, параметри, довжини;
|v| — вартість валідатора або посилання на спільний стандарт;
L — підсумковий розмір архіву.

Система приймає варіант лише після суворої перевірки:

SHA256(decompress(archive)) == SHA256(original)

LLM потрібна під час стиснення, щоб шукати ідеї. Під час розпакування вона може взагалі не знадобитися, якщо результатом пошуку став невеликий звичайний детермінований декодер.

Це принципово важливо:

Величезна модель може витратити трильйони операцій на пошук крихітної програми. До архіву потрібно покласти знайдену програму, а не весь процес пошуку.

Ціна часу пошуку й довжина опису — різні величини.

Запитання 11. Який вигляд мав би такий метаархіватор?

ІНТЕРПРЕТАЦІЯ.

Спрощена схема:

Вхід: файл x

1. Запустити звичайні архіватори й отримати базовий розмір.
2. Визначити ймовірний тип і структуру файла.
3. Попросити LLM запропонувати родини генераторів:
   - формула;
   - програма;
   - шаблон плюс параметри;
   - база даних плюс схема;
   - процедурна графіка;
   - словник;
   - модель вихідного коду;
   - генератор повторюваних блоків.
4. Для кожної гіпотези:
   a. згенерувати програму p;
   b. запустити p у пісочниці;
   c. порівняти результат y з оригіналом x;
   d. побудувати залишкову латку r = Diff(y, x);
   e. порахувати |p| + |r| + метадані.
5. Модифікувати найкращі програми:
   - спростити;
   - замінити таблиці формулами;
   - винести повтори;
   - знайти симетрії;
   - синтезувати коротші функції;
   - перевірити інші мови й віртуальні машини.
6. Зберегти найкоротший повністю перевірений варіант.

Концептуальний псевдокод TypeScript:

function metaCompress(input: Uint8Array): Archive {
  const baseline = compressWithStandardCodecs(input);
  let best = baseline;

  const hypotheses = proposeGeneratorFamilies(input);

  for (const hypothesis of hypotheses) {
    const programs = synthesizePrograms(input, hypothesis);

    for (const program of programs) {
      const generated = runInSandbox(program);
      const residual = createBinaryPatch(generated, input);
      const archive = packageArchive(program, residual);

      if (
        archive.byteLength < best.byteLength &&
        bytesEqual(decompress(archive), input)
      ) {
        best = archive;
      }
    }
  }

  return best;
}

Це не готовий промисловий алгоритм. Але його складові вже існують:

LLM генерують код;
синтез програм шукає вирази за прикладами;
супероптимізатори зменшують програми;
SAT/SMT-розв’язувачі перевіряють обмеження;
e-graphs шукають еквівалентні вирази;
пісочниці виконують програми-кандидати;
diff-алгоритми кодують залишок;
криптографічний хеш підтверджує точне відновлення.

Запитання 12. Що означає «програма пише програму для програми»?

ІНТЕРПРЕТАЦІЯ.

Можна побудувати кілька рівнів:

LLM-контролер
    ↓ пише
генератор декодерів G
    ↓ пише
декодер конкретного файла D_x
    ↓ породжує
наближення y
    ↓ латка r виправляє його до
вихідного файла x

Формально композицію можна записати так:

x = P(U(G(s)), r)

Де:

s — короткий опис задачі або набір параметрів;
G — програма, що створює спеціалізований декодер;
U — універсальне середовище виконання;
U(G(s)) — результат запуску створеного декодера;
r — залишкова поправка;
P — функція застосування латки.

Рекурсія сама по собі не створює інформацію з нічого. За всі спеціальні інструкції, параметри й залишки однаково потрібно платити бітами.

Але багаторівневість може бути корисною, тому що:

спільний генератор G використовується для багатьох файлів;
маленьке s обирає конкретний декодер;
повторювану структуру можна виразити на вищому рівні;
декодер може створювати спеціалізований декодер для наступного шару.

Компілятори вже роблять щось подібне: вихідний код породжує машинний код, а машинний код породжує поведінку. Генератори парсерів пишуть парсери. Метапрограмування пише програми.

Нова частина — використання LLM як евристичного дослідника простору таких конструкцій.

Запитання 13. Де тут справжня межа з Колмогоровим?

ФАКТ + ІНТЕРПРЕТАЦІЯ.

LLM-метаархіватор може постійно поліпшувати верхню оцінку колмогоровської складності:

$$K(x)\leq L_{\text{best found}}(x)$$

Він може знайти програму, коротшу за ZIP, Zstandard, Brotli або нейромережевий кодек.

Але в загальному випадку він не здатен сказати:

«Це остаточно найкоротша програма. Коротшої не існує».

Навіть якщо система перебирає програми, пише програми для перебору програм і вдосконалює саму себе, проблема зупинки залишається.

Вона може наближатися до Колмогорова, але не отримати сертифікат абсолютного досягнення.

Це схоже на спуск у шахту без відомого дна:

кожен знайдений рівень реальний;
наступний може бути глибшим;
таблички «дно» не існує.

Запитання 14. Чи може такий архіватор справді перемогти сучасні кодеки?

ІНТЕРПРЕТАЦІЯ.

Для деяких типів даних — так.

Особливо перспективні об’єкти, що мають короткий породжувальний опис, якого звичайний кодек не розпізнає:

таблиця значень відомої функції;
файл, майже повністю породжуваний коротким вихідним кодом;
процедурна текстура;
геометрична сцена;
повторюваний лог із прихованим шаблоном;
дамп бази даних, який відновлюється зі схеми й кількох параметрів;
машинно створений документ;
набір конфігурацій, що відрізняються кількома правилами;
зображення діаграми, яке простіше намалювати заново, ніж зберігати піксель за пікселем.

Приклад:

Звичайний PNG: 400 KiB
Коротка SVG-програма: 3 KiB
Залишкова латка до точного збігу: 20 KiB
Разом: 23 KiB

Але для криптографічно випадкових, уже стиснених або зашифрованих даних поліпшення майже не буде.

Крім того, метаархіватор може бути неймовірно повільним. Стиснення одного файла може тривати години, роки або вимагати неприйнятної кількості енергії.

Виникає новий обмін:

$$\text{менше бітів}\quad\Longleftrightarrow\quad\text{більше пошуку й обчислень}$$

Колмогоровська складність враховує довжину програми, але не час її пошуку й виконання. Практичний архіватор мусить враховувати обидва ресурси.

Запитання 15. Чи порушує такий метаархіватор теорему Шеннона?

ФАКТ.

Ні.

Він може перемогти конкретний фіксований архіватор на конкретному наборі файлів, бо використовує багатший клас моделей.

Але:

вартість синтезованої програми входить до архіву;
якщо для декодування потрібна сама LLM, її ваги мають бути спільними для обох сторін або також врахованими;
на деяких файлах метаархіватор програє;
середня межа для заданого справжнього джерела залишається;
неможливість стиснути всі рядки нікуди не зникає.

Для окремого файла можна отримати результат значно нижчий за наївну оцінку ентропії. Це не порушення теорії, а виявлення моделі, якої попередня оцінка не враховувала.

Запитання 16. Чи потрібно враховувати розмір самої GPT?

ФАКТ + ІНТЕРПРЕТАЦІЯ.

Це залежить від протоколу.

Сценарій A: LLM використовується лише під час стиснення

Модель шукає маленьку автономну програму. Одержувач отримує тільки програму й латку. Тоді ваги LLM не входять до архіву: вони є обчислювальним інструментом компресора, як потужний сервер або математик-людина.

Сценарій B: LLM потрібна і для розпакування

Тоді одержувач повинен мати ту саму модель, версію, токенізатор, параметри й точне середовище виконання.

Якщо модель заздалегідь є спільною для мільйонів архівів, її вартість можна розподілити між ними. Якщо її встановлюють заради одного файла, чесна довжина опису повинна включати модель.

Сценарій C: архів посилається на спільну бібліотеку цивілізації

Наприклад:

model://gpt-5.5-2026-04-23
runtime://python-3.14
library://numpy-X.Y

Тоді короткість архіву існує лише відносно спільної інфраструктури. Це не обман, але умову слід назвати прямо.

Назва «Війна і мир» — дуже коротке посилання для людини, яка знає мову й має книжку в бібліотеці. Для прибульця без мови й бібліотеки це майже марний покажчик.

Частина V. GPT-5.5 як обмежений мисливець за короткими програмами

Запитання 17. Що відомо про GPT-5.5, а чого ми не знаємо?

ФАКТ.

За офіційною документацією OpenAI, GPT-5.5 призначена для складної професійної роботи й програмування. API-модель підтримує налаштовуване reasoning effort, function calling, структуровані відповіді та інструменти, зокрема вебпошук, пошук у файлах, інтерпретатор коду, hosted shell, застосування латок і computer use.

Офіційно зазначено:

контекст до 1 050 000 токенів;
текстові та графічні входи;
до 128 000 вихідних токенів;
режими reasoning effort;
роботу з інструментами й багатокроковими завданнями.

Джерела:

Водночас OpenAI не публікує повну архітектуру моделі, точну кількість параметрів, повний склад навчальних даних і всі подробиці навчання.

Тому чесний опис має два шари:

відомі загальні принципи GPT-подібних моделей та офіційно оприлюднені можливості;
невідомі внутрішні деталі конкретної закритої моделі.

Запитання 18. Як GPT-5.5 намагається наблизитися до Колмогорова, коли пише код?

ІНТЕРПРЕТАЦІЯ.

Коли модель замінює сто майже однакових функцій однією параметризованою, таблицю чисел — формулою, ручний набір правил — скінченним автоматом, а повторюваний JSON — схемою та генератором, вона шукає компактний породжувальний опис.

З інструментами цикл починає нагадувати експериментальну науку:

гіпотеза
  → програма
  → запуск
  → тест
  → контрприклад
  → виправлена програма

GPT-5.5 може читати великий контекст коду, пропонувати архітектуру, писати реалізацію, запускати тести через інструмент, бачити помилку, змінювати програму й порівнювати альтернативи.

Але це не обчислення K(x).

Модель використовує навчений розподіл імовірних програм. Вона шукає там, де людська культура вже залишила стежки. Невідома коротка програма може лежати поза її звичним розподілом.

GPT-5.5 — не архіватор Колмогорова. Це потужна евристика, яка дає добрі верхні оцінки складності в тих сферах, де її навчання й інструменти створюють корисний пріор.

Запитання 19. Чи може LLM сама вдосконалювати власний архіватор?

ІНТЕРПРЕТАЦІЯ.

В обмеженому інженерному сенсі — так.

Вона може:

аналізувати невдалі випадки;
писати нові перетворення;
обирати нові мови представлення;
створювати тестові набори;
профілювати декодери;
замінювати повільні частини;
добирати спеціалізовані моделі;
зберігати вдалі генератори у спільній бібліотеці;
використовувати цю бібліотеку як словник для майбутніх файлів.

Виникає система, що еволюціонує:

C[t + 1] = I(C[t], F[t], N[t])

Де:

C[t] — компресор на кроці t;
F[t] — набір файлів або тестів, на яких поточна версія програла;
N[t] — нові моделі, правила й знайдені перетворення;
I — процедура модифікації та перевірки компресора;
C[t + 1] — наступна версія компресора.

Але нескінченне поліпшення не гарантоване. Система може перенавчитися на тестах, роздути спільний декодер, знаходити хибні закономірності або витрачати більше енергії, ніж заощаджує.

Частина VI. Чи може Всесвіт породити вкладений Всесвіт-архіватор?

Запитання 20. Чи може фізична система всередині Всесвіту моделювати сам Всесвіт?

ФАКТ + ІНТЕРПРЕТАЦІЯ.

Вона вже моделює частини світу.

Комп’ютери прогнозують:

погоду;
рух планет;
поширення хвиль;
аеродинаміку;
молекулярну динаміку;
роботу електронних схем;
поведінку матеріалів.

Невелика фізична система — комп’ютер — містить модель іншої ділянки фізичного світу.

Для локальної області R і горизонту часу T задача має такий вигляд:

$$\widehat{S}_R(T)=M(S_R(0),B,T)$$

Де:

S_R(0) — відомий початковий стан області;
B — граничні умови й зовнішні впливи;
M — модель;
S_hat_R(T) — передбачений стан через час T.

Модель не зобов’язана зберігати кожен атом. Вона може використовувати тиск, температуру, середню швидкість, геометрію, ефективні поля та інші великомасштабні змінні.

Таке стиснення фізичної реальності — звичайна наукова практика.

Запитання 21. Як вкладена модель може працювати швидше за вихідну ділянку світу?

ФАКТ + ІНТЕРПРЕТАЦІЯ.

Тому що модель може пропустити деталі, неістотні для обраного запитання.

Щоб передбачити орбіту планети, не потрібно моделювати кожен кварк.
Щоб обчислити затемнення, не потрібно чекати на саме затемнення.
Щоб оцінити коливання мосту, не потрібно відтворювати історію кожного електрона.

Прискорення можливе завдяки:

грубому усередненню;
симетріям;
аналітичним розв’язкам;
редукованим моделям;
ефективним теоріям;
адаптивному кроку часу;
паралельним обчисленням;
сурогатним нейромережевим моделям;
пропуску періодів, у яких не відбувається нічого істотного.

Замість повного мікростану використовується статистика, достатня для обраної задачі.

Ціну прогнозу можна концептуально записати так:

Q = L(M) + L(S_R(0) | M) + C_run(M, T) + E

Де:

Q — загальна ціна побудови й виконання прогнозу;
L(M) — довжина опису моделі M;
L(S_R(0) | M) — довжина опису початкового стану області R, якщо модель M уже відома;
C_run(M, T) — обчислювальна вартість запуску моделі до моменту T;
T — горизонт прогнозу;
E — ціна припустимої похибки або втрати точності.

Модель може бути швидшою за реальність, якщо нас цікавить обмежений набір спостережуваних величин і скінченна точність.

Цікава асиметрія між часом стиснення і часом розпакування. Метаархіватор на основі LLM може витратити мегавати енергії під час стиснення, але видати крихітний скрипт, який розпаковується за мілісекунди.

Запитання 22. А чи можна вкласти цілий Всесвіт і прогнати його швидше?

СПЕКУЛЯЦІЯ з фізичними обмеженнями.

Тут потрібно розрізнити три різні сценарії.

1. Спрощений віртуальний Всесвіт

Він має менше ступенів свободи, простіші закони або обмежену область. Таку систему фізично можна моделювати швидше за деякі процеси нашого світу.

2. Наближена копія спостережуваної області

Вона зберігає лише макроскопічні особливості. Така модель може деякий час передбачати локальний світ, поки похибки початкових даних, хаос і зовнішні впливи не зруйнують точність.

3. Точна копія всього Всесвіту, разом із комп’ютером, що його моделює

Тут починаються серйозні проблеми:

внутрішній комп’ютер має менше доступних фізичних ресурсів, ніж уся система, що його містить;
він мусить якимось чином закодувати власний стан;
повна модель містить модель, яка містить модель;
точний невідомий квантовий стан не можна довільно скопіювати через теорему про заборону клонування;
повний стан фізично недоступний для вимірювання;
оприлюднений прогноз може змінити поведінку системи, яка його отримала;
деякі обчислення можуть не мати загального прискореного шляху.

Не існує простої теореми на кшталт «жоден Всесвіт ніколи й у жодному сенсі не здатен симулювати себе швидше». Але точна, повна й доступна зсередини самосимуляція стикається з ресурсними, квантовими та самореферентними обмеженнями.

Запитання 23. Що, як Всесвіт нелокальний?

ФАКТ + обережна інтерпретація.

Квантова теорія допускає нелокальні кореляції: результати вимірювань заплутаних систем не пояснюються простою локальною моделлю з прихованими наперед заданими значеннями.

Але квантова заплутаність не дозволяє передавати керовану інформацію швидше за світло.

Тому «нелокальність» не означає:

миттєвий доступ комп’ютера до всього стану Всесвіту;
можливість безкоштовно завантажити майбутнє;
відсутність причинних обмежень;
універсальний канал для надсвітлового архівування.

Нелокальні кореляції роблять фундаментальну картину світу менш класичною. Вони не видають внутрішньому спостерігачеві пароль адміністратора.

Запитання 24. Чи може Всесвіт породжувати вкладені світи як локальні архіватори?

СПЕКУЛЯЦІЯ, але логічно зв’язна.

Уявімо, що цивілізація створює симульовані світи. Кожен такий світ:

містить спрощені закони;
запускається на фізичному субстраті батьківського світу;
може мати власних спостерігачів;
може моделювати батьківський світ за отриманими даними;
може створювати наступний рівень симуляцій.

Виникає ланцюг:

$$W_0 \supset M_1(W_0) \supset M_2(M_1) \supset M_3(M_2)\supset\ldots$$

Де:

W_0 — вихідний фізичний світ;
M_1(W_0) — модель частини вихідного світу;
кожен наступний рівень моделює попередній.

Кожен рівень щось втрачає:

точність;
доступний масштаб;
енергію;
швидкість;
інформацію про граничні умови.

Але рівень може вигравати в суб’єктивному або модельному часі, якщо його закони й роздільна здатність простіші.

У такому сенсі вкладений Всесвіт може слугувати архіватором локальної історії:

Він не зберігає кожен факт вихідного світу, а зберігає програму, початкові дані й правила, які дають змогу приблизно відтворити потрібну область.

Це більше схоже не на ZIP-архів, а на ігровий рушій разом із файлом збереження.

Запитання 25. Чи може дочірній Всесвіт передбачити батьківський?

ІНТЕРПРЕТАЦІЯ + СПЕКУЛЯЦІЯ.

Локально й на обмежений час — у принципі можливо, якщо йому передати:

достатньо точні спостереження;
придатну модель;
зовнішні граничні умови;
обчислювальний ресурс;
припустиму похибку.

Він може перевершувати спостерігачів батьківського світу, якщо внутрішнє обчислення організоване ефективніше або якщо він використовує знайдені скорочення.

Але він не отримує автоматично:

повний початковий стан батьківського світу;
дані з причинно недоступних областей;
точні майбутні квантові результати;
нескінченний горизонт прогнозу;
гарантію, що його модель фундаментальна.

Найреалістичніша версія цієї ідеї така:

Фізична система породжує вкладену обчислювальну систему, яка будує стиснену модель локальної області й передбачає кілька її спостережуваних параметрів швидше, ніж вони розвиваються в оригіналі.

Це вже відбувається в цифрових двійниках, науковому моделюванні та системах керування.

Найсильніша версія — «дочірній світ повністю обчислює батьківський раніше, ніж сам батьківський світ доходить до цього майбутнього» — залишається філософською фантазією.

Частина VII. Що говорить сучасна фізика

Запитання 26. Чи обіцяє загальна теорія відносності цілком передбачуваний Всесвіт?

ФАКТ із застереженнями.

Загальна теорія відносності описує гравітацію як динамічну геометрію простору-часу.

Рівняння Ейнштейна:

$$G_{\mu\nu}+\Lambda g_{\mu\nu}=\frac{8\pi G}{c^4}T_{\mu\nu}$$

Позначення:

g_(μν) — метрика, що визначає геометрію простору-часу;
G_(μν) — тензор Ейнштейна, який описує кривину;
T_(μν) — тензор енергії-імпульсу матерії;
G — гравітаційна стала;
c — швидкість світла;
Λ — космологічна стала;
індекси μ, ν позначають координати простору-часу.

У грубому наближенні зміст такий:

Розподіл енергії та імпульсу пов’язаний із кривиною простору-часу.

Класичні рівняння мають задачу з початковими даними: за придатних початкових умов еволюцію можна обчислювати. Але глобальний детермінізм залежить від структури простору-часу. Сингулярності, горизонти Коші та відсутність глобальної гіперболічності ускладнюють картину.

Тому навіть класична ЗТВ не дає простого гасла: «дай мені один повний знімок Всесвіту — і я дам тобі все його майбутнє».

Запитання 27. Що додає квантова теорія поля?

ФАКТ.

Квантова теорія поля описує фундаментальні частинки як збудження квантових полів. Стандартна модель надзвичайно точно описує електромагнітну, слабку й сильну взаємодії, але не включає гравітацію в завершену єдину квантову схему.

Джерело: CERN, The Standard Model.

Квантовий стан між вимірюваннями зазвичай описується унітарною еволюцією. Але зв’язок математичного формалізму з одним конкретним результатом вимірювання й далі тлумачиться по-різному.

Різні підходи стверджують, наприклад:

стан колапсує;
існують додаткові приховані змінні;
унітарність зберігається, а історії розгалужуються;
квантовий стан є інструментом передбачення, а не буквальним об’єктом.

Експериментальні ймовірності надзвичайно добре узгоджуються зі спостереженнями. Їхнє онтологічне тлумачення не має єдиної загальноприйнятої відповіді.

Джерело: Stanford Encyclopedia of Philosophy, Philosophical Issues in Quantum Theory.

Запитання 28. Чи маємо ми сьогодні остаточний вихідний код фізики?

ФАКТ.

Немає підтвердженої єдиної теорії, яка повністю об’єднує:

квантову теорію поля;
загальну теорію відносності;
походження темної матерії;
природу темної енергії;
початкові умови Всесвіту;
квантовий опис простору-часу.

Існують теорії-кандидати й дослідницькі програми: теорія струн, петльова квантова гравітація, асимптотична безпека, причинні множини, голографічні підходи та інші.

Це не означає, що «фізики нічого не знають». Загальна теорія відносності й Стандартна модель надзвичайно успішні у своїх галузях. Але їхню остаточну спільну архітектуру ще не встановлено.

Останній цвях іще не забито.

Частина VIII. Свідомість як архіватор

Запитання 29. У якому науковому сенсі свідомість схожа на архіватор?

ІНТЕРПРЕТАЦІЯ, сумісна з нейронаукою, але не завершена теорія свідомості.

Організм не зберігає повну копію сенсорного потоку.

Сітківка отримує величезний потік змін світла. Переживання впорядковує його в:

об’єкти;
обличчя;
рух;
загрози;
наміри;
причинні історії;
стійкий простір.

Мозок відкидає величезну кількість деталей і зберігає структуру, корисну для дії.

Концептуальна схема:

$$\text{signals}\longrightarrow\text{latent model}\longrightarrow\text{prediction and action}$$

Де:

signals — сенсорні дані;
latent model — прихована компактна модель причин;
prediction and action — прогноз і поведінка.

У цьому сенсі свідомий досвід можна порівняти з архівом із втратами:

Ми переживаємо не мікрофізичний стан світу, а компактний інтерфейс, побудований нервовою системою.

Але з цього не випливає, що свідомість є окремою фундаментальною субстанцією.

Запитання 30. Що таке свідомість як онтологічний архіватор?

СПЕКУЛЯЦІЯ.

Зробімо сильний і недоведений крок.

Припустімо, що свідомість не просто отримує скорочену копію реальності, а є механізмом, який перетворює множину фізичних можливостей на переживаний світ.

Тоді свідомість можна уявити як відображення:

$$A:\Omega\longrightarrow E$$

Де:

Ω — простір можливих фізичних станів;
E — простір переживаних станів;
A — «онтологічний архіватор», який відкидає майже всі мікроскопічні відмінності.

Мільярди різних мікростанів можуть переживатися як один і той самий «червоний стіл».

Тоді свідомість не читає повний світ. Вона формує класи еквівалентності:

$$\omega_1\sim\omega_2\quad\text{якщо}\quad A(\omega_1)=A(\omega_2)$$

Це математично зрозуміла метафора, але поки що не фізична теорія. Щоб стати наукою, вона має відповісти:

Що саме вимірює A?
Де і як воно реалізоване?
Який експеримент відрізняє його від звичайної нейронної обробки?
Які числові передбачення є унікальними для цієї моделі?
Чому потрібна фундаментальна свідомість, а не фізичний обчислювальний процес?

Поки відповідей немає, «онтологічний архіватор» залишається філософським образом.

Запитання 31. Чи може свідомість бути мейнфреймом Всесвіту?

СПЕКУЛЯЦІЯ.

Уявімо радикальну модель:

первинна свідомість є середовищем виконання;
фізичні закони є віртуальною машиною;
наш Всесвіт — запущений процес;
окремі свідомості — локальні процеси, здатні моделювати середовище;
створені ними комп’ютери запускають нові світи;
у цих світах можуть з’являтися нові спостерігачі.

Виникає рекурсивна архітектура:

первинна свідомість
  └─ фізичний Всесвіт
      └─ біологічна свідомість
          └─ комп’ютерна модель світу
              └─ модель спостерігача
                  └─ нова модель світу

У цій картині Всесвіт архівує сам себе не в одному файлі, а в ієрархії спостерігачів і моделей.

Кожен спостерігач отримує невеликий фрагмент виводу й намагається відновити програму, яка його породила.

Фізика стає зворотною інженерією.
Наука — декомпіляцією.
Свідомість — процесом, у якому код починає будувати модель власного інтерпретатора.

Це сильна філософська фреска. Але вона не має підтвердженого фізичного механізму й унікального експерименту.

Частина IX. Фреска із проміжком між пальцями

Запитання 32. До чого тут «Створення Адама»?

ХУДОЖНЯ МЕТАФОРА.

На фресці Мікеланджело Бог простягає руку до напівлежачого Адама. Їхні пальці майже торкаються, але між ними залишається невеликий проміжок.

Цей проміжок можна прочитати як відстань між:

Уявним знанням Бога

повним станом;
найкоротшим описом;
усіма причинними зв’язками;
відсутністю обчислювальної невизначеності;
одночасним знанням програми та її результату.

Знанням інженера

локальними вимірюваннями;
обмеженою пам’яттю;
скінченним часом;
наближеними моделями;
архіваторами, які завжди можуть виявитися не найкращими;
неможливістю довести абсолютну найкоротшість програми.

Шеннон стоїть на боці інженера:

Дай мені модель джерела, і я обчислю досяжну середню ціну.

Колмогоров тягнеться далі:

Кожен об’єкт має найкоротшу програму.

Тюрінг зберігає проміжок:

Не існує загального алгоритму, який завжди знайде її й підтвердить, що пошук завершено.

LLM простягає ще один механічний палець:

Я не переберу всі програми, але спробую написати багато правдоподібних і перевірити найкращі.

Частина X. Хто переміг?

Запитання 33. Чому ми частіше чуємо про Шеннона, ніж про Колмогорова?

ІНТЕРПРЕТАЦІЯ, заснована на практичній відмінності між теоріями.

Тому що Шеннон дав промисловості обчислювані межі.

Можна:

виміряти швидкість каналу;
оцінити шум;
побудувати код;
порахувати середню довжину;
порівняти кодеки;
передати дані;
перевірити помилку.

Колмогоров дав нам більш абсолютне поняття, але його точне значення недоступне загальному обчисленню.

Інженерні стандарти обирають не найглибшу онтологічно величину, а ту, яка дає змогу ухвалювати рішення.

Тому:

Шеннон побудував фундамент цифрового зв’язку;
Колмогоров установив межу для ідеї абсолютного стиснення;
MDL пов’язав навчання з довжиною моделі й даних;
Соломонов описав ідеального передбачувача;
сучасні LLM стали практичними евристиками пошуку програм і пояснень.

Колмогоров не спростував Шеннона. Він поставив запитання, на яке Шеннон свідомо не відповідав.

Запитання 34. Який вигляд має остаточна драбина архіваторів?

ФАКТ + ІНТЕРПРЕТАЦІЯ.

Рівень 1. Фіксований кодек

Використовує наперед задані перетворення.

ZIP, Zstandard, Brotli, PNG, FLAC

Рівень 2. Навчувана ймовірнісна модель

Передбачає дані й кодує залишкову несподіваність.

нейромережевий кодек, мовна модель + арифметичне кодування

Рівень 3. MDL-архіватор

Обирає модель і платить і за неї, і за залишок.

$$L(\text{model})+L(\text{data}\mid\text{model})$$

Рівень 4. LLM-метаархіватор

Пише спеціалізовані генератори й перевіряє точне відновлення.

пошук ідеї → код → запуск → латка → перевірка → мінімізація

Рівень 5. Універсальний пошук програм

Перебирає всі програми за певним пріоритетом і шукає коротку.

Теоретично це дедалі ближче до Колмогорова, але дуже швидко впирається в час і проблему зупинки.

Рівень 6. Архіватор Бога

Одразу знає найкоротшу програму й знає, що вона найкоротша.

Такий об’єкт не є обчислюваним універсальним алгоритмом у звичайному математичному сенсі.

Фінал. Всесвіт як архів, що пише архіватор

Є дві спокуси.

Перша — вважати ентропію Шеннона абсолютною кількістю інформації всередині речі. Це неправильно. Вона належить джерелу й імовірнісній моделі.

Друга — вирішити, що Колмогоров дав готовий шлях до абсолютної істини. Це теж неправильно. Він визначив ідеал, але загальний алгоритм досягнення цього ідеалу неможливий.

Між ними лежить справжня інженерія.

LLM уже вміють писати програми.
Програма може породжувати дані.
Агент може запустити її, порівняти результат з оригіналом і написати наступну програму.
Метаархіватор може витратити величезні обчислювальні ресурси, щоб отримати маленький автономний декодер.
Він здатен знаходити закони там, де звичайний кодек бачив шум.

Це не скасовує Шеннона. Це розширює модель джерела.

Фізичний Всесвіт також породжує всередині себе архіватори:

геноми;
нервові системи;
мови;
книжки;
математичні теорії;
комп’ютери;
симуляції;
LLM.

Кожен із них зберігає не сам світ, а його стиснену реконструкцію.

Можливо, короткі закони справді дають локальній моделі змогу випереджати фізичний процес. Можливо, вкладені обчислювальні світи зможуть передбачати обмежені області батьківського світу швидше, ніж ті проживають власний час. Частково це вже відбувається.

Але точна модель усього Всесвіту, розташована всередині нього, яка знає власне майбутнє й гарантує найкоротший опис, стикається з квантовими обмеженнями, браком ресурсів, самопосиланням і необчислюваністю.

А ідея первинної свідомості як мейнфрейма, що запускає фізику й рекурсивні моделі самої себе, залишається величною метафізичною фрескою.

Її не доведено.
Її не можна відкинути одним реченням.
Вона ще не стала фізичною теорією.

Останній цвях іще не забито.

Можливо, Всесвіт має короткий вихідний код.
Можливо, код короткий, але початковий стан не стискається.
Можливо, опис короткий, але його неможливо швидко виконати.
Можливо, саме поняття «коду» — інтерфейс, створений людським розумом.
А можливо, розум і є процедурою, за допомогою якої світ шукає коротшу програму самого себе.

Шеннон дав нам ціну невідомості.
Колмогоров указав на приховану програму.
Тюрінг перекрив універсальний шлях до неї.
Інженер однаково запускає пошук.

І між його пальцем та пальцем Бога все ще залишається кілька бітів.

Короткий словник

Термін	Значення
Ентропія Шеннона	Середня невизначеність заданого ймовірнісного джерела
Умовна ентропія	Невизначеність, що залишається після врахування відомого контексту
Крос-ентропія	Середня ціна кодування даних певною ймовірнісною моделлю
KL-дивергенція	Штраф за невідповідність моделі реальному розподілу
Колмогоровська складність	Довжина найкоротшої програми, яка породжує конкретний об’єкт
MDL	Принцип мінімізації сумарної довжини моделі та даних за цієї моделі
Універсальне кодування	Кодування без точного попереднього знання джерела
Синтез програм	Автоматичний пошук програми, що задовольняє приклади й обмеження
Метаархіватор	Архіватор, який створює спеціалізовані архіватори або декодери
Обчислювальна незвідність	Ситуація, у якій результат неможливо отримати значно швидше, ніж безпосередньо виконати процес
Онтологічний архіватор	Спекулятивна ідея свідомості як механізму формування переживаної реальності

Основні джерела

tomfun commented Jun 14, 2026

Author

My blog with more articles - https://tomfun.co/2026/06/god-vs-engineer/#more