Što Je Entropija Datoteke

Što Je Entropija Datoteke
Što Je Entropija Datoteke

Video: Što Je Entropija Datoteke

Video: Što Je Entropija Datoteke
Video: ¡Tráiler del episodio 218 de la serie Emanet! 2024, Studeni
Anonim

Bilo koja računalna datoteka sastoji se od bajtova. Bajt može imati vrijednosti od 0 do 255. Informacijska entropija je statistički parametar koji pokazuje vjerojatnost pojave određenih bajtova u datoteci.

Što je entropija datoteke
Što je entropija datoteke

Stupanj entropije možete vizualno procijeniti pomoću histograma - raspodjele vjerojatnosti ponavljanja istih bajtova u datoteci. Iz entropije datoteke možemo pretpostaviti koja je vrsta datoteke ispred nas, vidjevši samo njen histogram.

Za demonstraciju uzmimo tri datoteke različitih vrsta i usporedimo njihove histograme. Neka prva bude tekstualna datoteka (*. TXT). Njegov histogram prikazan je na slici:

гистограмма=
гистограмма=

Tekstualna datoteka sadrži samo tekst. Svaki znak teksta kodiran je određenim bajtovima u skladu s tablicom kodiranja. Iako postoji velik broj vrsta kodiranja, očito je da postoji ograničen broj alfanumeričkih znakova, što je obično manje od 255. Stoga su samo neka područja zauzeta na prvom histogramu, a neki bajtovi uopće nisu.

Sljedeća datoteka bit će u PDF formatu:

гистограмма=
гистограмма=

Ova datoteka sadrži sve moguće bajtove, jer je PDF kodiran drugačije od tekstualnih datoteka. Pohranjuje puno informacija o uslugama: formatiranje, fontove, slike itd. Ali njegov histogram pokazuje da se neki od bajtova javljaju s približno jednakom vjerojatnošću, dok se drugi - puno češće od drugih. Otuda i višestruki oštri rafali na histogramu, i općenito ima prilično "raščupan" izgled, iako zauzima cijelu dostupnu širinu.

I zadnja datoteka je stisnuta u 7Z formatu:

гистограмма=
гистограмма=

Ovaj histogram ima dvije glavne značajke: prvo, svi se bajtovi nalaze u arhiviranoj datoteci s manje ili više jednakom vjerojatnošću (prilično ravan gornji rub), a drugo, iznad histograma praktički nema slobodnog prostora, što ukazuje na gotovo potpuno odsustvo suvišnosti takve datoteke. Stoga možemo zaključiti da algoritam arhivatora na neki poseban način "miješa" bajtove datoteke kako bi postigao njihovu maksimalnu ujednačenu distribuciju.

Stoga je entropija u računalnoj znanosti, kao i u fizici, mjera poremećaja u sustavu, u ovom slučaju poremećaja u raspodjeli bajtova u datoteci. Entropija vam omogućuje prosudbu stupnja kompresije datoteke i - neizravno - vrste datoteke.

Preporučeni: