От ЛАА Ответить на сообщение
К kregl Ответить по почте
Дата 08.07.2016 13:49:34 Найти в дереве
Рубрики Современность; Версия для печати

а теперь яровизация архивизации

>> Кстати, "васяпупкинд" стописятмильярдов раз займет на диске несколько десятков байт, при умении.
> ---------------------------
> ...слово "васяпупкинд", но умноженное 1000 милльярдов раз само на себя... я думал, что внятно написал о возведении (двоичного, конечно) числа в СТЕПЕНЬ.

Несознательный ты юзер, Олег! Потренируйся на практике: размножь своего "васюпупкинда" копипастом в Блокноте (1000 мильярдов он, конечно, тебе не даст, но дело ведь в принципе, а не в точных цифрах), сохрани в файл и сожми каким-нибудь архиватором - там, WinRar, WinZip, 7-zip. Можно средствами Windows. И полюбуйся делом рук своих...

Не хранят архивные данные в несжатом виде, понимаешь? Вернее, несознательные юзера может и хранят, а профи нет. Любая популярная статья по алгоритмам сжатия информации начинается с примера, которому твой "васяпупкинд" генетическая родня. Оптимальный тип сжатия для такого рода данных - запись N string, где N - число повторений строки string. Обратная распаковка также тривиальна.

Конечно, большинство алгоритмов сжатия данных на подобный тривиальный случай не рассчитаны в силу его (случая) заведомой надуманности, поэтому даже гигабайтный файл из одних нулей ни один популярный архиватор не сожмет до нескольких байт (проверено, в итоге мегабайтные файлы получаются) но степень сжатия при этом все равно огромная.

А вот последовательность случайных чисел сжимается крайне плохо любыми алгоритмами. От слова совсем.

>> Равно как один файл в десять адресов останется одним файлом, а не десятью (в том числе и при перепостах).
> ----------------------
> Я думал, что внятно написал, что после отсылки десятерым, каждый из них отошлёт ещё десятерым и т.д. и при каждой (конечно же единичной!) отсылке фильм будет заново сохраняться в сундуках мудрых хранителей.

Тык я ж вроде тоже вроде внятно... хотя, наверно, да, не очень.

Когда ты отправляешь письмо десяти получателям, оно не превращается в десять отдельных писем (давай пока поговорим только про твоего провайдера, про провайдеров твоих абонентов коротенько чуть позже). Это один набор данных с полем, в котором указаны десять получателей. Это - стандарт SMTP. Помимо стандартов есть еще чисто технические приемы, которые провайдер может применять на свой собственный резон. Например, если твой получатель обитает на том же провайдере, то для него совершенно не надо хранить то же самое сообщение второй раз - достаточно одного, плюс по "протоколу расхождений" для отправителя и для получателя.

Не надо держать провайдеров за блондинок, даже если они персонально в информационных технологиях ни бум-бум (что случается, ибо провайдер это обычно коммерсант, а не программист). Они бы провайдерами ни в жисть не стали, кабы б не имели штат профессиональных программистов.

Думаю, что и вариант пересылки одного и того же "кина" внутри группы пользователей одного и того же провайдера - вариант тривиальный, легко распознаваемый и также легко и совершенно незаметно для пользователей решаемый.

Что же касается других провайдеров, к которым "прилетает" такая почта, то... это их проблемы! Которые они будут решать самостоятельно каким-либо сходным или своеобразным способом.

Вообще тема сверхбольших объемов данных в IT одна из наиболее популярных нынче.



Рейтинг@Mail.ru Rambler's Top100