Раскрутка

Размер поискового индекса Яндекса. Он мизерный!

Читал одну статью про устройство Яндекса, и в нем говорилось, что зимой 2013 года размер всех проиндексированных данных в текстовом выражении, которые хранятся в Яндексе и по которым он ведет поиск – 214 ТБ.
Т.е. весь голый текст миллиардов документов, без html-разметки весит всего 214 ТБ.
Я просто в шоке. Ведь весь Яндекс можно поставить дома у себя под ногами. 3 двухюнитовых сервера, если в них вставить по 15 хардов на 6 ТБ, т.е. суммарно по 90 ТБ может уместить весь Яндекс.
Как так? Это же сущие копейки. Я думал что индекс Яндекса занимает миллионы петабайт, а он всего двести тысяч гигабайт!
Яндекс =текст?))
BlackMesa, он понял.
Тут момент какой, вы, другими словами, говорите что вся русская литература - это всего 33 буквы; нет, понятно, что вариантов их использования довольно много и приходится строить целые библиотеки для хранения особенно удачных комбинаций, но тем не менее все эти буквы легко умещаются на листке бумаги.
Вот поисковый индекс Яндекса... да и Гугла - суть тоже самое - 33 буквы
Представим, есть фундаментальная библиотека МГУ, которая содержит практически всю российскую научную литературу. Это неприметное 4-х этажное здание. Рядом стоят еще 2-х этажки библиотек других ведущих вузов – Бауманки, МФТИ и проч.
Поляна со зданиями этих библиотек окружена лесом из одноэтажных миниатюрных палаток с шаурмой. Палаток с шаурмой вокруг них десятки тысяч.
И неподалеку стоит неприметное 12 этажное здание советской постройки со сталинских времен. Это Яндекс. Он с трудом вмещает содержимое стоящих рядом библиотек и единичное содержание палаток с шаурмой.
При этом в массовом понимании это не то, что небоскреб из книги рекордом Гинесса. Это прямо Цитадель, инопланетное сооружение, уходящее далеко в облака…
А король-то голый? Тоже считал, что индекс куда больше.
Вам, как говорится, шашешки или ехать?)
С поиском в рунете Яндекс местами лучше Гугла справляется.
Значит хватает ему именно такого объема текстового индекса.
Кстати, а говорилось что-нибудь про метод сжатия? Наверняка индекс хранится не в чистом текстовом виде... хотя может быть и так... вот если условно посчитать 1 символ = 1 байт, то небольшой текст из 1000 символов = 1 кб, сайт из 1000 таких страниц = 1мб. Волне реально хранить на 214 тб 214 млн таких средних сайтов) это похоже на индекс
Ну да, собрали вы кластер. А теперь запускаем полнотекстовый поиск по всей этой базе, с сортировкой по релевантности и куче других факторов. А выдачу вышлите на email, через неделю, как будет готова.