Google проиндексировал триллион страниц - 30 Октября 2008 - фильмы,игры,программы,музыка,шаблоны
Меню сайта
Голосования
Помогите нам решить вечный вопрос... Что раньше появилось?
Всего ответов: 45
Друзья
Сайт клана [tm^komu]
Продажа ICQ за смс!

Посетившие сегодня
Статистика


Онлайн всего: 1
Гостей: 1
Пользователей: 0

Главная » 2008 » Октябрь » 30 » Google проиндексировал триллион страниц
Google проиндексировал триллион страниц
14:56

В компании Google сообщили, что интернет-поисковик Google.com успешно проиндексировал триллионную по счету веб-страницу. В официальном блоге компании говорится, что поисковик ведет создание индекса уже 10 лет – с августа 1998 года.

До конца 1998 года в поисковом индексе Google.com насчитывалось уже 26 млн страниц. В 2000 году был проиндексирован первый миллиард страниц. "За последние 8 лет интернет значительно вырос и увеличились объемы данных в поисковом сервисе", – говорит Джесси Алперт, программный инженер Google.

В компании говорят, что поисковик уже давно научился отыскивать и удалять из индекса дубликаты страниц и страницы с разными адресами. "Старт работы по индексированию начался с того, что поисковый робот начал запоминать содержимое страниц и следовать по гиперссылкам, присутствующими на данных страницах. Система постоянно следует по ссылкам, переходя с сайта на сайт и запоминая содержимое уже изученных страниц. В реальности Google.com проиндексировал уже более триллиона страниц, однако далеко не все из них являются уникальными автономными страницами. Многие из них имеют по несколько адресов, другие являются автокопиями друг друга", пишет в официальном блоге компании Ниссан Хаджай, один из разработчиков поисковой системы.

Инженеры Google говорят, что поисковик для того, чтобы избежать безконтрольного разбухания поискового индекса должен обладать изрядной долей интеллекта и отличать автоматически генерируемые страницы от настоящего пользовательского контента.

"Например многие онлайновые календари, работающие в интернете, имеют ссылку "следующий день", нажав на которую можно начать планирование на предстоящий день, однако парадокс состоит в том, что продвигаться по данной ссылке, каждый раз нажимая "следующий день" можно до бесконечности. Потому реальный размер интернета с точки зрения поисковой системы зависит только от того, насколько строги параметры индексирования робота и насколько он способен распознать степень полезности той или иной страницы", – говорят в Google.

Ранее в Google использовалась так называемая узловая система работы с веб-данными. Так один компьютер мог обсчитать граф информации для PageRank из 26 млн страниц за пару часов и эта информация использовалась в качестве индекса на протяжении жестко указанного периода времени. В случае с Google.com этот временной промежуток составлял пару дней.

Сегодня, как рассказывают в компании, пополнение веб-данных не останавливается ни на секунду, а благодаря распределенной системе обсчета данных и оперативному обновлению информации весь поисковый индекс ранжируется заново по несколько раз в сутки.

"Такой граф из триллиона страниц можно сравнить с разветвленной системой дорог, каждая из которых по триллиону раз пересекается с другой. Подобная система соотношения "многие ко многим" позволяет максимально быстро изучать петабайты данных", – пишет в блоге компании Джесси Алперт.

Просмотров: 347 | Добавил: jik | Рейтинг: 5.0/1 |
Всего комментариев: 2
25.02.2009
2. Сильвестр Ситников (typunacy)
По моему у Вас украли эту статью и поместили на другом сайте. Я её уже видела.

22.11.2008
1. Александр (FiXeR)
на данный момент гугл является лучшим поисковиком, но многие люди пользуются яндексом, хотя у него проиндексировано меньше страниц и в среднем он индексирует месяца 3

Имя *:
Email:
Код *:
Реклама
регистрация доменов


Все файлы и информация расположенные на данном ресурсе были взяты из открытых источников. Любая информация представленная здесь, может использоваться только в ознакомительных целях. Входя на сайт вы автоматически соглашаетесь с данными условиями. Ни администрация сайта, ни хостинг-провайдер, ни любые другие лица не могут нести отвественности за использование материалов. Если Вы являетесь правообладателем материалов и мы нарушаем ваши авторские права, просьба сообщить администрации.При копировании материалла с сайта обратная ссылка http://mir-kino.net.ru/ Обязательна.