Инфраструктура эксперимента
Все эксперименты проводились с использованием программы CS2 (Connectivity Server 2 — сервер связности 2), созданной в Центре системных исследований корпорации Compaq, а также данных, которые поступали от поисковой машины AltaVista. Программа CS2 обеспечивает быстрый доступ к информации о связях в Вебе. В соответствии со схемой действий программа CS2 воспринимает на входе данные о проходе по Вебу и строит индуцированное пройденными страницами представление всего Веб-графа в форме базы данных, которая состоит из всех пройденных URL вместе со всеми входящими и исходящими связями между ними. В дополнение, граф расширяется теми URL, на которые как минимум пять раз ссылаются пройденные страницы. (Экспериментальным путем мы определили, что подавляющее большинство URL, не пройденных, но встречавшихся менее пяти раз, оказывается недействительным.)
В двух важных направлениях программа CS2 содержит улучшения исходного сервера связности CS1, описанного в работе (Bharat K., Broder A., Henzinger M., Kumar P., Venkatasubramanian S. The connectivity server: fast access to linkage information on the Web // Proc. 7th WWW, 1998). Во-первых, она существенно повышает сжатие URL и структур данных о связях. В CS1 каждый сжатый URL занимал в среднем 16 байтов. В CS2 каждый URL хранится в 10 байтах. В CS1 каждой ссылке требовалось 8 байтов, чтобы хранить как входящую, так и исходящую связи; в CS2 используется в среднем только 3,4 байта. Во-вторых, CS2 обеспечивает дополнительную функциональность в форме центральной (host) базы данных. Например, в CS2 легко получить все входящие ссылки для данной вершины либо только входящие ссылки с удаленных узлов (remote hosts).
Подобно CS1, программа CS2 спроектирована для обеспечения высокопроизводительного доступа ко всем этим данным на мощном компьютере с ОЗУ, достаточным для хранения базы данных в памяти. На сервере Compaq AlphaServer 4100 с быстродействием 465 МГц и объемом оперативной памяти 12 Гбайт требуется 70—80 мс для преобразования URL во внутренний идентификатор ресурса и наоборот, а также только 0,15 мс/связь для обнаружения любой входящей или исходящей связи. На однопроцессорном компьютере поиск вширь, охватывающий 100 млн вершин, занимает около 4 мин; на 2-процессорном компьютере мы могли выполнять поиск вширь раз в две минуты.
В ходе экспериментов, описываемых в данной работе, база данных для программы CS2 была построена с использованием результатов прохода по Вебу, выполненного поисковой машиной AltaVista в мае 1999 г. База данных CS2 содержит 203 млн URL и 1466 млн ссылок (все они помещаются в памяти объемом 9,5 Гбайт). Некоторые из наших экспериментов повторялись при проходе по Вебу, выполнявшемся сравнительно недавно, в октябре 1999 г., и охватывавшем 271 млн URL и 2130 млн ссылок.
В общем случае, проход по Вебу с помощью поисковой машины AltaVista базируется на большом числе начальных точек, накопленных со временем из разных источников, включая произвольные добавления. Сам проход по Вебу выполняется примерно в стиле поиска вширь, но подчиняется при этом различным правилам, разработанным для того, чтобы избегать перегрузки Веб-серверов, ловушек для роботов (искусственных бесконечных путей), избегать и/или определять сетевой мусор (спам, в данном случае — лавинообразная маршрутизация страниц), бороться с тайм-аутами соединений и т. д. Каждое построение индекса поисковой машиной AltaVista базируется на данных о проходе по Вебу, которые были получены после их дальнейшей фильтрации и обработки, предназначенных для устранения дубликатов и их близких подобий, удаления страниц спама и т. д. В дальнейшем индекс постоянно обновляется, по мере того как различные процессы отбрасывают мертвые ссылки, добавляют новые страницы, обновляют их и т. д. Повторная фильтрация и последующие отбрасывания и добавления не отражаются в сервере связности. Но в целом, база данных программы CS2 может рассматриваться как надмножество всех страниц, хранящихся в индексе в каждый определенный момент времени. Заметим, что из-за наличия множества начальных точек результирующий граф может иметь много связных компонент.
Экспериментальные данные
С использованием CS2 были реализованы следующие основные алгоритмы:
Напомним, что и BFS-WCC, и BFS-SCC — простые обобщения алгоритма BFS. Применяя эти три базовые алгоритма, мы провели несколько интересных экспериментов на Веб-графе.
Окончание следует…
ЧИТАЙТЕ ТАКЖЕ:
Классика сбережений - вклад в банке. Услуги на рынке валютных обменов FOREX. Дилинговые центры FOREX. Стратегии управления инвестиционным портфелем. Оптимальный выбор — фьючерсы. Отечественный рынок производных финансовых инструментов. Есть ли вечные ценности или имеет ли смысл инвестировать в золото, серебро, платину и платиноиды? Модели ипотечного кредитования и перспективы их применения. Зарубежная недвижимость. Домик у моря. Инфляция или укрепление рубля: какое из зол меньше? Золото как инструмент оптимизации инвестиционного портфеля.Ипотека: монополия или конкуренция
Лучше банка может быть только… брокер!
Виды инвестиционных качеств ценных бумаг и методы их оценки
Патентная неизбежность для малого бизнеса
Первичный и вторичный рынки ценных бумаг
Инновационные программы должны быть подвергнуты "усушке"
425 000 000 клиентов Facebook, которые не приносят доход
Ипотека. Сегодня это слово у всех на слуху. Однако далеко не все знают...
Что должен знать клиент, прежде чем заключить договор с банком
Информация, размещенная на сайте, получена из открытых источников, не претендует на полноту, актуальность и гарантированную достоверность, не предоставляется с целью оказания консультативных услуг и не является публичной офертой к осуществлению каких-либо инвестиций. Редакция проекта и авторы текстов не несут ответственности за возможные убытки, связанные с использованием содержащейся на страницах портала bankmib.ru информации. Финансовое инвестирование сопряжено с повышенным риском, в связи с чем инвесторам необходимо провести самостоятельный анализ ситуации и объектов инвестирования перед вложением средств.