Эффективная методика поиска в Интернете с применением поисковых машин

Резюме серии статей С.Белецкого ( http://s7.da.ru ), опубликованных в журнале «Мир Internet» №№ 5, 6-7, 9 и 10 за 2001 год. Перепечатывается с сокращениями с любезного согласия автора и издательства «Питер»*

Существующие системы поиска позволяют забираться в самые отдаленные уголки Интернета. Не ограничивайтесь простейшими приемами – в деле поиска есть огромный простор для творчества. Поисковые службы порой позволяют буквально творить чудеса, но в полную силу используют их возможности лишь несколько процентов пользователей Сети. Причина в том, что средний посетитель Сети сейчас менее квалифицирован, чем несколько лет назад, и не слишком грамотно пользуется поисковыми службами.

Попробуем повысить свою поисковую квалификацию.

Допустим, вам требуется найти утилиту для замедления скорости вращения привода CD-ROM.

Лишь совсем неопытный пользователь отправит на поиск одинокое «CD-ROM» или «утилита CD-ROM». Несколько тысяч ссылок гарантировано. Одна простая рекомендация по составлению запроса, неочевидная, к сожалению, даже некоторым пользователям Интернета со стажем: чтобы увеличить процент полезной информации на выходе, нужно использовать много ключевых слов. Попробуем «утилита для понижения скорости вращения привода CD-ROM» и поисковая система выдает всего полтора десятка ссылок, и уже на первой странице мы находим то, что искали. Кстати, такое примитивное увеличение количества ключевых слов гораздо действеннее, чем может показаться на первый взгляд. Например, сочетания «восстановление поцарапанного CD-диска», «технические характеристики танка Т-34» и «центральный защитник мадридского “Реала” » тоже оказались удачными решениями.

Оператор логического «И»

Взять кусок мрамора и отсечь все лишнее – вот рецепт создания совершенной скульптуры. Отыскание нужной информации в Интернете подчиняется сходному принципу. Важно не отсечь лишнее. Вспомним, что большинство поисковых сервисов работает с ключевыми словами, используя оператор логического «И».

Поэтому, когда мы запрашивали «утилиту для понижения скорости вращения привода CD-ROM», ссылки на «программы для понижения скорости» в результат запроса не попали. Не попали также ссылки на страницы, где «привод» CD-ROM назван «устройством». То есть мрамора было отсечено много! Оно бы и не страшно, но обнаруженная ссылка на программу CDSpeed фирмы ASUS для моего привода не годилась. Тогда был применен прием поиска конкурентов.

Различные компьютерные издания и обозреватели, описывая эту утилиту, не преминут сравнить ее с конкурирующими продуктами. Итак, набираем в строке поиска «CDSpeed ASUS» и уже на первой странице (кстати, если в результате поиска ссылка оказывается не на первой странице, скорее всего, запрос составлен не слишком удачно) получаем две ссылки на нужные ресурсы.

О конкурентах и неочевидных ключевых словах

Пришлось как-то разыскивать в Сети информацию о писателе Вячеславе Рыбакове. Фамилия не из редких, и даже добавление более редкого имени не спасало от множества нерелевантных ссылок в результате поиска. Хотелось захватить информации побольше, поэтому не стоило слишком множить ключевые слова. Подумал и добавил еще слово «писатель». Это немного помогло: из результата запроса пропали «домики рыбаков» и иже с ними. Потом еще подумал – слово «писатель» убрал и написал «критика». Результат оказался наилучшим.

То есть идея заключается в том, чтобы при поиске использовать ключевые слова, характерные для сайтов того типа, который вы ищете. Например, странички хакеров можно обнаружить по характерному сленгу. Скажем, по ключевым словам «прога, пароль, юзер»).

Итак, подытожим:

  • чтобы отсечь ненужные ссылки в результате поиска, используйте несколько ключевых слов;
  • полезно использовать в запросе необычные слова, характерные для того типа сайтов, который вы ищете (например, сленг), или названия конкурирующих фирм, продуктов.

О чем стоит помнить

Нужно помнить, что значительная часть информации в Интернете – недостоверна. Вы можете найти страничку с врачебными советами за подписью академика или главного врача крупной больницы, которые на самом деле будут написаны подростком. Вы можете прочитать в выпуске новостей о событиях, которые никогда не происходили в реальности. Вы можете попасть в сетевой магазин известной фирмы, который на самом деле попросту скопирован с настоящего – с той лишь разницей, что, послав свои деньги, вы никогда не увидите заказанного товара. Всех возможностей обмана и дезинформации просто не перечислишь. Кроме того, масса технической информации в Сети публикуется дилетантами, не разбирающимися в том, о чем они пишут. Что из этого следует? Очевидно то, что к найденной в Сети информации надо относиться крайне осторожно. По возможности, проверять и перепроверять ее, стараясь найти подтверждение в бумажных изданиях, добраться до первоисточника информации либо, по меньшей мере, найти второй – независимый от первого – источник (а по возможности и третий, и четвертый).

Сужение поля поиска

Обычно поисковые машины действуют следующим образом. Если в строке поиска введено слово, например, Apollo, то результатом будет множество всех страниц, содержащих это слово. AltaVista (www.altavista.com) знает примерно 750 тыс. таких страниц на английском языке. Страниц, содержащих слово mission, почти в 10 раз больше – 7,5 млн. Но если ввести эти слова вместе: Apollo mission, – то в первом приближении можно считать, что будет построено пересечение этих двух множеств и в нем окажется «всего» 14 тыс. страниц. Поиск сузился в 500–5000 раз.

Но не будем чрезмерно упрощать положение дел. Задав искомые слова в обратном порядке: mission Apollo, – мы получим 23,5 тыс. ссылок. Так что на самом деле простой поиск не так-то и прост.

Что должно находиться в строке поиска? Очевидно, хотя бы одно ключевое слово. А может ли там находиться что-то кроме ключевых слов? Оказывается, может.

Не все поисковые машины понимают слова OR и AND как логические операторы. Иногда оператор «И» обозначается как &, а «ИЛИ» как |. Многие поисковые машины (например, «Апорт» и Rambler) разрешают использовать обе нотации. Некоторые имеют собственный язык запросов (Яndex). Со списком логических операторов можно ознакомиться в справке, ссылка на которую всегда есть на главной странице.

Круглые скобки

Допустим, вы набрали в строке поиска

помиловать OR казнить AND нельзя

В каком порядке будут выполняться операторы? Тот, кто знаком с программированием, знает, что оператор AND действует первым. То есть по такому запросу будут найдены документы, содержащие слова «казнить» и «нельзя» в разных их формах, а также документы с «помиловать» (слово может быть одно или в сочетании с «казнить», или с «нельзя», или с «казнить» и «нельзя» вместе). Но допустим, что вы ищете не документы, связанные с помилованием или с отменой смертной казни, а те ситуации, когда нельзя ни казнить, ни помиловать. То есть в запросе первым должен выполниться оператор «ИЛИ». Изменение приоритета операций достигается постановкой круглых скобок:

(помиловать OR казнить) AND нельзя.

Как упоминалось выше, для большинства поисковых машин AND можно опустить:

(помиловать OR казнить) нельзя.

Скобки могут встречаться в запросе многократно и могут быть вложенными.

Выводы:

  • Кроме ключевых слов в строке поиска можно использовать логические операторы, обычно обозначаемые AND, OR и NOT.
  • Части запроса можно сгруппировать при помощи круглых скобок.
  • Оператор OR используется, чтобы охватить как можно больше нужных сочетаний, используя синонимы слов.
  • Оператор NOT полезен, когда в результатах запроса много посторонних документов, содержащих характерное слово или несколько слов.
  • Кавычки используются при поиске документов, содержащих характерную фразу или словосочетание.

Большинство поисковых машин по умолчанию между словами в запросе предполагают оператор логического «И» (AND) и, следовательно, возвращают документы, в которых есть все слова из запроса. Ну, а если вам достаточно, чтобы в документе содержалось хотя бы одно из слов в строке запроса? Тогда используйте логическое «ИЛИ» (OR). Запрос будет выглядеть так: Слово1 OR Слово2. С оператором «И» такая же история: Слово1 AND Слово2. Зачем использовать AND, спросите вы, если поисковая машина его по умолчанию вставляет? Во-первых, уже говорилось, что не все машины используют логическое «И» по умолчанию. Во-вторых, в строке может находиться несколько операторов OR и AND, и это позволяет строить весьма замысловатые логические выражения, речь о которых пойдет дальше.

Оператор «ИЛИ»

Давайте разберем случаи, когда использование оператора «ИЛИ» помогает облегчить жизнь при поиске информации. Ранее мы упоминали, что, когда запрашивали «утилиту для понижения скорости вращения привода CD-ROM», ссылки на «программы для понижения скорости» в результат запроса не попали. Теперь это легко исправить, достаточно набрать в строке поиска «Апорта» (www.aport.ru):

(утилита OR программа) для понижения скорости вращения привода CD-ROM.

Общее количество ссылок, естественно, возросло, но и процент полезных среди них увеличился. Как видите, использование оператора OR полезно, когда вы пытаетесь охватить как можно больше нужных сочетаний слов, используя синонимы или близкие понятия. Например, желая выяснить через Интернет адреса петербургских заведений, в которых можно перекусить, вы можете написать «адрес Петербург ресторан» (без кавычек), и половина ссылок на первой странице окажутся полезными. Но вы можете написать и

адрес Петербург (ресторан OR бар OR кафе),

и уже практически все ссылки первой страницы будут вести на страницы с нужной информацией. Надо только помнить, что использование оператора «ИЛИ» ведет к увеличению числа ссылок, далеко не все из которых могут оказаться полезными.

Теперь попытаемся опробовать полученную информацию в реальных условиях поиска. Предположим, нам требуется найти сведения об украинских разработчиках shareware. Для разнообразия на этот раз используем машину Rambler (www.rambler.ru). Простой запрос

украинские разработчики shareware

дает 8 ссылок, из которых большая часть бесполезна. Попробуем использовать синонимы. Весьма маловероятно, чтобы разработчики shareware поименовали себя официально «разработчики из Украины» или пришлепнули к странице гордое «сделано в Украине», потому дополнение

(украинские OR Украина)

большого эффекта не приносит. Но и вреда тоже. Замечу, что слово «украинские» играет двойную роль, позволяя найти и украинских разработчиков, и программы с украинским интерфейсом. Очевидно, такие программы много чаще пишут в Украине, чем за ее пределами. Если бы нам потребовалось найти, скажем, израильских разработчиков shareware, содержимое скобок должно было бы выглядеть примерно так:

(израильские OR Израиль OR иврит).

Теперь о «разработчиках». Частенько они называют себя «авторами» и несколько реже «программистами». Поэтому мы построим второй фрагмент так:

(разработчики OR авторы OR программисты).

Наконец, «shareware». По-русски это называется «условно-бесплатное программное обеспечение». Чтобы не множить без необходимости ключевые слова, ограничимся «условно-бесплатным» – сочетание достаточно характерное. Далее, поскольку авторы программ не всегда пишут слова «shareware» и «условно-бесплатное» на своих страницах, боясь отпугнуть посетителей, предпочитающих бесплатный продукт, добавим в третьи скобки «утилита». Добавление слова «программа» неэффективно: слово слишком распространенное и официальное (например, «культурная программа») – в результаты запроса тут же попадает уйма проектов, не имеющих к программированию никакого отношения. Наконец, в скобки можно добавить слово «freeware», поскольку часто разработчики freeware являются по совместительству разработчиками shareware. В результате скобки выглядят так:

( условно - бесплатное OR shareware OR утилиты OR freeware),

а полная строка:

(украинские OR Украина) (разработчики OR авторы OR программисты) (условно-бесплатное OR shareware OR утилиты OR freeware).

Можете сами убедиться, что результат намного лучше, чем при первом незатейливом запросе.

Оператор «НЕ»

Список логических операторов будет неполным, если не упомянуть об операторе «НЕ» (NOT). По запросу в строке «никогда NOT говори» (без кавычек) поисковая машина вернет список сайтов, в которых присутствует слово «никогда» и не содержится слово «говори» (во всех формах). Если же «запретных» слов несколько, то с запросами возникает неопределенность. Так, чтобы получить документы, где присутствует упоминание о хищной рыбе, но не упоминаются «щука» и «форель», в Rambler’e следует написать

рыба хищная NOT (форель OR щука),

а в «Апорте»

рыба хищная NOT форель NOT щука.

Самое неприятное, что эти тонкости в справке не описаны. В справке Rambler не указано даже, что поисковая машина умеет работать с оператором «НЕ».

Обратимся еще раз к примеру с «разработчиками shareware». На наш последний запрос Rambler вернет ссылки на сайты разработчиков, на архивы ПО, на сайты компьютерных журналов. Кроме того, в результаты поиска попадут сборники ссылок на «крэки» к программам. Попытаемся отфильтровать эти сборники. Проблема состоит в том, что «крэки» могут называться «кряками» или еще как-то. В связи с этим вспомним правило из прошлой статьи: при поиске нужно использовать слово, характерное для того типа сайта, который следует найти. Вспомним, что часто на сайтах с «крэками» располагаются по совместительству сонмы рефератов и музыки MP3. Поэтому эта уточняющая часть запроса может выглядеть так:

NOT ( крэк OR кряк OR реферат ).

А вот «mp3» сюда добавлять нельзя – иначе мы отфильтруем утилиты, написанные для работы с этим форматом. Запрос во всей красе выглядит так:

(украинские OR Украина) (разработчики OR авторы OR программисты) (условно-бесплатное OR shareware OR утилиты OR freeware) NOT (крэк OR кряк OR реферат).

Последнее добавление позволяет отбросить немало ненужных ссылок.

Использование кавычек

Регулярно на протяжении статьи, когда приводился пример очередного запроса, указывалось – «без кавычек». А причина в том, что информацию, заключенную в кавычки, поисковые машины не разбивают на слова и ищет сразу все сочетание. Правда, ищут они его по-разному. Например, Rambler и Яndex (www.yandex.ru) ищут закавыченную фразу «как есть», а вот «Апорт» всего лишь сохраняет последовательность слов, но ищет все их формы. Например, при вводе в строке поиска «дерни за веревочку» первые две поисковые машины вернут ссылки на документы, которые содержат точно такую фразу, а «Апорт» сошлется и на страницы, в которых присутствует «дергать за веревочки» и т. п. Однако страницы с «дерни за тонкую веревочку» или «за веревочку дерни» проигнорируют все поисковые машины.

Прием «отсечение»

До сих пор мы пытались составить запрос так, чтобы сразу получить нужную нам информацию. Но так, «с налету», обнаружить нужную ссылку удается не всегда. В некоторых случаях поисковая машина возвращает множество ссылок, и нужные теряются в их обилии. А какие дополнительные ключевые слова использовать, чтобы сузить область поиска, сразу непонятно. В этом случае придумать нужные ключевые слова помогают уже найденные ссылки.

Например, нам требуется найти биографию писательницы Жорж Санд. Попробуем использовать Rambler (www.rambler.ru) и отправим запрос «Жорж Санд биография». Ссылок находится несколько десятков, но дельных среди них, похоже, нет. Зато мы узнаем, что Жорж Санд – псевдоним, а настоящее имя писательницы – Аврора, фамилия по мужу – Дюдеван. Это позволяет составить новый запрос: «Жорж Санд Аврора Дюдеван». Лучше: биографии в результатах поиска опять не видно, зато мы находим год рождения. Теперь можно уточнить третий запрос: «Жорж Санд Аврора Дюдеван 1804» – и получить ссылки на три подходящих документа.

Однако, незадача: эти две ссылки – статейки из двух абзацев, а самая многообещающая (www.booksite.ru/fulltext/bro/kga/brokefr/4/4184.htm – статья в энциклопедии Брокгауза и Ефрона) возвращает ошибку 404: «Документ с указанным Вами адресом на сервере отсутствует».

И все-таки шанс отыскать этот документ есть. Попробуем использовать метод усечения URL справа: будем отсекать по куску от адреса страницы, начиная справа, пока не попадем в точку, откуда сможем найти интересующий нас документ, либо пока не придем к корневой странице сервера и дальше усекать адрес уже будет невозможно.

Практически это выглядит так. Сначала попробуем заглянуть на страницу www.booksite.ru/fulltext/bro/kga/brokefr/4 – возможно, на ней окажутся ссылки на статьи из энциклопедии, а файл с нужной нам статьей просто переименовали. Не помогает. Теперь пробуем адрес www.booksite.ru/fulltext/bro/kga/brokefr и получаем знакомую ошибку 404. На очереди www. booksite.ru/fulltext/bro/kga – может быть, директория с энциклопедией теперь называется иначе (например, «brok_efr») и здесь мы найдем ссылку на нее. Не выходит.

И так далее, убираем из адреса директорию за директорией и, к сожалению, все время натыкаемся на ошибку 404. Но вот, наконец, когда пишем просто адрес сервера: www.booksite.ru, мы попадаем на главную страницу Вологодской областной библиотеки.

Дальше дело техники: следуем в раздел «Полнотекстовая библиотека», а затем в «Алфавитный список», где и обнаруживаем ссылку на главную страницу энциклопедии. Кстати, путь к этой странице очень напоминает путь, который нам выдала поисковая машина. Только адрес сервера другой. Похоже, энциклопедия просто переместилась на другой сервер, а дерево директорий осталось прежним. Значит, нам нет необходимости дальше переходить от одной www-ссылки к другой, а можно просто написать новый адрес, изменив только имя сервера: 193.223.132.202/fulltext/bro/kga/brokefr/4/4184.htm, и получить вожделенную статью.

Метод усечения URL справа не всегда позволяет найти искомую страницу (может статься, что ее больше нет на этом сервере, и даже ссылок на нее не осталось), но нередко бывает очень полезен.

В условиях неопределенности

Иногда об объекте поиска почти ничего не известно. Допустим, вам нужно найти возраст главы компании, произведшей игру Ultima Online. Но вы больше ничего не знаете об этой компании, тем более – о ее главе.

Для начала используем русскую машину (например, Rambler) и введем: «разработчик Ultima Online». Мы выясняем, что это компания Origin. Вводим «президент Origin», узнаем, что его имя Джек Хейстен и что в свое время он «объявил о разработке проектов на основе мира Privateer.». Ни проекты, ни название мира нам ни о чем не говорят, однако мы получаем характерное слово, которое поможет при дальнейшем поиске. Больше из Rambler ничего выжать не удается, но, раз компания зарубежная, имеет смысл поискать информацию по-английски, для чего обратимся к американскому поисковику Google (www.google.com).

По русской транскрипции «Хейстен» английское написание имени определить трудно. К счастью, с именем «Джек» проще, кроме того, мы знаем название компании и кое-что об анонсе, который делал глава Origin. Вводим «Origin Jack Privateer» и узнаем, что фамилия главы Origin – Heistand, а более точное название компании – Origin Systems. Документ, полученный Rambler, датирован весной прошлого года, так что хотелось бы знать, на посту ли еще Jack Heistand? Набираем «Jack Heistand «Origin Systems»» и уже в одном из первых полученных документов находим подтверждение: да, на посту. Кроме этого, обнаруживаем адрес Web -сайта компании. Однако поиски не окончены, поскольку на сайте нужной информации не находится. Ничего, снова используем Google. Поищем биографию сего замечательного исполнительного директора Origin Systems. Поскольку биография его может быть в списке биографий других не менее замечательных людей, составим запрос так: «Jack Heistand (biogrpaphy OR biographies)» – и получаем нужную ссылку на первой странице.

Итак, подытожим:

  • Если первый запрос не достигает цели, используйте полученные документы, чтобы подобрать ключевые слова для более точного запроса.
  • Если сервер возвращает ошибку 404, попробуйте метод усечения URL справа.
  • Если не нашли русскоязычной поисковой машиной, попробуйте поискать англоязычной.

Тематические базы данных

Порой трудно разграничить специализированные поисковые машины и тематические базы данных с Web-интерфейсом, например, коллекции авторефератов, изображений или публикаций СМИ.

Между тем конвергенция этих инструментов не случайна. В обоих случаях область поиска в значительной мере определяется человеком, который управляет работой поискового механизма (например, редактором базы данных), а присутствие поля ввода поискового запроса подразумевает, что пользователю требуется инструмент поиска более гибкий, чем дерево каталога.

Где же найти базы данных, которые облегчают жизнь и нужны уже сегодня? Списков ссылок на подобные русские ресурсы пока найти не удалось, а вот на англоязычные – пожалуйста.

  • www.searchengineguide.com/searchengines.html – более тысячи ссылок на тематические поисковики, ссылки разбиты по категориям;
  • www.allsearchengines.com – несколько сотен ссылок на тематические поисковики;
  • http://www.profusion.com – еще более четырех сотен ссылок на поисковые машины;
  • www.searchenginewatch.com – здесь больше сотни ссылок, часть дублирует ссылки из предыдущих списков, часть – оригинальные.

Поисковые интерфейсы к большинству баз данных очень просты и состоят из единственной строчки ввода. Как правило, большего и не требуется. И все-таки иногда попадаются интерфейсы посложнее.

Например, на сайте http://adsabs.harvard.edu/abstract_service.html расположена база данных рефератов статей по астрономии. Здесь можно задать множество дополнительных критериев поиска: временной интервал публикации, слова в заголовке, в самом тексте абстракта – и выбрать, как связывать эти слова (логическим «и» или «или»). Можно искать только в некоторых журналах из базы и задать множество других условий. Вряд ли интерфейсы с таким количеством настроек станут очень популярными – слишком уж сложны для массового пользователя. Однако для научной среды это – очень полезный инструмент.

Итак, базы данных с Web-интерфейсом уже сегодня стали полезным инструментом поиска, причем некоторые из них (архивы СМИ, библиотеки программ) организованы так, что доступны универсальным поисковикам.

Остается только отметить, что большая часть баз данных в Интернете ориентирована на специалистов в узкой области. В общем и целом, поиск в тематических базах данных занял свою нишу в Internet-поиске, но ниша эта весьма невелика. Хотя в некоторых случаях нужная информация может быть получена только с помощью специализированных баз данных, их популярность несравнима с популярностью каталогов и универсальных поисковых машин.

* ООО «Питер Принт» http://www.piter.com Продукцию издательства «Питер» можно приобрести в магазинах, заказать на сайте www.piter.com, или по адресу 197198, С.-Петербург, а/я 619

 




 
Глобальные Технологии
работает на NetCat
Дата-центр в Москве с развитой инфраструктурой и квалифицированным персоналом.