Суббота
19.07.2025
19:37
Категории раздела
Мои статьи [1]
Все статьи, которые написаны мной, администратором сайта, известный также в интернете под псевдонимом Peter-Star.
Поиск по сайту
Наш опрос
Стоит ли сайт оформить при помощи другой CMS?
Всего ответов: 30
Форма входа
Мини-чат

Битая ссылка, а вам это нужно? Пиши ниже, не забыв указать ссылку на страницу и материал!

Друзья сайта
  • "09КЗОИ" - наши последователи
  • РЕКЛАМА

    Здесь могла бы быть ваша реклама.

    Статистика

    Онлайн всего: 1
    Гостей: 1
    Пользователей: 0

    Always keep calm.

    Каталог статей

    Главная » Статьи » Мои статьи

    Поисковый язык запросов

    1 Введение

    2 Процесс поиска. Основные поисковые машины

    3 Язык поисковых запросов

    4 Применение языка запросов

    5 Вместо заключения




    1 Введение

    Вернуться в начало страницы

    Книги, журналы, радио, телевидение, отдельные компьютерные базы данных просто не в состоянии конкурировать с Интернетом. В сети есть практически всё перечисленное и значительное количество той информации, которой просто нигде больше нет.

    Являются ли открытые информационные источники Интернета панацеей от всех проблем? Конечно же нет. Однако можно смело утверждать, что грамотное использование ресурсов Интернета, конечно же, полезно. Часто это позволяет выиграть в скорости, стоимости и качестве подготовки решений. Некоторые работы просто невозможно выполнить, не используя интернет...

    Основными задачами любой поисковой системы Интернета являются поиск, индексирование, хранение и выдача требуемой пользователю информации. Решение каждой задачи сопровождается определенными трудностями. С проблемами, возникающими в процессе поиска и индексирования информации, современные поисковые системы справляются довольно-таки хорошо. Например, у Яндекса на сегодняшний день больше шести типов индексирующих роботов, регулярно собирающих информацию с более чем миллиарда интернет-страниц для более релевантной выдачи под поисковые запросы; высокая частота индексации позволяет поддерживать на должном уровне актуальность проиндексированных документов. Процесс индексирования, основанный на принципе инвертированных файлов и использующий к тому же алгоритмы сжатия, позволяет хранить собранную информацию в индексной базе, которая с успехом помещается на небольшом количестве серверов.


    2 Процесс поиска. Основные поисковые машины

    Вернуться в начало страницы

    Проблема поиска нужной пользователю информации на данный момент пока решена не полностью. И дело даже не в низкой культуре пользовательского языка запросов. В первую очередь, несовершенен алгоритм оценки релевантности найденных документов, также не до конца разработанным является поисковый интерфейс. (Под "поисковым интерфейсом" будем подразумевать некоторую программную оболочку, которая преобразует запрос пользователя в запрос на выборку данных непосредственно из индексной базы поисковой системы).

    Каким же образом устроен поиск в поисковых системах, никто, кроме самих работников, в точности не знает, однако в общих чертах его можно представить так:

    Сначала в течение нескольких дней индексирующие роботы пополняют информационную базу системы, передавая текстовое содержимое интернет-страничек, а также вспомогательную информацию об этом содержимом. Если же создать сайт и его не прописать в поисковой машине, то его просто там не будет. А это значит, что пользователь не сможет просмотреть содержание интернет-страничек.

    На втором этапе на основе данных, собранных роботом, и данных о ссылающихся на сайт происходит расчет релевантности каждого документа по каждому встречающемуся в нем слову. В основном по количеству встречаемых слов. Чем чаще они встречаются, тем лучше. Однако большинство машин кроме числа слов обращают внимание на их место расположения. Более значимыми будут те, что встречаются в заголовках и в различных ссылках. Им будет отдаваться больший приоритет, нежели чем обычным словам в тексте. И, как правило, индексируют именно их.

    На третьем этапе – непосредственно поиске – интерфейс поисковой системы преобразует введенные пользователем слова в запрос к базе данных, но не той, которая была сформирована при индексировании, а другой - образованной в результате расчета релевантности! Ее еще называют "кэшем". Термин "апдейт в выдаче", столь распространенный в среде оптимизаторов, как раз и обозначает пересчет данных в кэше – как следствие, изменяется и выдача поисковой системы по запросу.

    Если запрос состоит из нескольких слов, то он в кэше поисковой системы не хранится. В этом случае по каждому из слов запроса находится определенное количество релевантных документов (порядка нескольких тысяч), затем с помощью операторов математической логики (например, логическое "И", "ИЛИ") происходит выбор самых релевантных документов по всем словам запроса.

    Сама же релевантность рассчитывается по-разному. В большинстве случаев это зависит от поисковой машины и её спецификации. При расчёте релевантности учитываются результат индексирования страниц, количество посетителей за определённый срок и "человеческий фактор". "Человеческий фактор" - это нечто иное... Скажем человек заплатил денюшку работникам поисковой системы (как правило, руководству) и его сайт в кэше стал занимать более высокое положение. Так сказать, увеличивается вероятность посещения большего числа "гостей" (о важности числа посетителей как-нибудь позже). Или использование "дарвеев" (называется и пишется по-разному), то есть накручивание счётчика посещаемости при помощи программного средства. Но с этим поисковые системы пытаются бороться...

    Это упрощённое описание алгоритма поиска, на самом деле все сложнее: существует большое количество различных дополнительных фильтров, позволяющих уменьшить количество расчетов и повысить скорость. Например, для уменьшения количества терминов, по которым будет производиться расчет релевантности определенного документа, уже в процессе индексировании документа может составляться его некий "поисковый образ" – набор слов, описывающих содержание. Далее расчет будет производиться только по этим "характеризующим" терминам.

    В настоящее время в российских ресурсах действует довольно много поисковых машин. Есть фирменные и даже индивидуальные сайты, которые содержат формы поиска. Наиболее распространенные из них: yandex.ru, rambler.ru, yahoo.ru, altavista.ru.

    Следующее – это специализация поисковых машин. Так top100 относится к машинам специализированного типа и предназначена для поиска технических элементов компьютеров и справок по ним. Поисковые машины yandex.ru, rambler.ru, yahoo.ru относятся к группе общего назначения. Именно с них следует начать поиск в Интернете. Причем поисковая система km.ru используется для поиска в различных энциклопедиях и учебных пособиях, вышедших после 1990 года. AltaVista – коммерческая поисковая машина, Google – новости. На машинах Fast, Инфоарт, ИППИ РАН, Русский интернет и Аппорт! можно найти информацию, связанную с куплей-продажей.


    3 Язык поисковых запросов

    Вернуться в начало страницы

    При поиске информации уже на этапе анализа запроса пользователя возникают некоторые проблемы. Стоит заметить, они касаются не только одного поиска, но частично и процесса индексирования тоже...

    Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать различные знаки препинания. Составлять самые простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова, причем если они находятся на ограниченном расстоянии друг от друга. Однако знание и правильное применение языка запросов поисковой машины поможет сделать Ваш поиск быстрым и эффективным.

    Регистр

    В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть слова "дом", "Дом", "доМ" и "ДОМ" - все будут восприниматься одинаково. Это полностью касается и латиницы. Так, "Not" и "nOt" и даже "noT", "not" и "NOT" все они для поиска одинаковы. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.

    Так, если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному и автоматически производится изменение ограничения расстояния между словами запроса со значением по умолчанию на величину (n-1)*2, где n – количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного "лишнего" слова или знака препинания, например: "М.Лермонтов", "Баден-Баден", "Шарль де Костер", "Федор Михайлович Достоевский" и т.п.

    Операторы

    Современные поисковые машины используют операторы для поиска в компьютерных сетях. Под операторами здесь понимается инструкция поиска. По этой причине запрос, включающий несколько слов, может содержать операторы. Поиск указанных операторов в документе не производится. Они служат лишь инструкцией поисковой машине. По этой причине они имеют свою биографию и синтаксис. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.

    Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы , которые одновременно удовлетворяют обоим этим запросам. Иными словами, "самолеты AND авиация" найдутся только те документы, которые содержат и слово "самолеты", и слово "авиация" одновременно. Если эти слова встретятся в текстах отдельно, поисковая машина Вам эти тексты не покажет. Контрольная проверка может быть осуществлена по логике фразы : "И ТО И ДРУГОЕ".

    Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу "самолеты OR авиация" найдутся документы, в которых есть хотя бы одно из этих двух слов, или либо оба эти слова вместе. Логическая контрольная проверка может быть осуществлена по фразе : "ИЛИ ТО ИЛИ ДРУГОЕ, ИЛИ ОБА ВМЕСТЕ".

    Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так результатом поиска по запросу "самолеты NOT авиация" будут показаны все документы, в которых есть слово "самолеты" и при этом в данном документе отсутствует слово авиация. Контрольная логическая проверка может быть осуществлена по фразе : "ПЕРВОЕ, НО ТОЛЬКО БЕЗ ВТОРОГО".

    Обратите внимание! Если оператор явно не указан, используется оператор по умолчанию AND: находятся только документы, содержащие все слова запроса. Так запрос "информация школа успеваемость" будет истолкован как "информация AND школа AND успеваемость". На странице Расширенного поиска оператор по умолчанию может заменить на OR (Искать слова запроса : хотя бы одно).

    Каждый из операторов имеет своё сокращенное обозначение, соответствие их приведено в таблице :


    ОператорСокращенное обозначение
    AND &
    OR |
    NOT !

    Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируются по операторам AND и NOT, и лишь потом по операторам OR. (Вспомните, для примера , приоритеты арифметических действий. Так знаки "*" и "/" имеют равный приоритет, но больший чем знаки "+" и "-" ). Изменить порядок группировки можно, как и в математике, используя скобки.

    Скобки

    При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Как правило, в большинстве поисковых машин используют только скобки вида ().

    Часть запроса, заключенная в скобки, сама является запросом, и на неё распространяются все правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

    Если запрос был задан без скобок, например : "машина самолет | аэродром" , он эквивалентен запросу "машина AND самолет OR аэродром" и в соответствии с приоритетами операторов, обозначает "найти документы, содержащие либо слова "машина" и "самолет" в одном документе, либо найти в нем слово "аэродром". В то время как запрос со скобками "машина (самолет | аэродром)" равносилен запросу "машина AND (самолет OR аэродром)", что означает "найти документы, содержащие слово "машина" и одно из слов "самолет" или "аэродром".

    Кавычки

    Для поиска цитат можно использовать типовые (двойные) кавычки, вида « или ". Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том виде и в том порядке, как они были заданы Вами в запросе.

    Таким образом, двойные кавычки, можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу : "теплоход "причалил" посадка" удовлетворяет документ, содержащий текст "...теплоход причалил для осуществления посадки пассажиров … ", и не удовлетворяют документам: с "... теплоход причалился для посадки пассажиров … " , или "... теплоход был причален и на него была проведена посадка пассажиров … ".

    Метасимволы

    Далеко не всякая поисковая машина может поддерживать поиск строк с использованием метасимволов ( "*", "?"), которые обычно используются в значении "любая подстрока" и "произвольный (любой) одиночный символ" соответственно. Тем не менее, эти операторы нередко бывают зарезервированы для подобного использования в будущем. Например, на поисковой машине www.mail.ru.


    4 Применение языка запросов

    Вернуться в начало страницы

    Каждый запрос, адресованный поисковой машине , обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске - каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют. Например, запросу "самолет" удовлетворяют все документы, в которых хотя раз встретилось слово "самолет" в любой форме, включая и множественное число : самолет, самолеты, самолету, самолетом, самолете, самолетах, самолетам и т.п. Запросу, состоящему из нескольких слов, удовлетворяют документы, содержащие каждое из этих слов в любой форме (при некоторых условиях). Вопрос соответствия документа более сложному запросу определяется логикой операторов и конструкций запроса.

    Морфология

    По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Поисковая машина понимает и различает слова русского и английского языков – по умолчанию, поиск ведется по всем формам слова.

    Например, при поиске по слову "человек" будут также найдены документы, содержащие слова "о человеке", "человеку", "человеком", "человека" и, что очень важно даже слова "люди", "людям", "людей". Чтобы провести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске.

    Омонимия

    Омонимия – явление в русском языке, когда слова одинаково звучат, но имеют разный смысл. Поисковая система, конечно же, не знает, что хочет от него пользователь. Поэтому если Вы захотели, например, найти описания и фотографии замков и ввели однословный запрос "зáмки", то на самом деле в выдаче Вы получите в основном сайты, посвященные "замкáм", просто потому, что эти сайты так ли иначе оптимизируются под поисковые системы и оказываются релевантнее. В данном случае для того, чтобы найти нужную информацию, надо было просто ввести запрос "фотографии замков".

    Стоп-слова

    Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые стоп–слова – самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Присутствие этих слов может замедлить поиск и отрицательно повлиять на результат и его полноту. Есть возможность обозначить необходимость этих слов в запросе, взяв запрос в двойные кавычки или воспользовавшись поиском точной фразы в расширенном поиске.

    Ограничения расстояния

    Если запрос составлен из нескольких слов без применения операторов и конструкции языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста – положительное число. При умолчанию принимается расстояние равное 40 словам. Документ, в котором встречались все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу "российская армия" будут найдены те документы, в которых слова "российская" и "армия" хотя бы один раз встретятся менее в чем в 40 словах друг от друга.

    Значение ограничения контекста можно изменять конструкцией "(число, запрос)", где число - любое положительное число, запрос - любой корректный с точки зрения поисковой машины, запрос, состоящий более чем из одного слова ( очевидно, ограничение расстояния между словами в случае однословного запроса не имеет смысла). Таким образом, по запросу "( 2, армии НАТО)" найдутся только те документы, в которых между словами "НАТО" и "армии" хотя бы раз не стоит не одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2, т. е. равна 1).

    Ненайденные слова

    Если запрос состоит из нескольких слов, и при этом подобный комплекс вообще не удалось найти в Интернете, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Интернете слова исключены. При этом на странице результатов поиска будет выведена соответствующая диагностика.

    Расширенный поиск

    Дает довольно много дополнительных возможностей уточненного поиска. Имеется возможность использования целого ряда дополнительных инструкций. Ввод их производится в соответствующие поля поиска.

      Форма расширенного поиска дает возможность :

    • задавать дополнительные параметры поиска;
    • редактировать параметры поиска и поля, заданные по умолчанию;
    • выбирать наиболее удобную форму показа результатов поиска.

      Поиск по тексту...

    • всего документа – поиск осуществляется по всему документу, включая его название и заголовки; включено по умолчанию;
    • названия – учитываются только названия документов (тег title);
    • заголовков – учитываются только заголовки документов (теги h1, h2, h3, h4).

      Искать слова запроса …

    • все ("и") – документ находится только в том случае, если в нем присутствуют все слова запроса; включено по умолчанию;
    • хотя бы одно ("или") – документ находится, если в нем встретилось хотя бы одно слово из запроса;
    • точную фразу – документ находится если в нем встретились все слова запроса, причем в том же порядке и в тех же формах что и в запросе; выбор этой опции равнозначен заключению запроса в двойные кавычки.

      Расстояние между словами запроса …

    • ограничивать – расстояние между словами из запроса в тексте документа не должно быть слишком большим; включено по умолчанию, поскольку повышает точность поиска;
    • не ограничивать - расстояние между словами не играет роли; будут найдены все документы, содержащие слова запроса, вне зависимости от того, на каком расстоянии друг от друга они находятся.

    Исключить документы, содержащие следующие слова …

    из списка найденного исключаются те документы, в которых есть слова, перечисленные в этом поле.

      Язык документа …

    • любой – находятся любые документы, независимо от языка; включено по умолчанию;
    • русский – поиск только по "русскоязычным" (кириллическим) документам;
    • английский - поиск только по "англоязычным" документам (набранным латиницей).

    Дата документа …

    Позволяет отбирать только те документы, дата создания которых укладывается в заданный диапазон. В частности, можно ограничить выдачу только "новыми" ( начиная с указанной даты) или "старыми" документами (до указанной даты). Все даты задаются в формате день/месяц/год, например, 19/05/2002. По умолчанию находятся любые документы, вне зависимости от даты. Внимание: если сервер не возвращает даты документа, то в качестве таковой проставляется дата индексирования (день, когда документ был считан "пауком").

    Искать документы только на следующих сайтах …

    позволяет отбирать только те документы, которые найдены на указанных сайтах. Под сайтом понимается либо уникальное DNS – имя (домен ), либо DNS – имя с каталогом первого уровня, начинающимся с тильды. Например: Top 100.rambler.ru, www.lenta.ru, www.hosting.ua/~name - но это не может быть www.rambler.ru/domains/.

    Можно указать несколько сайтов через запятые. По умолчанию в поиске участвуют документы во всех проиндексированных сайтов.


    5 Вместо заключения

    Вернуться в начало страницы

    Конечно, знание поискового языка запросов позволяет вести поиск эффективно. Однако не каждый его станет применять по той лишь причине, что ему легче перефразировать несколько раз свой запрос или обратиться к другу, который в этом деле "шарит".

    Но даже эти знания не избавляют нас от "мусора", который сплошь и рядом встречается в интернете. Казалось бы, проще изобрести "идеальный" поисковик и дело с концом. Технологий и идей много, но в каждой есть свой изъян. С другой стороны, чего только люди не делают, чтобы посетитель зашёл в обязательном порядке на их сайт...

    Напрашивается простой вывод: информацию нужно отсеять и как следует.

    В идеале, конечно, можно поисковикам создать специальную форму, например, в виде опроса: какая страница или страницы помогли вам. Или что-то в этом роде. Смысл в том, чтобы посетители сами бы отмечали нужную для себя информацию. И при запросе другого пользователя этот бы параметр учитывался. А для надёжности информация проверялась бы ещё и человеком, работающим в организации поисковой системы. Это делается для того, чтобы отсеять "рекламщиков" (а по другому их и не назовёшь) и "страничек-пустышек".

    Реклама в идеале была бы в виде контекстной рекламы, чтобы не была навязчивой.

    А для простых пользователей можно было бы ввести ячейку под названием "комментарий к запросу", чтобы поисковик мог лучше найти информацию, т. е. действительно нужную. Да, если применять методы эффективного поиска, то эта колонка может и не понадобиться. Но она нужна для удобства простого пользователя. Так сказать, чтобы меньше ему думать над формулировкой запроса для поиска.


    Удачи ВАМ! И помните: ищущий всегда найдёт...

    Вернуться в начало страницы



    Источник: http://poiskinnet.narod.ru/jazik.html
    Категория: Мои статьи | Добавил: Peter-Star (29.07.2009)
    Просмотров: 7869 | Рейтинг: 4.3/3 |
    Всего комментариев: 0
    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]