ИИ переосмысляет браузер: прелюдия к третьей войне браузеров
Третья война браузеров тихо разворачивается. Оглядываясь назад, можно увидеть, что с 90-х годов прошлого века, с Netscape и Internet Explorer от Microsoft, до духа открытого кода Firefox и Google Chrome, борьба браузеров всегда была ярким отражением контроля над платформами и изменения технических парадигм. Chrome завоевал господствующее положение благодаря скорости обновления и экосистемной интеграции, в то время как Google сформировал замкнутый круг входа в информацию через "двойной олигархат" структуры поиска и браузера.
Но сегодня эта структура начинает колебаться. Появление крупных языковых моделей (LLM) приводит к тому, что все больше пользователей выполняют задачи на странице результатов поиска без кликов, что снижает традиционное поведение кликов по веб-страницам. В то же время слухи о том, что Apple может заменить поисковую систему по умолчанию в Safari, дополнительно угрожают прибыльной основе Alphabet, и рынок уже начинает проявлять беспокойство по поводу "ортодоксального поиска".
Браузер сам также сталкивается с переосмыслением своей роли. Он уже не просто инструмент для отображения веб-страниц, а представляет собой контейнер, объединяющий множество возможностей, таких как ввод данных, поведение пользователей, конфиденциальность и идентичность. Несмотря на мощь AI Agent, для выполнения сложных интеракций на страницах, вызова локальных данных о пользователе и управления элементами веб-страниц все еще требуется опираться на доверительные границы и функциональные песочницы браузера. Браузер превращается из человеческого интерфейса в платформу системных вызовов для Агентов.
На самом деле, то, что действительно может разрушить текущую структуру рынка браузеров, это не другой "лучший Chrome", а новая структура взаимодействия: это не представление информации, а вызов задач. Будущие браузеры должны быть разработаны для AI Agent - они должны не только читать, но и писать и выполнять. Проекты, такие как Browser Use, пытаются семантизировать структуру страниц, превращая визуальный интерфейс в структурированный текст, который может быть вызван LLM, значительно снижая затраты на взаимодействие.
На рынке основные проекты уже начали тестировать новые идеи: Perplexity создает нативный браузер Comet, использующий ИИ для замены традиционных поисковых результатов; Brave объединяет защиту конфиденциальности и локальное рассуждение, усиливая функции поиска и блокировки с помощью LLM; в то время как такие крипто-ориентированные проекты, как Donut, нацелены на новые входные точки для взаимодействия ИИ и активов на блокчейне. Общая черта этих проектов заключается в том, что они пытаются реконструировать вводную часть браузера, а не улучшать его выходной уровень.
Для предпринимателей возможности скрыты в треугольных отношениях между вводом, структурой и агентом. Браузер как интерфейс для вызова мира будущего означает, что тот, кто может предоставить структурированные, вызываемые и надежные "блоки возможностей", станет частью нового поколения платформ. От SEO до AEO (оптимизация движка агента), от трафика страниц до вызова цепочек задач, формы продуктов и дизайнерское мышление находятся в процессе реконструкции. Третья война браузеров происходит в "вводе", а не в "демонстрации"; победу определяет не тот, кто привлекает внимание пользователей, а тот, кто завоевывает доверие агента и получает доступ к вызову.
История развития браузеров
В начале 90-х годов, когда интернет еще не стал частью повседневной жизни, Netscape Navigator появился на свет, словно парусник, открывающий новую землю, предоставив миллионам пользователей доступ в цифровой мир. Этот браузер не был первым, но стал первым по-настоящему массовым продуктом, формирующим опыт использования интернета. В то время люди впервые могли так легко просматривать веб-страницы через графический интерфейс, как будто весь мир внезапно стал доступен.
Однако слава часто бывает недолговечной. Microsoft вскоре осознала важность браузеров и решила принудительно интегрировать Internet Explorer в операционную систему Windows, сделав его браузером по умолчанию. Эта стратегия стала "убийственным приемом для платформы", который напрямую разрушил рыночное господство Netscape. Многие пользователи не выбирали IE активно, а просто принимали его, так как он был установлен по умолчанию в системе. IE благодаря возможностям распространения Windows быстро стал лидером отрасли, тогда как Netscape оказался на пути упадка.
В условиях кризиса инженеры Netscape выбрали радикальный и идеалистический путь - они открыли исходный код браузера и призвали к сообществу с открытым исходным кодом. Это решение стало своего рода "македонским отступлением" в технологической сфере, предвещая конец старой эпохи и восход новой силы. Этот код впоследствии стал основой проекта браузера Mozilla, изначально названного Phoenix (что означает "возрождение феникса"), но из-за проблем с торговой маркой несколько раз менял название, прежде чем окончательно стал Firefox.
Firefox не просто копирует Netscape, он достиг многого в области пользовательского опыта, экосистемы плагинов, безопасности и других аспектах. Его появление ознаменовало победу духа открытого программного обеспечения и вдохнуло новую жизнь в всю индустрию. Некоторые описывают Firefox как "духовного наследника" Netscape, как Османская империя унаследовала последние вспышки Византии. Хотя это сравнение и преувеличено, оно имеет глубокий смысл.
Но за несколько лет до официального релиза Firefox Microsoft уже выпустила шесть версий IE, благодаря преимуществу времени и стратегии пакетирования систем, что изначально поставило Firefox в положение догоняющего, что предопределило, что это соревнование не является честным соревнованием с равной стартовой линией.
В то же время на сцене тихо появляется другой ранний игрок. В 1994 году появился браузер Opera, который пришел из Норвегии и изначально был экспериментальным проектом. Но с версии 7.0 в 2003 году он внедрил собственный движок Presto, первым поддерживающий передовые технологии, такие как CSS, адаптивная верстка, голосовое управление и кодировка Unicode. Хотя количество пользователей было ограниченным, с технической точки зрения он всегда оставался на переднем крае отрасли и стал "любимцем гиков".
В том же году Apple выпустила браузер Safari. Это было знаковое событие. В то время Microsoft вложила 150 миллионов долларов в находящуюся на грани банкротства Apple, чтобы поддержать видимость конкуренции и избежать антимонопольного расследования. Хотя Google был поисковой системой по умолчанию с момента появления Safari, эта история с Microsoft символизирует сложные и тонкие отношения между интернет-гигантами: сотрудничество и конкуренция всегда идут рука об руку.
В 2007 году IE7 был выпущен вместе с Windows Vista, но реакция рынка была посредственной. В то же время Firefox, благодаря более быстрому темпу обновлений, более дружелюбной механике расширений и естественной привлекательности для разработчиков, стабильно увеличивал свою долю рынка до примерно 20%. Господство IE постепенно ослабевало, ветер перемен начинал дуть.
Google выбрала другой подход. Хотя с 2001 года компания начала разрабатывать свой собственный браузер, ей потребовалось шесть лет, чтобы убедить CEO Эрика Шмидта утвердить этот проект. Chrome был представлен в 2008 году и создан на основе проекта с открытым исходным кодом Chromium и движка WebKit, используемого Safari. Его прозвали "громоздким" браузером, но благодаря глубоким навыкам Google в области размещения рекламы и формирования бренда, он быстро стал популярным.
Ключевым оружием Chrome является не функции, а частота обновления версий (каждые шесть недель) и унифицированный опыт на всех платформах. В ноябре 2011 года Chrome впервые обошел Firefox, заняв 27% рынка; через шесть месяцев он снова обошел IE, завершив переход от соперника к властелину.
В то же время мобильный интернет в Китае также формирует свою экосистему. Браузер UC, принадлежащий одной компании, стремительно набрал популярность в начале 2010-х годов, особенно на таких развивающихся рынках, как Индия, Индонезия и Китай, благодаря легкому дизайну и сжатию данных для экономии трафика, что сделало его привлекательным для пользователей бюджетных устройств. В 2015 году его доля на мировом рынке мобильных браузеров превысила 17%, а в Индии достигала 46%. Но эта победа была недолговечной. С усилением индийским правительством проверки безопасности китайских приложений браузер UC был вынужден покинуть ключевой рынок и постепенно потерял былую славу.
Вступив в 2020-е годы, доминирование Chrome уже установлено, и его доля на мировом рынке стабильно составляет около 65%. Стоит отметить, что поисковая система Google и браузер Chrome, хотя и принадлежат Alphabet, с точки зрения рынка представляют собой две независимые гегемонистские системы - первая контролирует около 90% глобальных поисковых входов, в то время как вторая владеет "первым окном" для большинства пользователей в Интернет.
Чтобы сохранить эту двойную монопольную структуру, Google не жалеет денег. В 2022 году Alphabet заплатила Apple около 20 миллиардов долларов только для того, чтобы Google оставался по умолчанию в Safari. Аналитики отмечают, что эти расходы составляют 36% от доходов Google от поисковой рекламы, получаемых через трафик Safari. Иными словами, Google платит «защиту» для своей крепости.
Но ветер снова изменился. С ростом крупных языковых моделей (LLM) традиционный поиск начал подвергаться ударам. В 2024 году доля рынка поиска Google упала с 93% до 89%, хотя он по-прежнему доминирует, но трещины уже начали проявляться. Более революционным является слух о том, что Apple может запустить собственный AI поисковик - если Safari станет использовать собственный поисковик по умолчанию, это не только изменит экосистему, но и может подорвать прибыльный столп Alphabet. Рынок быстро отреагировал, акции Alphabet упали с 170 долларов до 140 долларов, отражая не только панику инвесторов, но и глубокую тревогу о будущем эпохи поиска.
От Navigator до Chrome, от идеала с открытым исходным кодом до коммерциализации рекламы, от легковесного браузера до AI-поискового помощника, борьба браузеров всегда была войной о технологиях, платформах, контенте и контроле. Поле боя постоянно меняется, но суть никогда не меняется: кто управляет входом, тот и определяет будущее.
В глазах венчурных капиталистов, опираясь на новые потребности людей к поисковым системам в эпоху LLM и ИИ, третья война браузеров постепенно разворачивается. Ниже представлены данные о финансировании некоторых известных проектов в области AI-браузеров.
Устаревшая архитектура современных браузеров
Говоря о архитектуре браузера, классическая традиционная архитектура показана на рисунке ниже:
Клиент - фронтальный вход
Запросите ближайший Google Front End через HTTPS, завершите TLS-расшифровку, выборку QoS и географическую маршрутизацию. Если будет обнаружен аномальный трафик (DDoS, автоматический захват), можно ограничить поток или бросить вызов на этом уровне.
Понимание запроса
Фронтенд должен понимать значение слов, введенных пользователем, и для этого есть три шага: нейронная проверка орфографии, исправление "recpie" на "recipe"; расширение синонимов, преобразование "how to fix bike" в "repair bicycle". Анализ намерений, определение, является ли запрос информационным, навигационным или торговым, и распределение запросов по вертикалям.
Кандидатская отзыв
Технология запроса, используемая некоторыми поисковыми системами, называется: обратный индекс. В прямом индексе мы можем индексировать файл, имея только ID. Однако пользователи не могут знать, под каким номером находится нужный контент среди сотен миллиардов файлов, поэтому используется очень традиционный обратный индекс, который позволяет искать, какие файлы содержат соответствующие ключевые слова. Затем используется векторный индекс для обработки семантического поиска, то есть для поиска контента, схожего по значению с запросом. Он преобразует текст, изображения и другой контент в высокоразмерные векторы (embedding) и осуществляет поиск на основе сходства между этими векторами. Например, даже если пользователь ищет "как сделать тесто для пиццы", поисковая система может вернуть результаты, связанные с "руководством по приготовлению теста для пиццы", так как они семантически схожи. После применения обратного индекса и векторного индекса примерно сто тысяч веб-страниц будут отфильтрованы.
Многоуровневая сортировка
Системы обычно отфильтровывают десятки тысяч кандидатных страниц до примерно 1000, используя тысячи легких признаков, таких как BM25, TF-IDF, оценки качества страниц и т.д., формируя предварительный набор кандидатов. Эти системы обычно называются рекомендационными системами. Они полагаются на множество массовых характеристик, генерируемых различными сущностями, включая поведение пользователей, атрибуты страниц, намерения запросов и контекстные сигналы. Например, одна поисковая система может учитывать историю пользователя, отзывы других пользователей, семантику страниц, значение запросов и т.д., а также принимать во внимание контекстные факторы, такие как время (период дня, конкретные дни недели) и внешние события, такие как актуальные новости.
Глубокое обучение для основной сортировки
На стадии предварительного поиска определённая поисковая система использует такие технологии, как RankBrain и Neural Matching, чтобы понять семантику запроса и отобрать первоначально релевантные результаты из огромного количества документов. RankBrain — это система машинного обучения, введённая компанией в 2015 году, призванная лучше понимать смысл пользовательских запросов, особенно впервые появляющихся. Она преобразует запросы и документы в векторные представления, вычисляет их сходство, чтобы найти наиболее релевантные результаты. Например, для запроса "как сделать тесто для пиццы" даже если в документе нет полностью совпадающих ключевых слов, RankBrain может определить содержание, связанное с "основой для пиццы" или "приготовлением теста".
Neural Matching — это еще одна технология компании, представленная в 2018 году, которая направлена на более глубокое понимание семантических отношений между запросами и документами. Она использует модели нейронных сетей для захвата нечетких связей между словами, что помогает лучше сопоставлять запросы и содержимое веб-страниц. Например, для запроса "почему мой
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
21 Лайков
Награда
21
4
Поделиться
комментарий
0/400
GasSavingMaster
· 07-28 12:45
Не могу понять, почему кто-то все еще использует Safari.
Посмотреть ОригиналОтветить0
LiquidationWatcher
· 07-27 20:48
Еще один раунд добивания начался
Посмотреть ОригиналОтветить0
MevWhisperer
· 07-25 18:26
Старый ie уже обречено, пора переходить на chrome.
ИИ переформатирует браузер: начинается третья браузерная война
ИИ переосмысляет браузер: прелюдия к третьей войне браузеров
Третья война браузеров тихо разворачивается. Оглядываясь назад, можно увидеть, что с 90-х годов прошлого века, с Netscape и Internet Explorer от Microsoft, до духа открытого кода Firefox и Google Chrome, борьба браузеров всегда была ярким отражением контроля над платформами и изменения технических парадигм. Chrome завоевал господствующее положение благодаря скорости обновления и экосистемной интеграции, в то время как Google сформировал замкнутый круг входа в информацию через "двойной олигархат" структуры поиска и браузера.
Но сегодня эта структура начинает колебаться. Появление крупных языковых моделей (LLM) приводит к тому, что все больше пользователей выполняют задачи на странице результатов поиска без кликов, что снижает традиционное поведение кликов по веб-страницам. В то же время слухи о том, что Apple может заменить поисковую систему по умолчанию в Safari, дополнительно угрожают прибыльной основе Alphabet, и рынок уже начинает проявлять беспокойство по поводу "ортодоксального поиска".
Браузер сам также сталкивается с переосмыслением своей роли. Он уже не просто инструмент для отображения веб-страниц, а представляет собой контейнер, объединяющий множество возможностей, таких как ввод данных, поведение пользователей, конфиденциальность и идентичность. Несмотря на мощь AI Agent, для выполнения сложных интеракций на страницах, вызова локальных данных о пользователе и управления элементами веб-страниц все еще требуется опираться на доверительные границы и функциональные песочницы браузера. Браузер превращается из человеческого интерфейса в платформу системных вызовов для Агентов.
На самом деле, то, что действительно может разрушить текущую структуру рынка браузеров, это не другой "лучший Chrome", а новая структура взаимодействия: это не представление информации, а вызов задач. Будущие браузеры должны быть разработаны для AI Agent - они должны не только читать, но и писать и выполнять. Проекты, такие как Browser Use, пытаются семантизировать структуру страниц, превращая визуальный интерфейс в структурированный текст, который может быть вызван LLM, значительно снижая затраты на взаимодействие.
На рынке основные проекты уже начали тестировать новые идеи: Perplexity создает нативный браузер Comet, использующий ИИ для замены традиционных поисковых результатов; Brave объединяет защиту конфиденциальности и локальное рассуждение, усиливая функции поиска и блокировки с помощью LLM; в то время как такие крипто-ориентированные проекты, как Donut, нацелены на новые входные точки для взаимодействия ИИ и активов на блокчейне. Общая черта этих проектов заключается в том, что они пытаются реконструировать вводную часть браузера, а не улучшать его выходной уровень.
Для предпринимателей возможности скрыты в треугольных отношениях между вводом, структурой и агентом. Браузер как интерфейс для вызова мира будущего означает, что тот, кто может предоставить структурированные, вызываемые и надежные "блоки возможностей", станет частью нового поколения платформ. От SEO до AEO (оптимизация движка агента), от трафика страниц до вызова цепочек задач, формы продуктов и дизайнерское мышление находятся в процессе реконструкции. Третья война браузеров происходит в "вводе", а не в "демонстрации"; победу определяет не тот, кто привлекает внимание пользователей, а тот, кто завоевывает доверие агента и получает доступ к вызову.
История развития браузеров
В начале 90-х годов, когда интернет еще не стал частью повседневной жизни, Netscape Navigator появился на свет, словно парусник, открывающий новую землю, предоставив миллионам пользователей доступ в цифровой мир. Этот браузер не был первым, но стал первым по-настоящему массовым продуктом, формирующим опыт использования интернета. В то время люди впервые могли так легко просматривать веб-страницы через графический интерфейс, как будто весь мир внезапно стал доступен.
Однако слава часто бывает недолговечной. Microsoft вскоре осознала важность браузеров и решила принудительно интегрировать Internet Explorer в операционную систему Windows, сделав его браузером по умолчанию. Эта стратегия стала "убийственным приемом для платформы", который напрямую разрушил рыночное господство Netscape. Многие пользователи не выбирали IE активно, а просто принимали его, так как он был установлен по умолчанию в системе. IE благодаря возможностям распространения Windows быстро стал лидером отрасли, тогда как Netscape оказался на пути упадка.
В условиях кризиса инженеры Netscape выбрали радикальный и идеалистический путь - они открыли исходный код браузера и призвали к сообществу с открытым исходным кодом. Это решение стало своего рода "македонским отступлением" в технологической сфере, предвещая конец старой эпохи и восход новой силы. Этот код впоследствии стал основой проекта браузера Mozilla, изначально названного Phoenix (что означает "возрождение феникса"), но из-за проблем с торговой маркой несколько раз менял название, прежде чем окончательно стал Firefox.
Firefox не просто копирует Netscape, он достиг многого в области пользовательского опыта, экосистемы плагинов, безопасности и других аспектах. Его появление ознаменовало победу духа открытого программного обеспечения и вдохнуло новую жизнь в всю индустрию. Некоторые описывают Firefox как "духовного наследника" Netscape, как Османская империя унаследовала последние вспышки Византии. Хотя это сравнение и преувеличено, оно имеет глубокий смысл.
Но за несколько лет до официального релиза Firefox Microsoft уже выпустила шесть версий IE, благодаря преимуществу времени и стратегии пакетирования систем, что изначально поставило Firefox в положение догоняющего, что предопределило, что это соревнование не является честным соревнованием с равной стартовой линией.
В то же время на сцене тихо появляется другой ранний игрок. В 1994 году появился браузер Opera, который пришел из Норвегии и изначально был экспериментальным проектом. Но с версии 7.0 в 2003 году он внедрил собственный движок Presto, первым поддерживающий передовые технологии, такие как CSS, адаптивная верстка, голосовое управление и кодировка Unicode. Хотя количество пользователей было ограниченным, с технической точки зрения он всегда оставался на переднем крае отрасли и стал "любимцем гиков".
В том же году Apple выпустила браузер Safari. Это было знаковое событие. В то время Microsoft вложила 150 миллионов долларов в находящуюся на грани банкротства Apple, чтобы поддержать видимость конкуренции и избежать антимонопольного расследования. Хотя Google был поисковой системой по умолчанию с момента появления Safari, эта история с Microsoft символизирует сложные и тонкие отношения между интернет-гигантами: сотрудничество и конкуренция всегда идут рука об руку.
В 2007 году IE7 был выпущен вместе с Windows Vista, но реакция рынка была посредственной. В то же время Firefox, благодаря более быстрому темпу обновлений, более дружелюбной механике расширений и естественной привлекательности для разработчиков, стабильно увеличивал свою долю рынка до примерно 20%. Господство IE постепенно ослабевало, ветер перемен начинал дуть.
Google выбрала другой подход. Хотя с 2001 года компания начала разрабатывать свой собственный браузер, ей потребовалось шесть лет, чтобы убедить CEO Эрика Шмидта утвердить этот проект. Chrome был представлен в 2008 году и создан на основе проекта с открытым исходным кодом Chromium и движка WebKit, используемого Safari. Его прозвали "громоздким" браузером, но благодаря глубоким навыкам Google в области размещения рекламы и формирования бренда, он быстро стал популярным.
Ключевым оружием Chrome является не функции, а частота обновления версий (каждые шесть недель) и унифицированный опыт на всех платформах. В ноябре 2011 года Chrome впервые обошел Firefox, заняв 27% рынка; через шесть месяцев он снова обошел IE, завершив переход от соперника к властелину.
В то же время мобильный интернет в Китае также формирует свою экосистему. Браузер UC, принадлежащий одной компании, стремительно набрал популярность в начале 2010-х годов, особенно на таких развивающихся рынках, как Индия, Индонезия и Китай, благодаря легкому дизайну и сжатию данных для экономии трафика, что сделало его привлекательным для пользователей бюджетных устройств. В 2015 году его доля на мировом рынке мобильных браузеров превысила 17%, а в Индии достигала 46%. Но эта победа была недолговечной. С усилением индийским правительством проверки безопасности китайских приложений браузер UC был вынужден покинуть ключевой рынок и постепенно потерял былую славу.
Вступив в 2020-е годы, доминирование Chrome уже установлено, и его доля на мировом рынке стабильно составляет около 65%. Стоит отметить, что поисковая система Google и браузер Chrome, хотя и принадлежат Alphabet, с точки зрения рынка представляют собой две независимые гегемонистские системы - первая контролирует около 90% глобальных поисковых входов, в то время как вторая владеет "первым окном" для большинства пользователей в Интернет.
Чтобы сохранить эту двойную монопольную структуру, Google не жалеет денег. В 2022 году Alphabet заплатила Apple около 20 миллиардов долларов только для того, чтобы Google оставался по умолчанию в Safari. Аналитики отмечают, что эти расходы составляют 36% от доходов Google от поисковой рекламы, получаемых через трафик Safari. Иными словами, Google платит «защиту» для своей крепости.
Но ветер снова изменился. С ростом крупных языковых моделей (LLM) традиционный поиск начал подвергаться ударам. В 2024 году доля рынка поиска Google упала с 93% до 89%, хотя он по-прежнему доминирует, но трещины уже начали проявляться. Более революционным является слух о том, что Apple может запустить собственный AI поисковик - если Safari станет использовать собственный поисковик по умолчанию, это не только изменит экосистему, но и может подорвать прибыльный столп Alphabet. Рынок быстро отреагировал, акции Alphabet упали с 170 долларов до 140 долларов, отражая не только панику инвесторов, но и глубокую тревогу о будущем эпохи поиска.
От Navigator до Chrome, от идеала с открытым исходным кодом до коммерциализации рекламы, от легковесного браузера до AI-поискового помощника, борьба браузеров всегда была войной о технологиях, платформах, контенте и контроле. Поле боя постоянно меняется, но суть никогда не меняется: кто управляет входом, тот и определяет будущее.
В глазах венчурных капиталистов, опираясь на новые потребности людей к поисковым системам в эпоху LLM и ИИ, третья война браузеров постепенно разворачивается. Ниже представлены данные о финансировании некоторых известных проектов в области AI-браузеров.
Устаревшая архитектура современных браузеров
Говоря о архитектуре браузера, классическая традиционная архитектура показана на рисунке ниже:
Клиент - фронтальный вход
Запросите ближайший Google Front End через HTTPS, завершите TLS-расшифровку, выборку QoS и географическую маршрутизацию. Если будет обнаружен аномальный трафик (DDoS, автоматический захват), можно ограничить поток или бросить вызов на этом уровне.
Понимание запроса
Фронтенд должен понимать значение слов, введенных пользователем, и для этого есть три шага: нейронная проверка орфографии, исправление "recpie" на "recipe"; расширение синонимов, преобразование "how to fix bike" в "repair bicycle". Анализ намерений, определение, является ли запрос информационным, навигационным или торговым, и распределение запросов по вертикалям.
Кандидатская отзыв
Технология запроса, используемая некоторыми поисковыми системами, называется: обратный индекс. В прямом индексе мы можем индексировать файл, имея только ID. Однако пользователи не могут знать, под каким номером находится нужный контент среди сотен миллиардов файлов, поэтому используется очень традиционный обратный индекс, который позволяет искать, какие файлы содержат соответствующие ключевые слова. Затем используется векторный индекс для обработки семантического поиска, то есть для поиска контента, схожего по значению с запросом. Он преобразует текст, изображения и другой контент в высокоразмерные векторы (embedding) и осуществляет поиск на основе сходства между этими векторами. Например, даже если пользователь ищет "как сделать тесто для пиццы", поисковая система может вернуть результаты, связанные с "руководством по приготовлению теста для пиццы", так как они семантически схожи. После применения обратного индекса и векторного индекса примерно сто тысяч веб-страниц будут отфильтрованы.
Многоуровневая сортировка
Системы обычно отфильтровывают десятки тысяч кандидатных страниц до примерно 1000, используя тысячи легких признаков, таких как BM25, TF-IDF, оценки качества страниц и т.д., формируя предварительный набор кандидатов. Эти системы обычно называются рекомендационными системами. Они полагаются на множество массовых характеристик, генерируемых различными сущностями, включая поведение пользователей, атрибуты страниц, намерения запросов и контекстные сигналы. Например, одна поисковая система может учитывать историю пользователя, отзывы других пользователей, семантику страниц, значение запросов и т.д., а также принимать во внимание контекстные факторы, такие как время (период дня, конкретные дни недели) и внешние события, такие как актуальные новости.
Глубокое обучение для основной сортировки
На стадии предварительного поиска определённая поисковая система использует такие технологии, как RankBrain и Neural Matching, чтобы понять семантику запроса и отобрать первоначально релевантные результаты из огромного количества документов. RankBrain — это система машинного обучения, введённая компанией в 2015 году, призванная лучше понимать смысл пользовательских запросов, особенно впервые появляющихся. Она преобразует запросы и документы в векторные представления, вычисляет их сходство, чтобы найти наиболее релевантные результаты. Например, для запроса "как сделать тесто для пиццы" даже если в документе нет полностью совпадающих ключевых слов, RankBrain может определить содержание, связанное с "основой для пиццы" или "приготовлением теста".
Neural Matching — это еще одна технология компании, представленная в 2018 году, которая направлена на более глубокое понимание семантических отношений между запросами и документами. Она использует модели нейронных сетей для захвата нечетких связей между словами, что помогает лучше сопоставлять запросы и содержимое веб-страниц. Например, для запроса "почему мой