Apache Nutch представляет собой расширяемую платформу для создания масштабируемого веб-поиска. Используя проекты Apache Hadoop, Solr и Tika, Nutch представляет собой работающую “из коробки” платформу для краулинга web-страниц, PDF-файлов, Word-документов и многого другого. Пропарсив содержимое, он индексирует метаданные и предоставляет возможность находить документ по запросам через современные интернет-протоколы. Read the rest of this entry »
Обновились версии Apache Lucene и Apache Solr до 3.2. Релизы включают в себя множество исправлений, дополнений и улучшений.
Read the rest of this entry »
PECL-расширение для Solr обновилось до версии 1.0.1. Изменений не столько много, как в 0.9.11, но они так же приятны.
Read the rest of this entry »
Господа из компании Cominvent выложили сию диаграмму в Google Docs. На ней наглядно наглядно показаны части системы и их взаимодействие. Например, как документы проходят через UpdateRequestHandler, через UpdateChain и Analysis и как индексируются в Lucene.
Read the rest of this entry »
Lucene PMC анонсировал выход Apache Lucene 3.1 – популярного поискового движка, и Apache Solr 3.1 – поискового high-performance сервера. Номер версии для Solr завязан на версии Lucene и зависит от нее. Это первый масштабный релиз обоих продуктов, начиная с марта 2010 года, когда продукты стали разрабатываться одной командой. Номер версий прыгнул с 1.4.1 сразу на 3.1. Несмотря на одну команду, продукты можно скачать отдельно. Lucene подходит для нужд интеграции индексируемого поиска на сайт, Solr же выбирают те, кому нужна целая поисковая платформа с дополнительный наворотами.
Релизы включают в себя множество исправлений, дополнений и улучшений.
Read the rest of this entry »
Пару месяцев назад Yahoo! заявил об окончании разработки своего собственного форка Hadoop – “Yahoo Distribution of Hadoop” – и консолидации усилий на выпуске Apache Hadoop. Предлагаю перевод официального поста по поводу этого события.
Read the rest of this entry »
В RFC PHP попала новая идея: встроенный вебсервер. Штука определённо замечательная: можно будет разрабатывать не запуская тот же Apache и не занимаясь его настройкой. Пока реакция разработчиков положительная, поэтому можно надеяться, что нововведение будет в ядре.
Подробнее
На днях вышел в свет новый веб-краулер – Crawl Anywhere. Написан да джаве. Включает в себя: сам краулер, мониторинг обработки документов, Solr-интексатор.
Read the rest of this entry »
Вышла версия Solr c новым алгоритмом ранжирования – RankingAlgorithm v1.1 beta. Теперь вместо score и ranking алгоритмов, идущих с Lucene, можно использовать этот. Он лучше адаптирован для Web и более приближен к выдаче Google, чем Lucene (perl index).
Read the rest of this entry »
Состоялся релиз SolrMeter 0.2.0 – open source движка для нагрузочного тестирования поисковой платформы Solr.
Проект специально заточен для тестирования исключительно Solr. Можно генерировать множество запросов, документов и анализировать, как будет влиять нагрузка на ваш индекс. Статистику можно просматривать в графическом виде.
Read the rest of this entry »