Релиз Apache Nutch 1.3

Posted on June 9th, 2011 in Crawling, Data storage, Distributed computing, Information retrieval, News | No Comments »

Apache Nutch представляет собой расширяемую платформу для создания масштабируемого веб-поиска. Используя проекты Apache Hadoop, Solr и Tika, Nutch представляет собой работающую “из коробки” платформу для краулинга web-страниц, PDF-файлов, Word-документов и многого другого. Пропарсив содержимое, он индексирует метаданные и предоставляет возможность находить документ по запросам через современные интернет-протоколы. Read the rest of this entry »

Релизы Apache Lucene 3.2 и Apache Solr 3.2

Posted on June 5th, 2011 in Information retrieval, News | No Comments »

Обновились версии Apache Lucene и Apache Solr до 3.2. Релизы включают в себя множество исправлений, дополнений и улучшений.

Read the rest of this entry »

Релиз PECL solr-1.0.1

Posted on June 5th, 2011 in Information retrieval, News, Php | No Comments »

PeclPECL-расширение для Solr обновилось до версии 1.0.1.  Изменений не столько много, как в 0.9.11, но они так же приятны.

Read the rest of this entry »

Диаграмма архитектуры Solr

Posted on April 7th, 2011 in Information retrieval | No Comments »

Господа из компании Cominvent выложили сию диаграмму в Google Docs. На ней наглядно наглядно показаны части системы и их взаимодействие. Например, как документы проходят через UpdateRequestHandler, через UpdateChain и Analysis и как индексируются в Lucene.

Read the rest of this entry »

Релизы Apache Lucene 3.1 и Apache Solr 3.1

Posted on April 1st, 2011 in Information retrieval, News | No Comments »

http://lucene.apache.org/solr/Lucene PMC анонсировал выход Apache Lucene 3.1 – популярного поискового движка, и Apache Solr 3.1 – поискового high-performance сервера. Номер версии для Solr завязан на версии Lucene и зависит от нее. Это первый масштабный релиз обоих продуктов, начиная с марта 2010 года, когда продукты стали разрабатываться одной командой. Номер версий прыгнул с 1.4.1 сразу на 3.1. Несмотря на одну команду, продукты можно скачать отдельно. Lucene подходит для нужд интеграции индексируемого поиска на сайт, Solr же выбирают те, кому нужна целая поисковая платформа с дополнительный наворотами.
Релизы включают в себя множество исправлений, дополнений и улучшений.
Read the rest of this entry »

Yahoo фокусируется на Apache Hadoop, отказываясь от “The Yahoo Distribution of Hadoop”

Posted on March 26th, 2011 in Data storage, Distributed computing, News | No Comments »

Пару месяцев назад Yahoo! заявил об окончании разработки своего собственного форка Hadoop – “Yahoo Distribution of Hadoop” – и консолидации усилий на выпуске Apache Hadoop. Предлагаю перевод официального поста по поводу этого события.

Read the rest of this entry »

PHP RFC: встроенный вебсервер

Posted on March 3rd, 2011 in News, Php | No Comments »

В RFC PHP попала новая идея: встроенный вебсервер. Штука определённо замечательная: можно будет разрабатывать не запуская тот же Apache и не занимаясь его настройкой. Пока реакция разработчиков положительная, поэтому можно надеяться, что нововведение будет в ядре.

Подробнее

Crawl Anywhere – краулер с удобным мониторингом

Posted on March 2nd, 2011 in Crawling, News | No Comments »

На днях вышел в свет новый веб-краулер – Crawl Anywhere.  Написан да джаве.  Включает в себя: сам краулер, мониторинг обработки документов, Solr-интексатор.

Read the rest of this entry »

Solr-RA – меняем алгоритм ранжирования

Posted on February 25th, 2011 in Information retrieval, News | 2 Comments »

Вышла версия Solr c новым алгоритмом ранжирования – RankingAlgorithm v1.1 beta. Теперь вместо score и ranking алгоритмов, идущих с Lucene, можно использовать этот. Он лучше адаптирован для Web и более приближен к выдаче Google, чем Lucene (perl index).

Read the rest of this entry »

Релиз SolrMeter 0.2.0

Posted on February 25th, 2011 in Information retrieval, News | 1 Comment »

Состоялся релиз SolrMeter 0.2.0 – open source движка для нагрузочного тестирования поисковой платформы Solr.

Проект специально заточен для тестирования исключительно Solr. Можно генерировать множество запросов, документов и анализировать, как будет влиять нагрузка на ваш индекс. Статистику можно просматривать в графическом виде.

Read the rest of this entry »