31.12.2009
Пока тут есть пара минут расскажу о новой версии анализатора контента от pr-cy. Кроме очевидной смены дизайна весь код был переписан с нуля, больше никаких регулярок! Так же наконец то решена проблема с кодировками (осталось только пользователям объяснить что иногда все же стоит её правильно прописывать в HTTP заголовках или meta тегах). В общем инструмент стал красивее, быстрее, надежнее.
И да — от коллектива pr-cy поздравляю всех SEO`шников, SMO`шников, дорвейшиков и даже спамеров с наступающем новым годом!
29.12.2009
У некоторых уже обновились NS сервера так что скрывать смысла нет, у кого все по старому в файле /WINDOWS/system32/drivers/etc/hosts надо добавить
94.103.89.31 pr-cy.ru
Все убежал писать код дальше.
12.12.2009
Я уже писал про свой безшаблонный граббер. Многим показалась интересным эта библиотека поэтому теперь её может приобрести любой желающий. Кстати продаю я полностью переработанную версию которая даже из блога тормоза может вытащить кусочек текста. В комплекте набор php библиотек и пример использования. Код полностью открыт и снабжен комментариями, так что очень легко встраивается в любой проект.
Пример кода:
- <?php
-
- require './libs/http.php';
- require './libs/domhtml.php';
- require './libs/contentparser.php';
-
-
- if (isset($_GET['url'])) {
- $parser = new ContentParser;
- echo $parser->getArticle($_GET['url']);
- echo '<br/>';
- echo 'Page load time: '.$parser->pageLoadTime.' s.<br/>';
- echo 'Parsing time: '.$parser->parsingTime.' s.<br/>';
- }
-
- ?>
Сейчас библиотека умеет выделять статью или значимый текст из практически любой страницы. Корректно работает с кодировками (всегда возвращает результат в utf-8 независимо от кодировки страницы). Работает даже с невалидными HTML страницами. Очищает текст от ненужных тегов, преобразует адреса ссылок и картинок из относительных в абсолютные. Имеет достаточно гибкие настройки которые позволяют настроить парсер под себя.
Демо можно посмотреть здесь.
Библиотека расcчитана на опытных пользователей которые знают что им нужно поэтому цена будет достаточно высокой — 100$. Обновления бесплатны.
Купить сейчас