Бесшаблонный парсер контента

14.11.2009

Вот такую штуку вытащил из своих темных подвалов. Тут давно валялось нечто подобное. Это улучшенная версия, теперь работает на DOM функциях, корректно обрабатывает кодировки и убирает всякий мусор из html. Конечно белые сайты вряд ли получаться но вот доры делать на таком контенте просто замечательно.

Вчера открыли метромост в Нижнем

05.11.2009

Собственно в Нижнем Новгороде наконец то открылось авто движение по метромосту. Я был одним из первых велосипедистов кто по нему проехал.
Метромост

Закладочник 2.0 — конструктор модулей превью

02.11.2009

Вот такое вот дополнение делаю, как я говорил модули для нового закладочника делать очень просто, теперь это делается не просто а очень просто:

Этот скрипт будет входить в комплект к Закладочнику и bmSubmitter`у. Кстати я уже поднял цену до 15$ а после выхода конструктора будет уже 20$ так что советую поспешить.

Открытое письмо яндексу

20.10.2009

Дорогой Яндекс, я конечно понимаю что твои языковые способности в латинском алфавите оставляют желать лучшего. Но пожалуйста не стоит путать имена Jeck и Jack. Первое это довольно редкое английское имя и по совместимости мой ник (так уж получилось) второе более распространенное имя, название азартной игры (black jack) и кличка собаки. Поэтому очень прошу не предлагать заменить Jeck на Jack при web поиске и не выводить фотографии собак и при поиске картинок, что бы тебе было проще прикладываю свою фотографию:

jeck

На ней изображен я, то есть Jeck. Большое спасибо.

Не много про регулярки, DOM и парсеры

03.10.2009

Наткнулся сейчас на статью. Можете не читать этот бред, приведу краткое содержание:

Чем неудобна библиотека DOM? Тем, что она все-таки не очень хорошо разбирает данные, если они невалидны.

Выдается список ошибок: то неизвестный тэг, то точка с запятой лишняя, то еще какая-нибудь фигня.

Так что мой выбор все-таки в пользу регулярок, а dom я оставляю для парсинга XML.

Естественно DOM функции предназначенные для разбора правильного XML не будут просто так работать с HTML, но это вовсе не значит что их нельзя для этого использовать. В php есть замечательно расширение tidy это набор функций для оптимизации и исправления ошибок HTML кода. Честно говоря даже с использованием этого расширение не все гладко — возникают проблемы с кодировкой, поэтому просто поделюсь готовым решением, надеюсь оно вам поможет и вы не будете заниматься такой глупостью как разбором HTML регулярными выражениями.

Вот этот кусочек кода надо подключить к вашему скрипту. Так же можете посмотреть пример парсера, красиво не правда ли?

Открытие

30.09.2009

Невероятно но факт, спустя без малого 4 года мой блог все таки будет открыт. За это время у меня накопилось что сказать. И рассказывать я буду  про спам, нарушение авторских прав в глобальных масштабах, черным SEO, безумном программирование и прочих очень интересных но неоднозначных вещах.

← Новые записи