Открытое письмо яндексу

20.10.2009

Дорогой Яндекс, я конечно понимаю что твои языковые способности в латинском алфавите оставляют желать лучшего. Но пожалуйста не стоит путать имена Jeck и Jack. Первое это довольно редкое английское имя и по совместимости мой ник (так уж получилось) второе более распространенное имя, название азартной игры (black jack) и кличка собаки. Поэтому очень прошу не предлагать заменить Jeck на Jack при web поиске и не выводить фотографии собак и при поиске картинок, что бы тебе было проще прикладываю свою фотографию:

jeck

На ней изображен я, то есть Jeck. Большое спасибо.

Не много про регулярки, DOM и парсеры

03.10.2009

Наткнулся сейчас на статью. Можете не читать этот бред, приведу краткое содержание:

Чем неудобна библиотека DOM? Тем, что она все-таки не очень хорошо разбирает данные, если они невалидны.

Выдается список ошибок: то неизвестный тэг, то точка с запятой лишняя, то еще какая-нибудь фигня.

Так что мой выбор все-таки в пользу регулярок, а dom я оставляю для парсинга XML.

Естественно DOM функции предназначенные для разбора правильного XML не будут просто так работать с HTML, но это вовсе не значит что их нельзя для этого использовать. В php есть замечательно расширение tidy это набор функций для оптимизации и исправления ошибок HTML кода. Честно говоря даже с использованием этого расширение не все гладко — возникают проблемы с кодировкой, поэтому просто поделюсь готовым решением, надеюсь оно вам поможет и вы не будете заниматься такой глупостью как разбором HTML регулярными выражениями.

Вот этот кусочек кода надо подключить к вашему скрипту. Так же можете посмотреть пример парсера, красиво не правда ли?