Предполагается, что на разрабатываемом сайте добрая половина страниц будет густо увешана баннерами, а печатная версия (в PDF) будет продаваться за деньги. Мне это кажется маразмом.
Левый вопрос. Есть например ссылка на новостную статью, на неизвестном сайте. Как лучше всего отожрать из неё текст новости, и не отожрать рекламу и менюшки? Считается что я знаю что такое перл или ПХП.
Тут более высокие цели - например прососать новости по RSS с того-же самого корреспондента, или даже например набор новостных ссылок на гугле, собрать до кучи и залить в телефон на почитать.
Универсального решения нету. Но от большой потребности попытаться можно. Заранее предупреждаю: обычно студент-копипейстер дешевле.
Есть два варианта: или пообкусывать мусор, или выкусить ценное. Инструменты: популярные ключслова (эбаут / ньюс / контакт ас), популярные паттерны (пять ссылок подряд через символ "|" обычно больше похоже на меню, чем), и тому подобный беспредел. Если у нас есть несколько новостей с одного сайта - то вообще кайф, искать совпадающие фрагменты и вырезать. В общем, почти как самодельный OCR ;) За несколько недель занятного жёсткого траха можно добиться хорошего процента корректно разгрызенного контента на определённых типах сайтов.
Проблем в этом много. Как тебе насчёт "художественно оформленных" новостей с подзаголовками, цитатами экспертов и фотографиями с места событий? Загляни в исходник новости на CNN, ужаснись.
Скорее уж больше килобайта разметки без текста :) Заголовок надо искать по заметному отличию стиля. На пару пунктов больше, болд или другой шрифт. Если заголовок вообще текстом дан, а не картинкой или флешем. P.S. На одном сайте встретил фишку - между буквами в словах спрятаны другие буквы, но с нулевым размером и цветом фона. В результате текстовый copy/paste выдает мусор. Очень интересный способ отпугивать посетителей.
Очень близко к OCR. Если вспомнить про моду на представление текста картинками и флешками, использование скриптов, стилей для скрытия или перемещения текста и прочую гадость.
Дык, в том-то и дело - "определённый процент". Определённый процент из "умеренно хреновых" сайтов с табличной вёрсткой - это порой можно обработать и вслепую, даже не зная, что именно предстоит разложить на контент и хлам. Ну, это то курево, что я выше описывал.
А такие вот жуткие говносайты можно пытаться побороть, но сначала надо посмотреть в код, присвистнуть и пропустить это через десяток свирепых регекспов. В общем, каждый раз решение требуется отдельное.
no subject
Date: Monday, August 28th, 2006 01:38 pm (UTC)no subject
Date: Monday, August 28th, 2006 01:45 pm (UTC)Аналог WCAG WAI, для федералов обязательный.
Предполагается, что на разрабатываемом сайте добрая половина страниц будет густо увешана баннерами, а печатная версия (в PDF) будет продаваться за деньги. Мне это кажется маразмом.
no subject
Date: Monday, August 28th, 2006 02:12 pm (UTC)links
Date: Monday, August 28th, 2006 02:21 pm (UTC)хороше, но не по делу :)
Date: Monday, August 28th, 2006 03:31 pm (UTC)Re: Хочется логичности
Date: Monday, August 28th, 2006 03:35 pm (UTC)Re: Хочется логичности
Date: Monday, August 28th, 2006 05:53 pm (UTC)универсальных регекспов нэбува.
Re: хороше, но не по делу :)
Date: Monday, August 28th, 2006 05:56 pm (UTC)вот пристойная парсилка рсс
http://magpierss.sourceforge.net
no subject
Date: Monday, August 28th, 2006 02:22 pm (UTC)Есть два варианта: или пообкусывать мусор, или выкусить ценное. Инструменты: популярные ключслова (эбаут / ньюс / контакт ас), популярные паттерны (пять ссылок подряд через символ "|" обычно больше похоже на меню, чем), и тому подобный беспредел. Если у нас есть несколько новостей с одного сайта - то вообще кайф, искать совпадающие фрагменты и вырезать. В общем, почти как самодельный OCR ;) За несколько недель занятного жёсткого траха можно добиться хорошего процента корректно разгрызенного контента на определённых типах сайтов.
Хочется логичности
Date: Monday, August 28th, 2006 03:34 pm (UTC)Re: Хочется логичности
Date: Monday, August 28th, 2006 03:36 pm (UTC)Re: Хочется логичности
Date: Monday, August 28th, 2006 04:35 pm (UTC)Заголовок надо искать по заметному отличию стиля. На пару пунктов больше, болд или другой шрифт. Если заголовок вообще текстом дан, а не картинкой или флешем.
P.S. На одном сайте встретил фишку - между буквами в словах спрятаны другие буквы, но с нулевым размером и цветом фона. В результате текстовый copy/paste выдает мусор. Очень интересный способ отпугивать посетителей.
Re: Хочется логичности
Date: Monday, August 28th, 2006 05:58 pm (UTC)Re: Хочется логичности
Date: Monday, August 28th, 2006 08:28 pm (UTC)no subject
Date: Monday, August 28th, 2006 04:43 pm (UTC)no subject
Date: Tuesday, August 29th, 2006 04:16 am (UTC)А такие вот жуткие говносайты можно пытаться побороть, но сначала надо посмотреть в код, присвистнуть и пропустить это через десяток свирепых регекспов. В общем, каждый раз решение требуется отдельное.