Обучение спам-фильтра и утилита find

Второй день сижу и пытаюсь понять почему это не работает. Разворачиваю понятие “это” – скрипт который очень активно скармливает нехорошие письма нашему спам-фильтру.  Надо обучить на немного не мало порядка 5К  письмах. А потом ещё 2.5К хороших, так сказать, для закрепления пройденного материала.

Пробуем отдельно командную строку:

mail02# cat /home/dronga/test/1274282843.M942069P44358.mail01.hat.ru,S=2504,W=2562:2,|/usr/local/bin/dspam –mode=teft –user odmin@hat.ru –class=spam –source=corpus –deliver=summary
X-DSPAM-Result: odmin@hat.ru; result=”Spam”;; probability=1.0000; confidence=1.00; signature=4bf4035b443567520620249

Отлично! Оборачиваем это дело в find примерно вот таким образом:

find . -type f -print – exec cat {}|/usr/local/bin/dspam –mode=teft –user odmin@hate.ru –class=spam –source=corpus –deliver=summary

Пробуем:

mail02# ./spam_learn.sh
/home/dronga/test/1274282843.M942069P44358.mail01.hat.ru,S=2504,W=2562:2,
find: cat /home/dronga/test/1274282843.M942069P44358.mail01.hat.ru,S=2504,W=2562:2,|/usr/local/bin/dspam –mode=teft –user odmin@hat.ru –class=spam –source=corpus –deliver=summary: No such file or directory
/home/dronga/test/1274288609.M452672P55446.mail01.hat.ru,S=1434,W=1476:2,
find: cat /home/dronga/test/1274288609.M452672P55446.mail01.hat.ru,S=1434,W=1476:2,|/usr/local/bin/dspam –mode=teft –user odmin@hat.ru –class=spam –source=corpus –deliver=summary: No such file or directory
/home/dronga/test/1274294629.M623575P66746.mail01.hat.ru,S=2356,W=2414:2,
find: cat /home/dronga/test/1274294629.M623575P66746.mail01.hat.ru,S=2356,W=2414:2,|/usr/local/bin/dspam –mode=teft –user odmin@hat.ru –class=spam –source=corpus –deliver=summary: No such file or directory
/home/dronga/test/1274301779.M6738P79179.mail01.hat.ru,S=9142,W=9327:2,
find: cat /home/dronga/test/1274301779.M6738P79179.mail01.hat.ru,S=9142,W=9327:2,|/usr/local/bin/dspam –mode=teft –user odmin@hat.ru –class=spam –source=corpus –deliver=summary: No such file or directory

И как это понимать?? Очевидно, что find отрабатывает, print есть, а вот по каким канонам разворачивается или не разворачивается exec  непонятно. Read the rest of this entry »

Samsung и Microsoft против пользователей??

Именно такой вопрос складывается в моей голове. Причем не просто пользователей, а абсолютно легитимных пользователей. Это продолжение предыдущего поста.

В кратце: куплен нетбук Samsung N140 с предустановленной пробной версией Microsoft Office Home & Student на 1 год. Последнюю не удается активировать (нет ключа активации продукта). Имеющийся на рабочем столе ярлык “Предоплаченная версия Microsoft Office на 1 год – Онлайн” ведет или к покупке полной версии продукта за 89$, либо к скачке пробной 60-дневной версии (ещё и с предварительной регистрацией).

Read the rest of this entry »

Нетбуки Samsung и предоплаченный MS Office 2007 на один год

Я уже писал раннее, что подарил своей девушке нетбук на 8 марта. Астрахань, к сожалению, не Москва и даже не Питер, поэтому брал не по качеству, не по деньгам, а что называется, по наличию. Даже по заказу за 2 недели до 8 марта никто ничего приемлемого предложить не смог, вот такой у нас город. В итоге, надо сказать, повезло. Девушка стала счастливой обладательницей Samsung N140-KA06. Я в курсе про KA01/KA02 и КА03/04, и про КА05/06 тоже, но в наличии был только этот, да ладно, оставим 3% производительности на совести поставщиков и менеджеров.
Я был очень приятно удивлён производительностью и общим качеством сборки, с этим нетбуком реально приятно работать. Операционная система предустановленна, наклейка с ключом активации прилеплена снизу.
На рабочем столе обнаружился ярлык Предоплаченная версия Microsoft Office 2007 (1 год). Это тоже в числе приятных сюрпризов. На всякий случай сверился с документацией на сайте. Действительно, в списке предустановленного ПО присутствует Microsoft Office Home & Student(пробная версия 1год). Read the rest of this entry »

Какой компьтер я купил бы сегодня для дома?

Не важно, по какой причине вы читаете этот материал – я пишу его для себя. Просто чтобы расставить всё по полочкам, а то много информации в голове крутится. Может кому-то поможет. Но надеюсь, что кто-то, прочитав этот пост, даст совет по делу – я ведь не истина в последней инстанции и тоже могу заблуждаться.

Как обычно, для начала определяемся с кругом задач. Это будет мой домашний компьютер, стационарный, постоянной дислокации. Какие задачи решаются на моем домашнем компьютере?

1. Интернет-направление. Интернет-серфинг: поиск информации, одноклассники, почта, вконтакте, блоггинг, и всего этого много. Удаленное администрирование. Обязательно скачка/раздача торрентов, иногда в режиме 24×7. Обязательно аська, IRC. Обычно всё это занимает ~500MB оперативной памяти и весь свободный интернет-канал.
2. Музыка. Без особых претензий к качеству звука, просто прослушивание. Музыка с торрентами занимают порядка 80% моего жесткого диска, и я достаточно тесно ощущаю себя на 150GB.
3. Программирование, в простонародье кодинг. Как веб-ориентированный, так и системно-прикладной. Быстрая работа LAMPP, шустрая компиляция. Технологии PHP/MySQL/Java/C#/Mono/Python, и здесь же задачи по дебагу. Специфичные задачи, возможно участие в распределенных математических вычислениях. Перебор различных комбинаций входных символов с последующим преобразованием по определенному алгоритму и сравнение с эталонным значением. Просто всё должно работать очень быстро, даже если алгоритм кривой. Всё-таки время дороже любой железки =)
4. Видео, просто просмотр. Возможность вывода на панель. Очень редко редактирование в незначительных масштабах для домашних нужд.
5. Игры. Всё-таки хочется увидеть любимые игры в новом свете, испытать новые ощущения; увидеть, то чего не увидишь со старой видеокартой (наконец-то блики и тени, настоящая вода, живые листья, реалистичная мимика… то в чем надоело себе отказывать). Поиграть в новые игры, которые захватывают миллионы людей по всему миру и при этом опять-таки не чувствовать себя ущемленным в fps. Приставки на сегодняшний день не устраивают по целому ряду показателей: цены на игры, привычка играть с мышкой, отсутствие возможности “наращивания мощностей”, отсутствие поддержки передовых технологий 3D изображения. Интегрированное решение, скорее всего, отпадает.
6. Офисные задачи на передовых офисных пакетах – объёмы предполагаются большие и это должно работать очень шустро.
7. Виртуализация. Спокойная работа при 1-2-3 образах в виртуальной машине запущенных параллельно. Моделирование систем/серверов для экспериментов.

Дополнительные условия.
1. Задачи естественно запускаются не монопольно. Надо всё и сразу.
2. Этого компьютера должно хватить лет на 5-6.
3. Возможность апгрейда/разгона. Всё-таки прирост даже в 500МГц всегда будет ощутим. А если есть возможность поставить новый процессор или добавить вторую видеокарту – это вообще здорово.
4. Цена. Она не фиксирована, но должна быть обоснованной. И не забываем, что это всё за счет семейного бюджета, а не олимпийского. А значит, установим для себя планку в 30 000 честно заработанных рублей.
Read the rest of this entry »

RuCTF 2010 Quals. Задание CTB 100.

Практически случайным, но попутным ветром меня закинуло в отборочный этап соревнований RuCTF 2010. Это был не традиционный Capture the flag, а специальные задания, успешное выполнение которых отделяло лузеров от вынеров =) А дальше самых вынеров в финал RuCTF. Задания раскиданы по категориям: Admin (задания на администрирование), CTB (хакинг сайтов), Crypto (криптография), Forensics (судебная экспертиза), JoyStory (развлекательная ветка, творческие задания), PPC (программирование), Reverse (дебаг, отладка приложений), Stegano (стеганография). В каждой категории по 5 заданий, расположенных в порядке увеличения числа заработанных очков за его решения. От 100 до пятисот с шагом в 100 соответственно. При этом, глядя на scoreboard (там показывается сколько человек уже решило задание) не могу сказать, что сложность заданий адекватна количеству очков за его выполнения.

В силу специфики моих увлечений решить хотя бы одну задачу было делом чести =) Как-то с ходу налетел на CTB 100. CTB означает Crack the Box. На отдельном домене якобы ведется голосование за твою команду и твоя задача обеспечить ей проходной был выше определенного порога голосов. Естественно голосов нужно не 3 и даже не десять, при этом система запоминает IP адрес проголосовавшего =) Сразу был запущен FireFox с плагином LiveHTTPHeaders и первый голос-пакет был успешно зафиксирован.
Read the rest of this entry »

Как работать из дома с ресурсами которые доступны только внутри корпоративной сети??

Очень часто мы жестко привязаны к компьютеру и к интернету. И беда не в этом факте, а в том что мы привязаны к конкретному компьютеру. Как правило – это компьютер на вашем рабочем месте. Естественно он подключен к корпоративной рабочей сети. И необходимые ресурсы для работы соотвественно тоже находятся в корпоративной сети и доступны только из неё. Вы бы и рады уйти домой пораньше, чего-нибудь там перекусить и с чашкой горячего кофе преспокойно доделать начатое дома… Но ресурс из дома недоступен.. поэтому мы будем сидеть на работе до ишачей пасхи. Что-то не здоровое в такой ситуации.

В этом вопросе может присутствовать огромное множество нюансов и деталей, которые могут нам подыграть или наоборот развеять все наши надежды. К сожалению, описать все пожалуй невозможно, но про один из вариантов расскажу. Сразу откинем варианты связанные с RDP и его вариации. Будем играть голыми руками =)
Read the rest of this entry »

Lekhonee – блоггинг клиент для WP в Linux

Это экспериментальная запись. В Центре приложений Ubuntu (9.10 Karmic Koala) абсолютно случайно наткнулся на клиент блоггинга Wordpress. Называется Lekhonee. Изначально lekhonee имел версию только для KDE, однако на сейчас существуют версии для двух фронтэндов, написанных на PyKDE4 и pygtk соответственно. Поэтому былые комментарии в духе “Данунах: он половину кед за собой тянет” более не актуальны. Вещь конечно не первой необходимости, но наверняка многих смущают возможности постинга в самой админке.

Я сам вообще не очень доверяю веб-интерфейсам. Мне не всегда понятна логика интерпретации вводимых символов, особенно в новомодных навороченных интерфейсах. Вводишь HTML-код и думаешь, порежет он и его или нет?? Выкладываешь листинг и думаешь, а как он его отформатирует. А бывает и своё добавляет. Есть такие расстыковки практически во всех WYSIWYG-редакторах.

Например, у меня дома практически нереально “сидеть на одноклассниках”. Весь мыслимый функционал перенесли на сторону клиента. Я не сторонник таких решений, должна быть золотая середина. В итоге, не худшая в общем-то машинка страшно тормозит на такой простенькой задачке. Под не худшей машинкой я подразумеваю Intel Celeron 1100, 128*3 MB оперативной памяти, Nvidia GeForce 4 MX400 64MB, LAN-подключение к Интернет на скорости 480 кбит/сек. Ни один сайт не должен тормозить на такой системе. На практике получается абсолютно наоборот: тормозит и вешает всю систему всего один сайт. На всех браузерах картина идентичная, единственное, ощутимое отличие в лучшую сторону отмечается в огнелисе под ALT Linux, уж не знаю что они там подкрутили.

Очень долгое время сидел на GPRS-модеме и прекрасно представляю что значит платить по трафику =) Это ещё один минус. Особенно постинг из админки WP. Клиентский интерфейс с вашей машины периодически отсылает информацию о ваших действиях. И конечно это всё вытекает в многоразовое увеличение объемов трафика.

В конце-концов, в том же WP, писать посты не совсем удобно. Потому что на 17-дюймовых мониторах при разрешении 1024*768 место под ввод непосредственно текста остается совсем немного. А когда из-за несовместимости с тем или иным браузером (или даже билдом браузера) что-то начинает ехать – тут вообще туши свет. Легко можно убить плоды часовых стараний.
Read the rest of this entry »

Письма от Moodle в кривой кодировке??

Moodle успешно работает уже более года. Как-то незаметно мы пересекли эту границу. За это время более-менее разобрались с основным функционалом, сейчас потихоньку работаем над увеличением предоставляемых возможностей и устранением имеющихся “шероховатостей”. Всё-таки это очень жизнеспособная платформа. Немного удивляют периодические предложения сделать из учебного портала гламурный сайт =) Почему-то забывают об общей концепции системы, её назначении, хотят из кареты сделать тыкву. От таких посягательств пока что успешно отбиваемся.

Хотя, положив руку на сердце, пора бы уже что-то решить с дизайном. Используемый стандартный шаблон давно отстал от современных требований эргономики. Не те цвета, не там кнопки, да и просто криво интерпретируется браузерами. Устарел он. Тут съехало, там поплыло.. и без валидатора всё понятно =)

Но это заметки на будущее. Сейчас разговор пойдёт об отправляемых системой Moodle письмах. А точнее их кодировке. Read the rest of this entry »

В почтовой службе Gmail by Google изменен алгоритм забора сообщений со сторонних почтовых серверов

18 декабря что-то ударило в голову разработчикам сборщика почты в Gmail (функция имеет оригинальное название POP3 mail fetching). Не знаю какою природу/градус имеет это что-то, но отныне почта от Google использует APOP в качестве первичного средства авторизации на стороннем почтовом сервере при заборе сообщений по протоколу POP3.

Подобные изменения породили неожиданные проблемы. Стали поступать жалобы о том, что письма более не забираются с ящиков aspu.ru, соответственно более не доставляются в Gmail. Сперва я просто не верил в существование проблемы. При этом недовольные пользователи долго сбивали с толку говоря что у них “не работает редирект”.

По неподтвержденным данным (со слов пользователей) подобным образом изменили алгоритм работы и другие крупные почтовики, такие как Yandex и Mail. Если у вас похожие симптомы – обязательно читаем дальше
Read the rest of this entry »

Применение MySQL C API

За что я люблю OpenSource? За открытость, за прозрачность, которые определяются только моими собственными знаниями и квалификацией. Устранение разного рода недугов свободного открытого программного обеспечения в моих руках.
Нашел я одну программу, её назначение не принципиально – мечта заказчика!! Но вот одно лишь не подходит по ТЗ.. логи пишет в файл, а нужно в базу. Программу собирал из исходников, скачанных с официального сайта в виде тарбола. Проглядел исходники нашел функцию записи сообщения в файл – осталось переписать функцию на запись того же сообщения в базу и пересобрать программу. Наверное, для рядового Windows-пользователя ход моих мыслей напоминает проектирование Лунохода =))
Недолгий поиск наталкивает меня на MySQL C API, о существовании которого я даже не подозревал. Дальше просто выложу рабочий пример со строкой компиляции, многим новичкам сэкономит массу времени.

Read the rest of this entry »

←Older