jan
18

Filtrer le SPAM (épisode 2)

Posté par Pierre DELAVAQUERIE dans Actualités

Après avoir dressé un état des lieux sur la nature des spams reçus sur un échantillon de boîtes mails « témoins », intéressons-nous aux différentes solutions qui peuvent être mises en œuvre pour régler le problème.

LE FILTRE SUR LA MACHINE DU DESTINATAIRE

Alors que les premières nuisances faisaient leur apparition il y a quelques années, la solution qui s’est imposée d’elle-même (et qui était finalement davantage une contrainte, une obligation plus qu’une « solution »), c’est le tri au niveau du poste de l’utilisateur final, c’est-à-dire du destinataire propriétaire de la boîte-email. Cette tache étant fastidieuse, les éditeurs de logiciels se sont intéressés au problème et ont proposé différentes solutions logicielles à installer sur le PC de bureau, et qui s’efforceraient de faciliter le travail de purge par différentes méthodes mais principalement par une analyse sémantique du contenu de chaque mail entrant afin de déterminer s’il correspond à des critères de SPAM. Le gestionnaire de courrier Thunderbird (ersatz Open Source de l’illustre Outlook) propose depuis quelques années maintenant ce type de solution de filtrage totalement intégrée au logiciel. Le principe est que l’utilisateur va trier les premiers jours l’ensemble de son courrier et classer le SPAM dans un dossier « indésirables ». Au fur à mesure de ce tri, le logiciel « apprend » ce que l’utilisateur considère comme du SPAM. Plus l’utilisateur trie des spams passés entre les mailles du filet, plus le logiciel apprend, et plus il devient pertinent. Au bout de quelques semaines, l’essentiel des SPAMS est traité en automatique grâce à l’apprentissage. Et l’utilisateur peut aller jeter un œil de temps à autre dans le dossier « indésirables » pour vérifier qu’il n’y a pas eu de filtrage « excessif », à savoir des courriers qui aient été considérés par erreur comme des SPAMS (on parle de faux positifs).

Ce type de filtrage a des avantages et des inconvénients :

Avantages :
- Il tient compte des comportements et de la nature du courrier reçu par le destinataire, afin de constituer un filtre « sur mesure »
- Le dossier « indésirables » permet d’aller visiter le résultat du filtre et de rattraper une mise à l’écart abusive d’un courrier

Inconvénients :
- Il implique une période d’apprentissage
- Il est nécessaire d’aller vérifier un dossier « indésirables » régulièrement, ce qui revient in fine à passer en revue tout les spams reçus. Et passer en revue tous les spams reçus n’était-ce pas ce qu’on faisait à la genèse quand il n’y avait pas de solutions de filtrage ? Corollairement on oublie parfois d’aller faire ce « tour de vérification » pendant quelques jours, jusqu’à ce qu’un correspondant nous alerte qu’il n’a pas eu de réponse à son mail … et qu’on le retrouve finalement parmi les centaines de mails triés dans les indésirables.
- Un expéditeur dont le message a été filtré n’est pas prévenu, et peut attendre une réponse qui n’arrivera jamais tandis que son message est malencontreusement parti à la trappe.

LES FILTRES AU NIVEAU DU SERVEUR

Il y a plusieurs philosophies de filtrage côté serveur qui existent. Le filtrage côté serveur à un handicap, c’est qu’au sein d’une même entité, il va s’appliquer à tous (même s’il peut y avoir quelques variables d’ajustements). On citera les principales méthodes suivantes :

• Le filtre par analyse sémantique

On décortique le contenu du message, on « note » les différentes caractéristiques, chaque élément faisant penser à du SPAM rajoute des points, et au delà d’un certain nombre de points, le message est considéré comme un spam. Dès lors, une des trois stratégies est définie lors de la mise en place de la solution de filtrage : soit il est mis sur le serveur dans un dossier indésirable que chaque utilisateur va devoir venir visiter pour faire la chasse au faux positifs (comme pour Thunderbird et le filtrage sur le poste de l’utilisateur), soit il est transmis mais avec un label « [SPAM] » dans le sujet (qui permettra à l’utilisateur de mettre en place une règle de filtrage), soit il est détruit.

Avantage :
- L’utilisateur a toujours accès aux SPAMs reçus pour parer à une erreur de filtrage (fréquentes d’après nos tests sur ce type de solutions)

Inconvénients :
- Même principe que le filtrage sur poste avec Thunderbird, sauf que le filtre n’apprend pas et ne se personnalise pas en fonction de critère comportemental de son utilisateur
- Beaucoup trop de « faux positifs » à notre avis
- Implique de re-trier les SPAMs reçus « au cas où » (et donc une fois encore d’y passer beaucoup de temps).
- Pfizer, le fabricant du Viagra, ou les supermarchés Casino ne seront probablement jamais de vos clients, car ils risquent bien de finir à la trappe en déclenchant les filtres …

• Le filtre par vérification que l’expéditeur est « humain »

Le principe de ce filtre fait reposer l’essentiel du travail de filtrage sur les épaules de celui qui écrit. Lors de la première expédition d’un message à votre attention, la missive est mise en quarantaine et votre correspondant reçoit un message automatique, qui lui demande de se rendre sur une page web spécifique et de recopier un cryptogramme visuel, afin de prouver qu’il est humain et réellement motivé pour vous écrire. Nous appelons cela malicieusement une « convocation à l’examen ». Une fois l’examen de passage réussi, l’expéditeur est ajouté à une liste de personnes accréditées à vous écrire. S’il n’y a pas de confirmation, le message est stocké dans une corbeille à SPAM (avec plusieurs centaines d’autres, évidemment)

Avantage :
- Le système est (trop) fiable, et ne vous écriront que ceux qui sont humains et motivés

Inconvénients :
- Particulièrement trivial à notre sens à l’égard des correspondants. Pourrait se tenir si dans les relations professionnelles nous n’avions tous que des fournisseurs (corvéables) et pas de clients (exigeants). Le monde n’étant pas ainsi fait , mettre en œuvre des solutions de filtre qui vont imposer un examen à vos clients pour avoir le droit de vous écrire nous parait rédhibitoire.
- Les utilisateurs modérés de l’email vous écriront le lundi matin, reviendront lire leur mail l’après midi pour avoir la réponse qu’ils attendent tant de vous, et n’auront comme feed-back que la convocation à l’examen de passage sus évoqué. Irritant !
- Les utilisateurs débutants ne comprendront pas forcément le principe de votre filtre de mails et mettront l’invitation à l’examen à la poubelle.
- Certains filtres anti-spams sémantiques considèrent la convocation à l’examen comme un spam. Il se peut que celui qui cherchait à vous écrire « passe a coté ».
- Ce type de filtre peut créer des situations complexes entre deux expéditeurs utilisant ce type de filtre. L’utilisateur A écrit à B. B utilise ce type de filtre. Le serveur de B envoie donc la convocation à l’examen. Or A utilise aussi le filtre le serveur de A reçoit donc un mail du serveur B et lui envoie à son tour une convocation à son propre examen. Et voilà comment deux utilisateurs pourront se louper, et comment des convocations à l’examen « anti spam » resteront mises en quarantaine jusqu’à ce que l’un des deux prennent le temps d’aller voir son dossier de quarantaine.
- Vous ne recevrez plus les mailings et les communiqués, y compris ce qui vous intéressent si vous ne traitez pas manuellement votre dossier corbeille et si vous n’autorisez pas les serveurs de routages à vous écrire.

• Le filtre de bannissement des ordinateurs spammeurs

A l’échelle internationale des organismes tiennent à jour des listes des ordinateurs dont la vocation essentielle (voire unique) est de spammer. Ces listes sont appelés des listes RBL Quand une opération de spams démarre à partir d’une adresse IP (numéro unique, équivalent du « numéro de sécurité sociale » pour les ordinateurs connectés à Internet), l’adresse est ajoutée dans les heures qui suivent sur la liste noire.

La technique de filtrage consiste à ce qu’à chaque e-mail présenté par un expéditeur à votre serveur de mail (PIC en l’espèce) ce dernier interroge les listes noires, afin de déterminer si l’expéditeur est « fiché » ou pas. Si le serveur expéditeur est en liste noire (on dit « blacklisté »), le message entrant n’est pas accepté, et l’expéditeur est informé du refus de prendre en charge son mail (il n’est donc pas laissé dans l’ignorance).

Ce type de filtre est le moyen idéal de contrer les spams des « flibustiers » (voir notre Filtrer le spam - épisode 1) qui utilisent des ordinateurs lambda pour envoyer des spams en les détournant par le biais d’un virus.

Avantages :
- Vous n’avez aucun temps à passer à trier les mails ainsi filtrés puisqu’ils ne remontent pas jusqu’à vous, le filtrage est automatique
- Les listes RBL sont très bien gérées, et ne filtrent que des adresses IP impliquées dans des SPAMs de « flibustiers »
- L’utilisateur qui est filtré est prévenu que son message n’a pas été transmis
- La mise à jour / confrontation est faite en temps réel.

Inconvénients :
- Les machines récemment « converties » à l’envoi de SPAM ne sont référencées qu’après quelques heures, il y a donc quelques spams qui parviennent à passer à travers les mailles du filet
- De ne filtrer que les SPAMs de « flibustiers » est autant une qualité qu’un défaut : cela laisse passer tous les envois en nombre « gris » (ce que nous appelions les « Spams sporadiques » dans notre état des lieux de l’épisode 1) et ne filtrera pas la « publicité opportune »


NOS ACTIONS ET PRECONISATIONS

• Nos objectifs (devant obligatoirement être conciliés entre eux) :

- Filtrer le maximum de spams
- Minimiser le travail du propriétaire de l’adresse mail en lui évitant de consacrer trop de temps à passer en revue des résultats de filtrage
- Ecarter les solutions qui génèrent trop de « faux positifs » Ne pas faire reposer le filtrage sur les épaules de l’expéditeur

Pour remplir ces objectifs, ont été écartés :

- Les filtrages sémantiques sur les serveurs avec notation (trop de « faux positifs »)
- Les filtrages qui impliquent une démarche rébarbative à l’expéditeur (qui est parfois un acheteur) notamment par « convocation à examen » et cryptogramme

• Nos actions

Pendant plusieurs semaines, sur notre serveur de mail de nos boîtes « @pic.fr » nous avons mis en place un filtrage par RBL qui nous a permis de diviser par 5 à 6 le nombre de spams de « flibustiers » (à titre d’exemple, une adresse qui recueillait une centaine de SPAMs pour Viagra, Cialis, Casino par jour n’en reçoit plus que 10 à 15).

AVANT :
(explications détaillées dans notre épisode 1)

« Publicité opportune » : 15
« SPAM sporadique » : 15
« SPAM Flibustiers » : 100

Total : 130

APRES :
« Publicité opportune » : 15
« SPAM sporadique » : 15
« SPAM Flibustiers » : 15

Total : 45

Après plusieurs semaines de tests, nous n’avons eu aucun écho de « faux positifs » sur cette méthode de filtrage, elle a donc été généralisée à tous nos serveurs.

• Nos prescriptions

Nous incitons les utilisateurs à installer un outil de filtrage de SPAM avec apprentissage sur leur machine de bureau. Il permet de filtrer aisément les spams sporadiques (sur un critère de domaine expéditeur) et les publicités dont le lien de désinscription serait moins opérationnel qu’on serait en droit de l’espérer. Ce type de filtrage est très efficace et finalement très peu contraingrant dans le cadre d’un ultime écrémage.

Nous conseillons l’utilisation du gestionnaire de courrier Thunderbird, gratuit, opensource, qui a été développé par la même Fondation qui a en charge le développement du navigateur Firefox.

Il aura également une certaine efficacité sur les quelques spams flibustiers qui peuvent passer à travers les mailles du filet de notre filtrage RBL.

CONCLUSION :

Les choix et prescriptions permettent donc de limiter considérablement le temps nécessaire aux destinataires pour trier les spams, en leur épargnant d’avoir à récupérer ceux qui en sont assurément. Ils peuvent dès lors promptement effectuer le tri d’affinage et d’apprendre à leur logiciel de filtrage à reconnaître les spams selon leurs critères personnels.

Après quelques semaines, et avec quelques désabonnements et quelques classements en indésirables, notre boite mail de référence aux 130 spams devrait pouvoir ne plus recevoir que :

Publicité opportune » : 1
SPAM sporadique » : 3
SPAM Flibustiers » : 10

Total : 14

Et ceci avec donc très peu de spams à passer en revue pour vérification.


Pas de commentaire disponible

jan
17

Filtrer le SPAM (épisode 1)

Posté par Pierre DELAVAQUERIE dans Actualités

Les courriers électroniques non sollicités qui cherchent à nous vendre du Viagra ou qui nous proposent de faire fortune au casino sont de plus en plus nombreux.

Nous avons toujours conseillé d’aborder le problème du SPAM avec philosophie, en nous appuyant sur le constat que nos boites aux lettres électroniques avaient finalement le même sort que nos boîtes aux lettres « réelles » alimentées un peu par le facteur et beaucoup par les distributeurs de prospectus (du journal gratuit au marabout qui donne les prochains résultats du PMU).

Après les boites aux lettres, les marabous s’attaquent à nos boites mails

Mais depuis quelques mois forcés sommes nous de constater que les SPAM ont pris des proportions qui ne rendent plus la comparaison postale efficace au moment de tenter de relativiser les nuisances des courriers électroniques non sollicités.

Pour persévérer dans l’analogie, la situation était devenue telle qu’on se retrouve chaque matin dans la situation de l’individu moyen qui découvrirait le soir en rentrant à son domicile, que sa boîte aux lettres est pleine de prospectus, à tel point que tous les distributeurs (facteur compris) ont déposé au surplus 2 sacs postaux complémentaires, en lui laissant le soin de trouver les 4 courriers importants dans les 672 plis ainsi abandonnés.

Il nous fallait donc revoir la façon d’aborder cette problématique, et mettre en place une stratégie optimum pour ce problème de SPAM, tandis que nous avions prototypé régulièrement des solutions qui s’étaient avérées non satisfaisantes à cause de dommages collatéraux fort gênants pour les utilisateurs : des courriers ponctuellement considérés comme des SPAM alors que ce n’en était pas.

Alors que nous avons arbitré notre stratégie de filtrage de SPAM et que nous sommes en train de la généraliser à tous nos serveurs après une période de test sur nos propres adresses emails, il nous paraissait important de vous expliquer le cheminement de la phase de « constat » à la phase de mise en place d’une solution.

Afin de poser une stratégie, il fallait donc en tout premier lieu voir qui envoyait du SPAM et comment, ce qui permettrait de faire le tri dans les systèmes de filtrage.

Il y a trois grandes familles de SPAM :

1- La publicité opportune, qui correspond à la publicité adressée qu’on reçoit dans nos boîtes aux lettres traditionnelles. La Redoute nous envoie les lettres parce qu’on est clients pour faire une annonce qui ne nous intéresse souvent pas, mais parfois si. Ce type de SPAM (qui n’en est presque pas un, in fine) dispose quasi toujours d’un lien de désabonnement valide et fonctionnel. Il représente grosso modo 10 à 20% du trafic polluant, suivant le profil de l’utilisateur et sa propension à s’inscrire spontanément à des newsletters et/ou participer à des concours.
2- Le SPAM sporadique, souvent en français, mais pas toujours, qui résulte d’une récupération de notre adresse email on ne sait où (lire « récupérer de manière licite ou non »), et qui fait que le spammeur en question va nous écrire une seule fois, ou une fois de temps en temps. Le lien de désabonnement est parfois efficace mais pas toujours. La publicité est envoyée avec une adresse de réponse souvent valide, ou du moins le nom du vendeur dans l’intitulé d’expédition. Là encore, cette famille représente 10 à 20% du trafic polluant comme pour la précédente.
3- Le SPAM de flibustiers, celui qui va nous proposer du Viagra ou de jouer au casino, plusieurs fois par jour, chaque jour de la semaine, en usant de tout les stratagèmes pour déjouer les éventuels filtres de SPAM qui se baseraient sur la sémantique du message. C’est le plus agaçant, le plus polluant, et il représente la majorité du trafic polluant : environ 70% des SPAM sur les « compte emails témoins » que nous avons analysés

Ce constat étant posé, quels peuvent être les moyens pour diminuer l’effet parasites de ces courriers indésirables

1- La « publicité opportune » peut être considérablement réduite en s’efforçant d’utiliser les liens de désabonnements systématiquement pendant quelques semaines. Le propriétaire du compte mail a donc la main dans ce cas …
2- Le SPAM sporadique avec son lien de désabonnement qui si il prête à caution a le mérite d’exister peut se traiter de trois façons à utiliser séparément ou mieux conjointement : utilisation du lien de désabonnement d’une part, l’ajout d’un filtre sur l’expéditeur ou un ajout en liste d’indésirables si votre gestionnaire de courrier (Le logiciel Thunderbird fait çà très bien par exemple)
3- Le SPAM de flibustiers laisse lui l’utilisateur impuissant tant la forme du message, l’expéditeur, le contenu du message varient à chaque envoi (ce qui est indispensable au spammeur pour contourner les filtres). Le SPAM de flibustiers ne vient jamais des mêmes adresses, ni des mêmes serveurs. Il utilise d’ailleurs souvent des ordinateurs d’utilisateurs lambda qui se transforme en relais de SPAM a l’occasion d’une contamination par un virus (dont c’est d’ailleurs souvent la fonction première : transformer des ordinateurs d’imprudents en machine à spammer).

On le comprend, gérer le troisième groupe et combattre les flibustiers, c’est s’attaquer à la plus grande proportion des courriers indésirables, à la plus nuisible, mais aussi à la plus difficile à filtrer de manière sémantique, puisque les promoteurs de ces SPAM redoublent d’efforts pour passer au travers des mailles du filet, et c’est même l’essentiel de leur occupation, tout en étant la clé de leur business.

Dans notre prochain billet, nous ferons le point sur les principales techniques de filtrages du SPAM et leurs inconvénients, tout en le remettant en perspective avec la priorité ci-dessus définie : faire la chasse aux flibustiers.


Pas de commentaire disponible

jan
15

Les moteurs de recherches les plus utilisés

Posté par Pierre DELAVAQUERIE dans Actualités, Référencement & Moteurs

Il y a quelques semaines alors nous annoncions que Google passait le cap des 90% de parts de marché, en nous appuyant sur les statistiques XITI qui ont l’excellent mérite de s’appuyer sur un échantillon de sites très importants (plus de 87000 !) pour appuyer leurs études de marché.

Xiti vient de rendre public les statistiques de décembre 2007 :

Google continue à progresser à 90,83%.

Suivent Yahoo (2,92%), Live/Msn : 2,53% et Orange Wanadoo à 1,57%.

L’etude complete est disponible sur Xiti Monitor.


Pas de commentaire disponible

jan
1

Bonne année 2008 !

Posté par Pierre DELAVAQUERIE dans Actualités

Toute l’équipe de PIC vous présente ses meilleurs voeux pour 2008 !


Pas de commentaire disponible