« Filtrer le SPAM (épisode 1)
Ankelia Nature - Reportage de la CCI de Troyes »


Filtrer le SPAM (épisode 2)

Après avoir dressé un état des lieux sur la nature des spams reçus sur un échantillon de boîtes mails « témoins », intéressons-nous aux différentes solutions qui peuvent être mises en œuvre pour régler le problème.

LE FILTRE SUR LA MACHINE DU DESTINATAIRE

Alors que les premières nuisances faisaient leur apparition il y a quelques années, la solution qui s’est imposée d’elle-même (et qui était finalement davantage une contrainte, une obligation plus qu’une « solution »), c’est le tri au niveau du poste de l’utilisateur final, c’est-à-dire du destinataire propriétaire de la boîte-email. Cette tache étant fastidieuse, les éditeurs de logiciels se sont intéressés au problème et ont proposé différentes solutions logicielles à installer sur le PC de bureau, et qui s’efforceraient de faciliter le travail de purge par différentes méthodes mais principalement par une analyse sémantique du contenu de chaque mail entrant afin de déterminer s’il correspond à des critères de SPAM. Le gestionnaire de courrier Thunderbird (ersatz Open Source de l’illustre Outlook) propose depuis quelques années maintenant ce type de solution de filtrage totalement intégrée au logiciel. Le principe est que l’utilisateur va trier les premiers jours l’ensemble de son courrier et classer le SPAM dans un dossier « indésirables ». Au fur à mesure de ce tri, le logiciel « apprend » ce que l’utilisateur considère comme du SPAM. Plus l’utilisateur trie des spams passés entre les mailles du filet, plus le logiciel apprend, et plus il devient pertinent. Au bout de quelques semaines, l’essentiel des SPAMS est traité en automatique grâce à l’apprentissage. Et l’utilisateur peut aller jeter un œil de temps à autre dans le dossier « indésirables » pour vérifier qu’il n’y a pas eu de filtrage « excessif », à savoir des courriers qui aient été considérés par erreur comme des SPAMS (on parle de faux positifs).

Ce type de filtrage a des avantages et des inconvénients :

Avantages :
- Il tient compte des comportements et de la nature du courrier reçu par le destinataire, afin de constituer un filtre « sur mesure »
- Le dossier « indésirables » permet d’aller visiter le résultat du filtre et de rattraper une mise à l’écart abusive d’un courrier

Inconvénients :
- Il implique une période d’apprentissage
- Il est nécessaire d’aller vérifier un dossier « indésirables » régulièrement, ce qui revient in fine à passer en revue tout les spams reçus. Et passer en revue tous les spams reçus n’était-ce pas ce qu’on faisait à la genèse quand il n’y avait pas de solutions de filtrage ? Corollairement on oublie parfois d’aller faire ce « tour de vérification » pendant quelques jours, jusqu’à ce qu’un correspondant nous alerte qu’il n’a pas eu de réponse à son mail … et qu’on le retrouve finalement parmi les centaines de mails triés dans les indésirables.
- Un expéditeur dont le message a été filtré n’est pas prévenu, et peut attendre une réponse qui n’arrivera jamais tandis que son message est malencontreusement parti à la trappe.

LES FILTRES AU NIVEAU DU SERVEUR

Il y a plusieurs philosophies de filtrage côté serveur qui existent. Le filtrage côté serveur à un handicap, c’est qu’au sein d’une même entité, il va s’appliquer à tous (même s’il peut y avoir quelques variables d’ajustements). On citera les principales méthodes suivantes :

• Le filtre par analyse sémantique

On décortique le contenu du message, on « note » les différentes caractéristiques, chaque élément faisant penser à du SPAM rajoute des points, et au delà d’un certain nombre de points, le message est considéré comme un spam. Dès lors, une des trois stratégies est définie lors de la mise en place de la solution de filtrage : soit il est mis sur le serveur dans un dossier indésirable que chaque utilisateur va devoir venir visiter pour faire la chasse au faux positifs (comme pour Thunderbird et le filtrage sur le poste de l’utilisateur), soit il est transmis mais avec un label « [SPAM] » dans le sujet (qui permettra à l’utilisateur de mettre en place une règle de filtrage), soit il est détruit.

Avantage :
- L’utilisateur a toujours accès aux SPAMs reçus pour parer à une erreur de filtrage (fréquentes d’après nos tests sur ce type de solutions)

Inconvénients :
- Même principe que le filtrage sur poste avec Thunderbird, sauf que le filtre n’apprend pas et ne se personnalise pas en fonction de critère comportemental de son utilisateur
- Beaucoup trop de « faux positifs » à notre avis
- Implique de re-trier les SPAMs reçus « au cas où » (et donc une fois encore d’y passer beaucoup de temps).
- Pfizer, le fabricant du Viagra, ou les supermarchés Casino ne seront probablement jamais de vos clients, car ils risquent bien de finir à la trappe en déclenchant les filtres …

• Le filtre par vérification que l’expéditeur est « humain »

Le principe de ce filtre fait reposer l’essentiel du travail de filtrage sur les épaules de celui qui écrit. Lors de la première expédition d’un message à votre attention, la missive est mise en quarantaine et votre correspondant reçoit un message automatique, qui lui demande de se rendre sur une page web spécifique et de recopier un cryptogramme visuel, afin de prouver qu’il est humain et réellement motivé pour vous écrire. Nous appelons cela malicieusement une « convocation à l’examen ». Une fois l’examen de passage réussi, l’expéditeur est ajouté à une liste de personnes accréditées à vous écrire. S’il n’y a pas de confirmation, le message est stocké dans une corbeille à SPAM (avec plusieurs centaines d’autres, évidemment)

Avantage :
- Le système est (trop) fiable, et ne vous écriront que ceux qui sont humains et motivés

Inconvénients :
- Particulièrement trivial à notre sens à l’égard des correspondants. Pourrait se tenir si dans les relations professionnelles nous n’avions tous que des fournisseurs (corvéables) et pas de clients (exigeants). Le monde n’étant pas ainsi fait , mettre en œuvre des solutions de filtre qui vont imposer un examen à vos clients pour avoir le droit de vous écrire nous parait rédhibitoire.
- Les utilisateurs modérés de l’email vous écriront le lundi matin, reviendront lire leur mail l’après midi pour avoir la réponse qu’ils attendent tant de vous, et n’auront comme feed-back que la convocation à l’examen de passage sus évoqué. Irritant !
- Les utilisateurs débutants ne comprendront pas forcément le principe de votre filtre de mails et mettront l’invitation à l’examen à la poubelle.
- Certains filtres anti-spams sémantiques considèrent la convocation à l’examen comme un spam. Il se peut que celui qui cherchait à vous écrire « passe a coté ».
- Ce type de filtre peut créer des situations complexes entre deux expéditeurs utilisant ce type de filtre. L’utilisateur A écrit à B. B utilise ce type de filtre. Le serveur de B envoie donc la convocation à l’examen. Or A utilise aussi le filtre le serveur de A reçoit donc un mail du serveur B et lui envoie à son tour une convocation à son propre examen. Et voilà comment deux utilisateurs pourront se louper, et comment des convocations à l’examen « anti spam » resteront mises en quarantaine jusqu’à ce que l’un des deux prennent le temps d’aller voir son dossier de quarantaine.
- Vous ne recevrez plus les mailings et les communiqués, y compris ce qui vous intéressent si vous ne traitez pas manuellement votre dossier corbeille et si vous n’autorisez pas les serveurs de routages à vous écrire.

• Le filtre de bannissement des ordinateurs spammeurs

A l’échelle internationale des organismes tiennent à jour des listes des ordinateurs dont la vocation essentielle (voire unique) est de spammer. Ces listes sont appelés des listes RBL Quand une opération de spams démarre à partir d’une adresse IP (numéro unique, équivalent du « numéro de sécurité sociale » pour les ordinateurs connectés à Internet), l’adresse est ajoutée dans les heures qui suivent sur la liste noire.

La technique de filtrage consiste à ce qu’à chaque e-mail présenté par un expéditeur à votre serveur de mail (PIC en l’espèce) ce dernier interroge les listes noires, afin de déterminer si l’expéditeur est « fiché » ou pas. Si le serveur expéditeur est en liste noire (on dit « blacklisté »), le message entrant n’est pas accepté, et l’expéditeur est informé du refus de prendre en charge son mail (il n’est donc pas laissé dans l’ignorance).

Ce type de filtre est le moyen idéal de contrer les spams des « flibustiers » (voir notre Filtrer le spam - épisode 1) qui utilisent des ordinateurs lambda pour envoyer des spams en les détournant par le biais d’un virus.

Avantages :
- Vous n’avez aucun temps à passer à trier les mails ainsi filtrés puisqu’ils ne remontent pas jusqu’à vous, le filtrage est automatique
- Les listes RBL sont très bien gérées, et ne filtrent que des adresses IP impliquées dans des SPAMs de « flibustiers »
- L’utilisateur qui est filtré est prévenu que son message n’a pas été transmis
- La mise à jour / confrontation est faite en temps réel.

Inconvénients :
- Les machines récemment « converties » à l’envoi de SPAM ne sont référencées qu’après quelques heures, il y a donc quelques spams qui parviennent à passer à travers les mailles du filet
- De ne filtrer que les SPAMs de « flibustiers » est autant une qualité qu’un défaut : cela laisse passer tous les envois en nombre « gris » (ce que nous appelions les « Spams sporadiques » dans notre état des lieux de l’épisode 1) et ne filtrera pas la « publicité opportune »


NOS ACTIONS ET PRECONISATIONS

• Nos objectifs (devant obligatoirement être conciliés entre eux) :

- Filtrer le maximum de spams
- Minimiser le travail du propriétaire de l’adresse mail en lui évitant de consacrer trop de temps à passer en revue des résultats de filtrage
- Ecarter les solutions qui génèrent trop de « faux positifs » Ne pas faire reposer le filtrage sur les épaules de l’expéditeur

Pour remplir ces objectifs, ont été écartés :

- Les filtrages sémantiques sur les serveurs avec notation (trop de « faux positifs »)
- Les filtrages qui impliquent une démarche rébarbative à l’expéditeur (qui est parfois un acheteur) notamment par « convocation à examen » et cryptogramme

• Nos actions

Pendant plusieurs semaines, sur notre serveur de mail de nos boîtes « @pic.fr » nous avons mis en place un filtrage par RBL qui nous a permis de diviser par 5 à 6 le nombre de spams de « flibustiers » (à titre d’exemple, une adresse qui recueillait une centaine de SPAMs pour Viagra, Cialis, Casino par jour n’en reçoit plus que 10 à 15).

AVANT :
(explications détaillées dans notre épisode 1)

« Publicité opportune » : 15
« SPAM sporadique » : 15
« SPAM Flibustiers » : 100

Total : 130

APRES :
« Publicité opportune » : 15
« SPAM sporadique » : 15
« SPAM Flibustiers » : 15

Total : 45

Après plusieurs semaines de tests, nous n’avons eu aucun écho de « faux positifs » sur cette méthode de filtrage, elle a donc été généralisée à tous nos serveurs.

• Nos prescriptions

Nous incitons les utilisateurs à installer un outil de filtrage de SPAM avec apprentissage sur leur machine de bureau. Il permet de filtrer aisément les spams sporadiques (sur un critère de domaine expéditeur) et les publicités dont le lien de désinscription serait moins opérationnel qu’on serait en droit de l’espérer. Ce type de filtrage est très efficace et finalement très peu contraingrant dans le cadre d’un ultime écrémage.

Nous conseillons l’utilisation du gestionnaire de courrier Thunderbird, gratuit, opensource, qui a été développé par la même Fondation qui a en charge le développement du navigateur Firefox.

Il aura également une certaine efficacité sur les quelques spams flibustiers qui peuvent passer à travers les mailles du filet de notre filtrage RBL.

CONCLUSION :

Les choix et prescriptions permettent donc de limiter considérablement le temps nécessaire aux destinataires pour trier les spams, en leur épargnant d’avoir à récupérer ceux qui en sont assurément. Ils peuvent dès lors promptement effectuer le tri d’affinage et d’apprendre à leur logiciel de filtrage à reconnaître les spams selon leurs critères personnels.

Après quelques semaines, et avec quelques désabonnements et quelques classements en indésirables, notre boite mail de référence aux 130 spams devrait pouvoir ne plus recevoir que :

Publicité opportune » : 1
SPAM sporadique » : 3
SPAM Flibustiers » : 10

Total : 14

Et ceci avec donc très peu de spams à passer en revue pour vérification.

Laisser une réponse

Commentaire