Introduction
La pollution par le spam des contenus sur les environnements ouverts comme le Web, les forums, les blogs, et tous les sites collaboratifs ouverts du Web, se déploie à très grande vitesse et attaque aujourd’hui tous les média du Web. Le succès du Web est directement lié à son ouverture, la contrepartie en est que toute source d’information ouverte peut être manipulée de façon malicieuse pour être détournée de son but initial. Le phénomène est déjà extrêmement important pour tous les acteurs de l’Internet et constitue une menace de premier ordre pour cette économie.
Le spam dans le cas du Web est aujourd’hui connu sous le nom de spamdexing. Dans le milieu des années 90, il a largement participé au déclin de nombreux moteurs de recherche alors que Google montait en puissance grâce à des algorithmes de référencement plus robustes au spamdexing. Google a rapidement été rattrapé par le phénomène. Tous les acteurs du Web2.0 sont directement menacés par la généralisation et la croissance des différents phénomènes de spam/spamdexing. La pollution du Web est devenue tellement importante que tous les moteurs de recherche commerciaux doivent aujourd’hui consacrer une partie importante de leurs ressources à la lutte antispam.



Bien au-delà des sites Web, le spam attaque aujourd’hui toutes les sources d’information ouvertes comme les blogs, les wiki, les forums, les sites collaboratifs, les réseaux sociaux et plus généralement tous les réseaux d’interaction basés sur le partage ou l’échange de contenu. Les enjeux économiques et sociaux sont devenus extrêmement importants pour les différents acteurs du Web et pour les utilisateurs: les moteurs de recherche, les blogs et tous les sites pollués meurent très rapidement.

Alors que le spam sur les e-mails (90% du trafic des e-mails) a fait l’objet de nombreuses mesures aussi bien techniques que légales, très peu a été fait pour toutes les formes de spamdexing adressées dans ce projet. Il n’y a pas aujourd’hui de parade pour ces formes récentes de spam et les entreprises qui commercialisent des environnements de développement pour les blogs, wiki, etc ainsi que les utilisateurs sont à la merci des spammeurs. Le phénomène de spam est très diversifié. Une caractéristique essentielle est qu’il s’adapte rapidement à toutes les parades et qu’il s’agit d’une bataille permanente entre spammeurs et acteurs du web. Il faut que les parades soient suffisamment génériques pour s’adapter elles même en permanence aux nouvelles sources de spam et pour pouvoir être déployées rapidement par les différents acteurs du Web. C’est l’objet du projet de développer des outils permettant de contrer le spamdexing sous ses différentes formes et de les déployer à grande échelle en situation réelle.