Madspam

Le projet vise à développer une bibliothèque d’outils génériques permettant de s’adapter aux différentes sources et manifestations du spam, non seulement dans les deux applications cibles du projet (moteurs de recherche, blogs et forums) mais aussi dans les applications proches comme les wiki et des domaines émergents comme les réseaux sociaux. Pour ces différentes applications, l’interactivité et l’adaptabilité seront privilégiés. D’autre part le projet permettra à travers des campagnes de test à large échelle de mieux caractériser et analyser ces phénomènes de spamdexing qui parce qu’ils sont plus récents que le spam sur les courriers électroniques n’ont pas fait l’objet d’études systématiques ni de tentatives de législation.

 medium_400px-BWgraph40.pngmedium_400px-BHSSgraph40.png

Il s’appuie sur des acteurs du Web (France télécom - Orange pour les moteurs de recherche), BlogSpirit pour les blogs, KartOO pour les applications d’extraction d’information et pour la visualisation de grands graphes permettant la construction d’outils interactifs de navigation. Ces outils seront déployés en situation réelle par les partenaires du projet et intégrés dans les outils et services qu'ils proposent. Le portail Orange déploiera les solutions développées dans son moteur de recherche grand public et dans les solutions de services proposées à ses clients, principalement des grands comptes. Orange est également hébergeur de sites et de portails et pourra proposer à ses clients l’offre anti spamdexing issue du projet. BlogSpirit intégrera les technologies antispam dans ses progiciels. Compte tenu de l’ampleur du phénomène spam sur les blogs, cette offre est un enjeu de tout premier ordre pour les développeurs de plateforme comme BlogSpirit. Kartoo développera des outils de visualisation de grands graphes. Ces outils serviront initialement dans le projet pour visualiser des grands réseaux et analyser les phénomènes de spams comme par exemple les relations entre objets spammés. Ils serviront également d’interfaces de navigation pour l’analyse de la propagation d’information et le suivi de spam. Ils seront déployés pour compléter l’offre de Kartoo par des outils d’analyse du spamdexing.

Le modèle économique visé est d’une part un modèle traditionnel avec l’intégration des outils développés dans le projet dans les plateformes et progiciels des partenaires dans le but de leur assurer une avance technologique sur la concurrence. Il sera d’autre part un modèle « Web-publicitaire » dans le cas de la partie grand public du moteur Orange.

 

medium_rezo.2.png

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Les outils produits intégreront des algorithmes développés par les partenaires recherche du projet (FTR&D et LIP6). Deux grandes familles d’outils seront déployées. Tout d’abord l’analyse par des méthodes combinatoire et des techniques de diffusion dans les grands graphes. Ces méthodes analysent la topologie des connexions dans les grands réseaux afin de propager l’information, de catégoriser les nœuds des graphes et d’identifier des communautés. La seconde famille de techniques s’appuie sur des méthodes d’apprentissage statistique pour effectuer des tâches de classification ou d’ordonnancement. Les méthodes déployées sont capables de prendre en compte à la fois des informations de contenu dans les nœuds et la topologie des connexions.

Concernant l’échéancier, nous prévoyons une première mise en œuvre d’une bibliothèque de base, correspondant à l’état de l’art, de ces outils automatique à court terme (12 à 18 mois). Cette échéance est motivée par la rapidité d’évolution du marché et par les besoins actuels des acteurs industriels. Une seconde phase conduira à la mise en œuvre d’outils plus génériques et plus performants à échéance de 30 mois. Ces outils doteront les partenaires d’une véritable bibliothèque antispam, permettant de couvrir une très large gamme d’attaques.

Au-delà de l’utilisation directe par les partenaires, le projet prévoit une phase de valorisation auprès d’autres partenaires qui doit permettre de démontrer l’efficacité des approches proposées sur une gamme très complète de problèmes.