Temas: UNIVERSIDADE DE VIGO INFORMáTICA EMAIL

Unha enxeñeira galega crea un modelo para filtrar mellor o ‘spam’ no correo electrónico

Noemí Pérez, doutora da Universidade de Vigo, crea un novo modelo de clasificación do correo lixo máis eficiente que permite identificar mellor as mensaxes que están no que se chama “rexión fronteira”, as que non se poden clasificar con ningunha regra das que aplican os actuais clasificadores.

Por Galicia Confidencial | Ourense | 15/11/2016 | Actualizada ás 17:18

Arredor da metade de todos os correos electrónicos en circulación son lixo ou máis coñecidos como spam (mensaxes non solicitadas, non desexadas e/ou de remitente descoñecido e que teñen por finalidade realizar publicidade, obtención de datos persoais, estafas económicas, introdución de virus ou outros prexuízos para o receptor). Dada a “enorme problemática asociada a eles”, Noemí Pérez desenvolveu na súa tese de doutoramento un novo modelo de clasificación do spam máis eficiente e tres algoritmos para clasificar os correos lixo que están no que chama “rexión fronteira”, aqueles que non se poden clasificar con ningunha regra das que aplican os actuais clasificadores.

A tese, titulada 'Modelo intelixente para a clasificación de correos spam baseado no emprego de conxuntos aproximados', foi dirixida polo profesor José Ramón Méndez Reboredo e presentada na Escola Superior de Enxeñaría Informática do campus de Ourense da Universidade de Vigo. “Durante a realización deste traballo de investigación estudouse a efectividade de distintas técnicas populares no filtrado de correos lixo. Ademais, desenvolveuse un estudo sobre a inclusión de conxuntos aproximados na detección de correos ilexítimos e a súa posible combinación coas metodoloxías xa existentes para a mellora do filtrado”, explica a xa doutora.

NOVO ENFOQUE

A técnica dos conxuntos aproximados, indica a investigadora, é unha técnica que permite a partir dunha cantidade de datos xerar unha serie de regras de decisión. Unha desas regras de decisión pode ser, por exemplo, que se no correo aparece "buy" ou "viagra" é clasificado como correo lixo. Esta técnica, apunta, “posúe características que se adaptan á perfección ao dominio do filtrado de correo lixo: habilidade para descubrir patróns ocultos, identificación de relacións que os métodos estatísticos non proporcionan, xeración do conxunto de atributos mínimo para a clasificación e a posibilidade de xerar regras de decisión”.

A pesar destas propiedades, os conxuntos aproximados constitúen unha técnica apenas usada neste ámbito ata o momento, segundo salienta a enxeñeira informática. “O traballo que realizamos introduce un novo modelo para o filtrado de correos lixo baseado no emprego de conxuntos aproximados xunto cunha nova aproximación para a rexión fronteira combinado con outras técnicas de aprendizaxe automática así como unha avaliación das técnicas máis usadas comunmente e unha comparativa destas co novo modelo proposto”, resume Noemí Pérez.

No estudo realizado, engade Noemí Pérez, proponse “unha estratexia para a clasificación daqueles correos electrónicos que están na chamada rexión fronteira, aqueles que non se poden clasificar con ningunha regra”. Para acadalo, a investigadora desenvolveu tres heurísticas diferentes, ou algoritmos, que foron sometidas á comparación cos mellores clasificadores existentes para demostrar a súa efectividade. “En todos os casos a aplicación de conxuntos aproximados obtivo un maior número de correos correctamente clasificados e unha baixa taxa de erros de tipo falso positivo, só superado nalgúns casos polos clasificadores SVM e Flexible Bayes”, comenta.

NATUREZA CAMBIANTE DO 'SPAM'

O modelo proposto pola investigadora combina métodos de aprendizaxe automática, o conxunto de regras xerado mediante a utilización de conxuntos aproximados e a aproximación máis eficaz para clasificar correos na rexión fronteira desenvolvida durante a a elaboración da tese de doutoramento.

A proposta resultante, indica Noemí Pérez, “saca partido da rápida execución das técnicas de aprendizaxe automática e a gran precisión alcanzada mediante o uso de conxuntos aproximados”. No estudo realizado, precisa a doutora, póñense de manifesto dúas conclusións moi importantes á hora de realizar a avaliación do correo lixo, como son a importancia dos erros de tipo falso positivo e todos os problemas asociados ao chamado “concept drift”, concepto que se refire á natureza cambiante do correo lixo.

As técnicas que implementan aprendizaxe continua, indica neste senso a investigadora, “son máis tolerantes aos cambios da natureza do spam debido á actualización constante do coñecemento manexado polo modelo”.

“Debe terse en conta que os remitentes de correo lixo acumulan cada vez máis experiencia e agudizan o seu inxenio para que os seus correos non sexan detectables con facilidade. Isto, xunto coa natureza cambiante do contido destes correos e o enorme custe que esta práctica supón a empresas e usuarios, fai necesaria unha constante innovación nas técnicas de detección de spam”, comenta Noemí Pérez.

Ademais, engade, resulta importante analizar de modo exacto a súa efectividade para non desperdiciar recursos e tempo en técnicas que non poidan proporcionar información útil, informa Rosa Tedín no DUVI.

Temas: UNIVERSIDADE DE VIGO INFORMáTICA EMAIL