Por Galicia Confidencial | Ourense | 15/11/2016 | Actualizada ás 17:18
Arredor da metade de todos os correos electrónicos en circulación son lixo ou máis coñecidos como spam (mensaxes non solicitadas, non desexadas e/ou de remitente descoñecido e que teñen por finalidade realizar publicidade, obtención de datos persoais, estafas económicas, introdución de virus ou outros prexuízos para o receptor). Dada a “enorme problemática asociada a eles”, Noemí Pérez desenvolveu na súa tese de doutoramento un novo modelo de clasificación do spam máis eficiente e tres algoritmos para clasificar os correos lixo que están no que chama “rexión fronteira”, aqueles que non se poden clasificar con ningunha regra das que aplican os actuais clasificadores.
A tese, titulada 'Modelo intelixente para a clasificación de correos spam baseado no emprego de conxuntos aproximados', foi dirixida polo profesor José Ramón Méndez Reboredo e presentada na Escola Superior de Enxeñaría Informática do campus de Ourense da Universidade de Vigo. “Durante a realización deste traballo de investigación estudouse a efectividade de distintas técnicas populares no filtrado de correos lixo. Ademais, desenvolveuse un estudo sobre a inclusión de conxuntos aproximados na detección de correos ilexítimos e a súa posible combinación coas metodoloxías xa existentes para a mellora do filtrado”, explica a xa doutora.
NOVO ENFOQUE
A técnica dos conxuntos aproximados, indica a investigadora, é unha técnica que permite a partir dunha cantidade de datos xerar unha serie de regras de decisión. Unha desas regras de decisión pode ser, por exemplo, que se no correo aparece "buy" ou "viagra" é clasificado como correo lixo. Esta técnica, apunta, “posúe características que se adaptan á perfección ao dominio do filtrado de correo lixo: habilidade para descubrir patróns ocultos, identificación de relacións que os métodos estatísticos non proporcionan, xeración do conxunto de atributos mínimo para a clasificación e a posibilidade de xerar regras de decisión”.
A pesar destas propiedades, os conxuntos aproximados constitúen unha técnica apenas usada neste ámbito ata o momento, segundo salienta a enxeñeira informática. “O traballo que realizamos introduce un novo modelo para o filtrado de correos lixo baseado no emprego de conxuntos aproximados xunto cunha nova aproximación para a rexión fronteira combinado con outras técnicas de aprendizaxe automática así como unha avaliación das técnicas máis usadas comunmente e unha comparativa destas co novo modelo proposto”, resume Noemí Pérez.
No estudo realizado, engade Noemí Pérez, proponse “unha estratexia para a clasificación daqueles correos electrónicos que están na chamada rexión fronteira, aqueles que non se poden clasificar con ningunha regra”. Para acadalo, a investigadora desenvolveu tres heurísticas diferentes, ou algoritmos, que foron sometidas á comparación cos mellores clasificadores existentes para demostrar a súa efectividade. “En todos os casos a aplicación de conxuntos aproximados obtivo un maior número de correos correctamente clasificados e unha baixa taxa de erros de tipo falso positivo, só superado nalgúns casos polos clasificadores SVM e Flexible Bayes”, comenta.
NATUREZA CAMBIANTE DO 'SPAM'
O modelo proposto pola investigadora combina métodos de aprendizaxe automática, o conxunto de regras xerado mediante a utilización de conxuntos aproximados e a aproximación máis eficaz para clasificar correos na rexión fronteira desenvolvida durante a a elaboración da tese de doutoramento.
A proposta resultante, indica Noemí Pérez, “saca partido da rápida execución das técnicas de aprendizaxe automática e a gran precisión alcanzada mediante o uso de conxuntos aproximados”. No estudo realizado, precisa a doutora, póñense de manifesto dúas conclusións moi importantes á hora de realizar a avaliación do correo lixo, como son a importancia dos erros de tipo falso positivo e todos os problemas asociados ao chamado “concept drift”, concepto que se refire á natureza cambiante do correo lixo.
As técnicas que implementan aprendizaxe continua, indica neste senso a investigadora, “son máis tolerantes aos cambios da natureza do spam debido á actualización constante do coñecemento manexado polo modelo”.
“Debe terse en conta que os remitentes de correo lixo acumulan cada vez máis experiencia e agudizan o seu inxenio para que os seus correos non sexan detectables con facilidade. Isto, xunto coa natureza cambiante do contido destes correos e o enorme custe que esta práctica supón a empresas e usuarios, fai necesaria unha constante innovación nas técnicas de detección de spam”, comenta Noemí Pérez.
Ademais, engade, resulta importante analizar de modo exacto a súa efectividade para non desperdiciar recursos e tempo en técnicas que non poidan proporcionar información útil, informa Rosa Tedín no DUVI.
Se tes problemas ou suxestións escribe a webmaster@galiciaconfidencial.com indicando: sistema operativo, navegador (e versións).
Agradecemos a túa colaboración.