• Tirios y troyanos

19/01/07

¿Imposible luchar contra el spam?


Hector D. Calabia

Son las 11 de la mañana, y en el día mi programa de correo ya ha recibido, unos 25 «mensajes basura». Nada de lo que ofrecen me interesa y, si no entendiera inglés, no podría ni siquiera enterarme de qué ofrecen. Llegan a mis direcciones en varios servidores distintos, desde toda clase de direcciones diferentes. Algunos son francamente absurdos, cuando no ridículos: vienen llenos de frases sin sentido, copias de párrafos o de diccionarios, y con imágenes con texto en todos los colores.

Tal vez yo haya sido particularmente descuidado, y haya entregado mi dirección electrónica sin prestar atención a quien la daba. De ninguna manera. Ya tuve esa experiencia hace muchos años, en que tuve que cerrar un dominio Web completo, por la cantidad de spam que estaba recibiendo. Ahora soy muy cuidadoso en cómo y a quién doy mis direcciones electrónicas. Mis sitios Web la presentan «codificada», de una manera que no pueden extraer los «robots» que buscan direcciones. ¿Entonces? Entonces, que puede bastar una sola fuga, en alguna parte, para que empiece el diluvio del spam. Y como el correo electrónico está precisamente para eso, para comunicarse, siempre, en algún punto, se «escapará» la dirección e irá a dar a manos de los spammers.

El camino del spam


Para enviar correo basura lo que se necesita, ante todo, son direcciones. Desde hace ya muchos años circulan listas de direcciones electrónicas de todo el mundo, y se pueden comprar por pocos euros en Internet. La calidad de las listas varía, pero siempre tienen una cantidad considerable de direcciones válidas.

Para mantenerlas actualizadas, hay toda clase de trucos. Los spammers envían constantemente sus robots a visitar páginas Web y recoger allí direcciones. Los robots buscan expresiones que tenga una @ en medio, y la añaden a su lista.

Otra forma muy usada es establecer un sitio Web que envía tarjetas de felicitación, música, o cosas por el estilo, y «cosechar» todas las direcciones que los usuarios dejan. Lo más grave de esto, es que esas direcciones suelen ser de otras personas, con lo cual, por mucho que yo proteja mi dirección, siempre hay alguien que puede ponerla en circulación haciéndome el «regalo» de una simpática tarjeta.

En algunos casos, es el propio navegador de Internet el que da la dirección electrónica a sitios Web «espías». Esto sucede cada vez menos, pero antes era común dar la propia dirección electrónica como una cortesía cuando se «bajaban» archivos o imágenes de un sitio. Aunque la mayoría de los browsers actuales ya no lo hacen, no está de más verificar el propio.

Los mensajes indeseados mismos suelen traer un llamado «faro», que es una imagen que, al descargarse del sitio Web, confirma que el mensaje ha sido recibido en tu dirección de correo, y ha sido abierto. Esto, por supuesto, confirma que tienes una dirección electrónica activa, y le da más valor… por lo que atrae más spam.

Otra forma se recolectar direcciones son los llamados «ataques de fuerza bruta». El spammer utiliza un programa que dirige automáticamente contra un dominio (por ejemplo, contra telefonica.net), y que comienza a «probar» con mensajes dirigidos a todos los destinatarios posibles:
a@telefonica.net;
aa@telefonica.net;
aab@telefonica.net;
y así sucesivamente, en la esperanza de encontrar direcciones válidas. Si encuentran alguna, la guardan para usar después.

Ejércitos de spammers


Hasta hace algunos años, quienes se dedican a enviar correo basura los spammers tenían que utilizar sus propios recursos para mandar los mensajes. Es decir, usaban sus propios ordenadores, desde sus propias conexiones.

Esto los hacía relativamente fáciles de localizar, y siempre se los podía denunciar a organizaciones como Spamcop, que mantienen listas de spammers. Cuando se denuncia a un spammer, su dirección IP es incluida en unas «listas negras», que los proveedores de Internet utilizan para filtrar los mensajes.

Pero es cada vez más difícil hacer esto. Actualmente los spammers serios utilizan «ejércitos» de ordenadores domésticos, a los que infectan a distancia con un troyano, y así los convierten en distribuidores del spam que les envían. Se forman de esta manera redes de ordenadores zombies, llamadas botnets, o redes de robots, con el solo fin de enviar spam. Informes de prensa afirman que hasta 250.000 ordenadores diarios se infectan en el mundo con estos programas troyanos, a lo que ayuda mucho la difusión actual del ADSL. Según estos mismos informes, España ya contribuye con un seis por ciento a la generación mundial de spam, la mayoría proveniente de ordenadores cuyos dueños ignoran que están infectados.


El caso de Blue Frog


Hace un par de años, la empresa Blue Security tuvo una idea muy interesante: como es muy difícil perseguir a quienes envían el spam, lo que se haría es perseguir a los beneficiarios, es decir, a los anunciantes. Blue Frog también formó un «ejército» de ordenadores de quienes se adherían a la iniciativa. Cuando una empresa empezaba a anunciarse con mensajes no solicitados, Blue Security les advertía que si no dejaban de enviar ese tipo de correo a sus asociados, éstos tomarían una represalia. Si la empresa persistía, entonces todos los ordenadores asociados «visitarían» el sitio del anunciante, y dejarían allí mensajes de queja. Se suponía que ningún anunciante quería recibir decenas de miles de «visitas» que no vienen a comprar nada, sino solamente a expresar una queja.

La idea tuvo su éxito. Pero no pudo contra los spammers más decididos. Éstos lanzaron su ejército de computadores zombies contra la dirección de Blue Frog, y efectivamente bloquearon el servicio. Tras estar sometida a ataques de este tipo durante varios días, la empresa dejó de funcionar. Se había rendido a los spammers.

Con SpamCop pasa más o menos lo mismo: las denuncias anónimas casi no sirven; y las denuncias que traen la dirección electrónica del denunciante, atraen más spam, y hasta ataques de ese tipo. El dominio Web que tuve que cerrar se mantuvo constantemente bajo un bombardeo de spams maliciosos, y casi seguramente fue en represalia por las denuncias que había realizado en SpamCop. Aun hoy, aunque la recepción de correo está inhabilitada, sigue recibiendo el ataque de algunas docenas de «zombies» que incesantemente intentan enviarle su basura.

¿Sirven los filtros antispam?



Spam gráfico, deformado para confundir al OCR

Los filtros sirven, hasta cierto punto. Mis servidores utilizan un filtro (SpamAssassin) muy eficaz, que marca casi todos los mensajes indeseados como tales. Sin embargo, algunos se le escapan, porque los spammers siempre encuentran modos de «volar bajo el radar».

Al inicio, los filtros utilizaban palabras o frases que siempre aparecían en los mensajes. Por ejemplo: «Este mensaje se envía según…», o palabras como «medicine, Viagra» y otras parecidas. Entonces, los spammers empezaron a omitir esas expresiones, o a disimularlas, con errores como V1agra, medi_cine, y cosas así.

Después vinieron los filtros «bayesianos», que «leen» el mensaje y calculan la probabilidad estadística de que sea spam. Lo comparan con una base de datos amplia de otros mensajes, y pueden «aprender» sobre la marcha. Estos filtros parecían casi infalibles, hasta el punto que Bill Gates predijo que marcaban el final del spam.

Vana ilusión. Los spammers comenzaron entonces a llenar los mensajes de frases sin sentido, mezclados con las frases de lo que sí querían promocionar, para que los filtros bayesianos se confundiesen y no marcaran el mensaje como spam.


Ejemplo de spam con frases sin sentido

Algo después, los spammers comenzaron a reclutar sus ejércitos de ordenadores «zombies» y, con un ilimitado ancho de banda a su disposición, empezaron a enviar spam gráfico. O sea, con imágenes que traían la publicidad, en lugar de texto. Estos mensajes no pueden ser analizados por los filtros comunes, y empezaron a pasar todos los controles… Hasta que algunos proveedores de Internet empezaron a leer los mensajes con OCR... por lo que los spammers comenzaron a deformar los textos, a retorcer las letras, y a hacerlas de todos colores (como en la ilustración de más arriba) para que los programas de OCR no pudiesen leerlos…

En eso estamos…

Comenta este artículo [3]

——————————————————

• La Red profunda

18/01/07

A la pesca en las profundidades de la Web

Hector D. Calabia

Estamos tan acostumbrados a que Google «nos encuentre todo», que generalmente olvidamos que hay una inmensa cantidad de información en la Web que Google no nos puede presentar.

La Web es en realidad una inmensa «telaraña» de recursos entrelazados mediante vínculos HTML. Para ayudarnos a encontrar lo que nos interesa en esa inmensa red, los buscadores —como Google— van de sitio en sitio siguiendo los enlaces, e «indexándolos», es decir, generando un enorme índice de todos los sitios que encuentran. Esto hace fácil encontrarlos luego. Cuando, por ejemplo, escribo la palabra «Madrid» en un buscador, éste busca en su índice y me trae todos los enlaces que encuentra sobre la capital de España, y también sobre otras cosas que tengan ese nombre.

Pero esta red es solo la superficie. Por «debajo» hay una enorme cantidad de recursos que no indexan los buscadores. ¿Por qué? Fundamentalmente, por dos razones:
1. Pertenecen a sitios protegidos por contraseña.
o bien
2. Están almacenados en bases de datos.

En el primer caso, poco pueden hacer los llamados «robots» buscadores. El pedido de contraseña es una barrera infranqueable en la mayoría de los casos, y los contenidos que están detrás de esa puerta nunca llegan a los índices. Claro que la contraseña también sería un obstáculo para nosotros; pero a veces, si uno sabe que cierto material existe (si estuviera indexado), estaría dispuesto a pagar para obtenerlo o, al menos, a registrarse en el sitio para poder explorarlo. Pero, por ahora, muchísimos datos quedan excluidos porque están detrás de una contraseña de acceso.

En el segundo, las páginas no están realmente en la Web, sino que son generadas por bases de datos, en respuesta a las consultas de los usuarios. Es el caso de muchísimos sitios, como este, que tienen un botón de «Buscar». Los robots no pueden escribir consultas en campo de búsqueda y, por lo tanto, no pueden investigar lo que allí se guarda. Muchas de las páginas de este tipo se identifican porque traen un signo de interrogación (?) en el URL que generan. Otros sitios, como este mismo, aunque utilizan bases de datos, mantienen una dirección URL «permanente» para cada artículo, lo cual elimina su «invisibilidad».

También puede ser que se trate de recursos en formatos no HTML, como documentos de Word, PDF, Power Point, o de imágenes; aunque Google hace un buen esfuerzo por indexar estos recursos.

Existen también a disposición de los responsables de sitios Web recursos como los «Google sitemaps» y el protocolo OAI-PMH que permite a los buscadores descubrir recursos web nuevos, modificados y eliminados con mayor eficiencia. Ayudan también a esto los nuevos gestores de contenidos, que ya hemos comentado en esta Web.

La «Web invisible» no es lo mismo que la llamada «Internet oculta» que son servidores a los cuales no se puede acceder mediante los modos habituales de navegación por la red. Los servidores de la Web invisible son todos accesibles, pero muchas veces «ocultan» la información a los usuarios comunes o no facilitan el trabajo de los buscadores.

Recursos para investigar «La Web invisible» tiene muchas veces más información que la «Web de superficie», la que indexan los buscadores. Un informe de la consultora Bright Planet indican que puede llegar a ser quinientas veces mayor.

De manera que, cuando se está investigando un tema, conviene no olvidar que los resultados de Google no son completos, y mantener la palabra «database» (base de datos) en mente.

Una forma fácil de ampliar la búsqueda es incluir la palabra «database» en la consulta. Por ejemplo:

minería database
recursos naturales database
cinematografía database

Esto muchas veces ayuda a encontrar, al menos, la mención a publicaciones y artículos. Puede ser que no estén libremente disponibles, pero al menos, sabrás que están allí.

En algunos casos, las instituciones públicas (universidades, bibliotecas y centros de investigación) pueden estar suscritas a ciertas bases de datos internacionales, y puede irse allí a consultarlas.

——————————————————

• Tornado: Redes instantáneas

18/01/07

Una red instantánea y a la orden



Gracias a la distribución de routers, gratuita o a bajo coste, que hacen las empresas de telecomunicaciones, ya un gran número de internautas tiene redes cableadas o inalámbricas en casa. Sin embargo, a veces viene bien poder conectar dos ordenadores (incluso portátiles) sin tener que complicarse con una red.

Para esta necesidad se ha presentado The Tornado. Es un equipo sencillo, que parece un alargador de corriente retráctil, y permite crear una red instantánea conectando los puertos USB de dos ordenadores con Windows. No hace falta instalar software, ya que los ordenadores se «ven» el uno al otro como discos duros externos. En la pantalla de cada ordenador aparece el listado de archivos y directorios del otro. Las carpetas y archivos se pueden transferir de uno a otro. No es necesario definir ninguno de los ordenadores como «máster», sino que la operación es totalmente bidireccional. El sistema opera con USB 2.0 hasta a 25 Mb/s.

Este práctico dispositivo cuesta 59 dólares en los EE. UU. y esperamos que pronto esté disponible en Europa.

Comentarios [1]

——————————————————

<<——>>