The Smoking Gun: cómo encontramos la evidencia clave en un océano de datos

Autores: Alejandro López García e Ignacio Cueto Carracedo 

Corría el año 2013 cuando un joven consultor y analista tecnológico que trabajó para la Central Intelligence Agency y la National Security Agency estadounidenses decidió revelar miles de documentos y datos altamente clasificados, llevando a cabo la mayor filtración vista hasta la fecha por parte de un miembro de una entidad o corporación.

Pero independientemente de la moralidad o no de los actos de Edward Snowden, este hecho representó el máximo exponente de una actuación que se da en el sociedad laboral con mayor frecuencia de lo que creemos: las fugas de información.

Es un hecho que los dispositivos móviles y equipos informáticos han catalizado las relaciones humanas en todos los ámbitos, permitiéndonos crear, compartir y almacenar datos de forma masiva y a un ritmo sin igual, facilitando así este tipo de actos. Es por lo que ahora más que nunca surge la necesidad de proteger dicha información y perseguir este tipo de acciones.

Pero ¿cómo responder a este tipo de necesidades en el minado campo de las regulaciones enfocadas a la privacidad y la intimidad individual, la protección de datos y el secreto a las comunicaciones, sustentadas en legislaciones del calibre de la RGPD europea, o la LOPD española?

El eDiscovery nace en pro de resolver esta cuestión. A través del uso de palabras clave o keywords y de regir sus actuaciones por el principio de proporcionalidad, se consigue proteger estos derechos esenciales.

Por un lado, las palabras clave permiten refinar la búsqueda a aquella información relacionada estrechamente con la temática de la investigación y los implicados en ella. Por ejemplo: bajo el marco de una investigación en la que se sospecha que un empleado está llevando a cabo filtraciones, se utilizarían palabras clave relacionadas con la supuesta información que está filtrando y se intentarían relacionar con los supuestos involucrados.

Por otro lado, a pesar de que exista una confirmación expresa del custodio o de la empresa dueña de los dispositivos informáticos que permita el análisis de la totalidad de la información, una correcta investigación debe atender a dicho principio de proporcionalidad limitando la adquisición de la información de los dispositivos estrictamente necesarios y dirigiendo de igual manera la investigación sobre la información relevante para el caso.

Continuando el ejemplo anterior: el principio de proporcionalidad se reflejaría en la limitación en primer lugar, de la adquisición del buzón de correo, método principal de comunicación en el ámbito laboral, y, en segundo lugar, del análisis de las conversaciones del investigado con otras empresas, descartando, a priori, como materia de investigación las conversaciones que mantiene el custodio con
otros destinatarios.

Del mismo modo, es importante que las palabras clave sean producto consensuado de los investigadores y que se ajusten con la mayor precisión posible a la temática análisis, pues una vez definidas, se lanzarán búsquedas con dichas keywords contra la información o población de datos a investigar.

Así, el resultado de dichas búsquedas arrojará una serie de hits o coincidencias que conformarán el objeto de análisis de los investigadores, cribando los datos y dejando a un lado la información no relevante para el caso. Cabe mencionar que la búsqueda con palabras clave de una forma individual a veces pueden arrojar resultados demasiado amplios; esto sumado a que las investigaciones suelen presentar millones de documentos, surge la necesidad de afinar aún más si cabe este tipo de búsquedas.

Para ello, se pueden realizar combinaciones de keywords gracias a los operadores booleanos que las herramientas eDiscovery permiten utilizar en sus motores de búsqueda. Estas combinaciones de keywords se denominan querys o peticiones.

Principales operadores booleanos

  • AND”: Se indica que solo nos arroje aquellos documentos o ítems en los que una keyword debe aparecer junto con la otra palabra clave indicada. Ejemplo: Soborno AND Roberto.
  • OR”: En este caso se le indica al motor de búsqueda que nos arroje resultados que contengan una keyword u otra palabra. Ejemplo: Soborno OR Gratificación.
  • AND NOT”: Utilizando este operador indicaremos que se nos arrojen resultados excluyendo una de las keywords seleccionadas. Ejemplo: Pacto AND NOT Acuerdo.
  • «?”: La interrogación conforma lo que se denomina como wild search individual. Se aplica en la redacción de una keyword en la que queremos conocer las distintas combinaciones que se darían si el caracter fuera distinto. Ejemplo: “Acuerd?” Posibles resultados: Acuerdo, acordé, acordó, acuerda.
  • *”: El asterisco conforma un wild search más amplio, porque no se limita en la búsqueda de un solo carácter. Ejemplo: “Ratific*” Posibles resultados: Ratificación, ratificado, ratificaremos, ratificando, ratificaciones.
  • W/X”: El booleano por proximidad se utiliza para indicar al motor de búsqueda que queremos que dos keywords aparezcan en el mismo documento, pero a un máximo de distancia de palabras entre ellos. Para ello, debemos indicar en el lugar de la X el número de palabras/distancia máximo. Este booleano consigue que los resultados sean más precisos que aquellos arrojados por el operador AND, pero también es más excluyente. Ejemplo: (Soborno W/3 Roberto) Solo se mostrarán ítems que contengan dichas palabras clave a una distancia máxima de tres palabras entre ellas.
  • ( )”: Los paréntesis nos permitirán crear grupos lógicos o conjuntos de keywords ampliando aún más las posibilidades ya que aplican con la lógica de los operadores. Ejemplo: (Soborno W/3 Roberto) AND (Acuerdo OR Pacto) AND NOT Gratificac*.

Este último ejemplo nos arrojará resultados en los que encuentre las palabras clave “Soborno” y “Roberto” a un máximo de tres palabras de distancia y que también en el mismo documento aparezca la palabra “Acuerdo” o “Pacto” pero que no aparezca por ningún lado los derivados de la palabra “Gratificac”. Así es como el eDiscovery consigue actuar con proporcionalidad y de forma razonable en base a la necesidad de la investigación.