O Comité Europeu de Proteção de Dados (CEPD) publicou o documento AI Privacy Risks & Mitigations – Large Language Models, um guia prático que ajuda as empresas a gerir os riscos de privacidade associados ao uso de tecnologias de inteligência artificial (IA). Este documento visa assegurar o cumprimento do Regulamento Geral de Proteção de Dados (RGPD) e do Regulamento da Inteligência Artificial da União Europeia (Artificial Intelligence Act ou AI Act), garantindo a proteção dos dados dos utilizadores (titulares dos dados) e a confiança no uso de ferramentas de IA.

1. Enquadramento

Os Modelos de Linguagem de Grande Escala (LLMs) são ferramentas de IA que processam e geram texto semelhante ao humano, com base em vastos conjuntos de dados. São amplamente utilizados por empresas para criar assistentes virtuais (e.g., ChatGPT ou BERT), automatizar atendimento ao cliente, gerar conteúdos, traduzir textos ou resumir documentos.

Para funcionar eficazmente, os LLMs requerem acesso a dados dos utilizadores, como:

  • Atividade na Internet (histórico de navegação, pesquisas online ou websites visitados);
  • Dados de aplicações pessoais (e-mails, calendários ou mensagens);
  • Informações de sistemas de terceiros (contas financeiras ou plataformas de gestão de clientes).

Embora estes dados sejam essenciais para personalizar serviços, o seu uso pode acarretar, para os utilizadores, riscos de privacidade, como exposição não autorizada ou decisões automatizadas imprecisas. Por sua vez, para as empresas, estes riscos podem traduzir-se em sanções regulatórias, perda de confiança dos clientes e danos reputacionais.

2. Factores de risco de privacidade

O CEPD identifica fatores de risco que as empresas devem considerar ao usar LLMs, incluindo:

  • Ausência ou insuficiência de medidas de proteção de dados;
  • Presunção incorreta de que os dados de treino estão anonimizados;
  • Uso de dados pessoais sem base legal ou consentimento;
  • Inclusão de dados sensíveis (e.g., saúde ou registo criminal) sem autorização;
  • Geração de resultados tendenciosos ou imprecisos que afetem direitos fundamentais;
  • Decisões automatizadas sem supervisão humana, violando o RGPD;
  • Falta de garantia de direitos dos titulares (e.g., direito à informação ou ao “direito a ser esquecido”);
  • Uso de dados para finalidades não previstas (e.g., treino de modelos sem consentimento);
  • Conservação de dados por períodos excessivos;
  • Transferência de dados para países sem proteção adequada;
  • Tratamento excessivo de dados, violando o princípio da minimização.

Estes riscos, fundamentados no RGPD e na Carta dos Direitos Fundamentais da UE, exigem uma gestão proativa para evitar impactos negativos.

Uma vez Identificados os fatores de risco, importa classificar os riscos em função da (i) probabilidade de ocorrência e (ii) gravidade da ocorrência.

3. Classificação dos riscos

3.1. Probabilidade de ocorrência

A probabilidade de ocorrência, i.e., a probabilidade de o risco se vir a materializar, pode ser classificada de acordo com os seguintes critérios:

  • Muito elevada, quando exista elevada probabilidade de ocorrência;
  • Elevada, quando exista uma probabilidade substancial de ocorrência;
  • Baixa, quando exista pouca probabilidade de ocorrência; e
  • Improvável, quando não exista qualquer evidência de o risco se vir a materializar.

A probabilidade de o risco se materializar poderá variar consoante os seguintes fatores:

  • Frequência de uso do sistema de IA;
  • Exposição a cenários de elevado risco (por exemplo, se o sistema opera em setores muito sensíveis, como a saúde ou segurança);
  • Existência de precedentes históricos;
  • Circunstâncias externas (como instabilidade política ou constrangimentos financeiros que afetem as respostas dadas pelo sistema);
  • Robustez do sistema, ou seja, o nível de resistência à ocorrência de falhas ou comportamentos indesejados;
  • Qualidade e integridade dos dados utilizados para o treino do LLM; e
  • Nível de supervisão humana.

Para a classificação do risco, deve atender-se não só à probabilidade de o risco se vir a materializar, mas também à gravidade da sua ocorrência.

3.2. Gravidade da ocorrência

Os riscos podem ser divididos e avaliados de acordo com a gravidade dos danos que a sua ocorrência pode causar, de acordo com as seguintes categorias:

  • Danos catastróficos muitos significativos, quando os danos afetam o exercício de direitos fundamentais e as suas consequências são irreversíveis ou estão relacionadas com categorias especiais de dados;
  • Danos críticos significativos, quando os efeitos são reversíveis e se verifique a perda de controlo do titular dos dados sobre os seus dados pessoais;
  • Danos graves limitados, quando se verifique uma perda de controlo muito limitada de alguns dados pessoais e de certos titulares, com exceção de categorias especiais de dados; e
  • Danos muito moderados e limitados, quando se verifiquem os efeitos acima referidos, mas todos os efeitos sejam reversíveis.

A gravidade depende de fatores como:

  • Natureza do direito fundamental afetado, ou seja, se se trata de um direito absoluto ou, se pelo contrário, admite certas limitações;
  • Natureza dos dados pessoais, por exemplo, se os dados pessoais afetados são dados sensíveis;
  • Titular dos dados em causa, por exemplo, se se trata de um menor;
  • Finalidade do tratamento de dados, isto é, se existe legitimidade, necessidade e se o tratamento dos dados cumpre com o princípio da proporcionalidade;
  • Escala do impacto e o número de titulares de dados afetados;
  • Existência de fatores de contexto específicos que intensificam a gravidade da interferência (e.g. a instabilidade sociopolítica);
  • Possibilidade de reparação dos danos;
  • Duração e persistência do dano;
  • Velocidade da materialização do risco;
  • Existência de transparência e de mecanismos de responsabilização; e
  • Consequências e efeitos em cascata, i.e., na medida em que o dano causado desencadeie a ocorrência de outros danos.
4. Matriz de classificação dos riscos

A combinação de probabilidade e gravidade resulta na seguinte matriz de risco:

Probabilidade

Muito elevada

Médio

Elevado

Muito elevado

Muito elevado

Elevada

Baixo

Elevado

Muito elevado

Muito elevado

Baixa

Baixo

Médio

Elevado

Muito elevado

Improvável

Baixo

Baixo

Médio

Muito elevado

 

 

Muito limitada

Limitada

Significativa

Muito Significativa

 

 

Gravidade

 

5. Estratégias de mitigação

O tratamento dos riscos implica o desenvolvimento de estratégias para atenuar os riscos identificados e a criação de planos de implementação que abranjam todas as fases do ciclo de vida do LLM. No desenvolvimento de estratégias para atenuar os riscos, deve ser considerado o seguinte:

  • Avaliar o tipo de risco e as medidas de mitigação disponíveis;
  • Comparar os benefícios esperados da mitigação com os custos, esforço e impacto envolvidos;
  • Analisar o efeito das medidas no propósito principal do sistema LLM;
  • Considerar as expectativas razoáveis das pessoas afetadas pelo sistema; e
  • Realizar uma análise de trade-offs, avaliando o impacto das medidas em fatores como desempenho, transparência e equidade, garantindo sempre o cumprimento ético e legal de acordo com o caso de uso.

Para cada risco identificado, deve ser escolhida uma das seguintes abordagens:

  • Mitigar: implementar medidas que reduzam a probabilidade de ocorrência ou a gravidade do risco:
  • Transferir: transferir a responsabilidade do risco para outra entidade (por exemplo, através de seguros ou subcontratação);
  • Evitar: eliminar completamente o risco, tratando a sua causa raiz;
  • Aceitar: decidir não tomar nenhuma ação, aceitando o risco tal como está, desde que este se mantenha dentro dos limites aceitáveis definidos nos critérios de risco.

A monitorização contínua e a revisão regular dos sistemas são essenciais para garantir a eficácia das medidas e identificar novos riscos.

6. Recomendações

As empresas, ao implementar LLMs, devem adotar as seguintes medidas:

1. Realizar avaliações de impacto sobre proteção de dados (AIPD): antes de implementar LLMs, conduzir uma AIPD para identificar riscos e definir medidas de mitigação, especialmente em setores sensíveis;

2. Garantir a existência de uma base legal para o tratamento de dados: assegurar que o uso de dados pessoais assenta num fundamento de licitude (e.g., consentimento ou interesse legítimo);

3. Assegurar transparência: informar os utilizadores sobre a forma como os seus dados pessoais são usados, incluindo finalidades de treino, e forneçer informações claras sobre os processos do LLM;

4. Implementar anonimização e pseudonimização: utilizar técnicas robustas para proteger dados de treino, reduzindo o risco de identificação dos titulares;

5. Estabelecer supervisão humana: integrar a revisão humana em decisões automatizadas com impacto significativo, cumprindo os requisitos do RGPD;

6. Monitorizar resultados tendenciosos: avaliar regularmente as saídas dos LLMs para detetar e corrigir enviesamentos, utilizando dados de alta qualidade e imparciais para treinar os LLMs;

7. Limitar a conservação de dados: definir prazos estritos para a conservação de dados, eliminando informações desnecessárias;

8. Restringir transferências internacionais: garantir que os dados só são transferidos para países com proteção adequada, conforme o RGPD.

9. Formar equipas: capacitar os colaboradores sobre privacidade e conformidade com a IA, promovendo uma cultura de responsabilidade;

10. Estabelecer processos de auditoria: implementar auditorias regulares aos sistemas de IA para verificar a conformidade e a eficácia das medidas de mitigação.

pesquisa