Siga-me no Twitter em @vascofurtado

quinta-feira, 27 de maio de 2010

Processamento de Linguagem Natural: O que é isso mesmo?


Depois da notícia da premiação que recebemos ontem aqui em Vancouver por ter o melhor artigo da conferência mundial de Informática em Segurança Pública ( de título Natural Language Processing based on Semantic Inferentialism for Crime Information Extraction), algumas pessoas ficaram curiosas para saber do que mesmo se trata o trabalho. Afinal de contas, isso vai resolver que tipo de problema? Vou elaborar um pouco sobre isso.

A área de expertise que atuamos (Tarcísio, eu e a recente doutora Vládia) é a de Inteligência Artificial (IA). Busca-se aqui desenvolver programas de computador que tenham a capacidade de simular algumas das atividades que as pessoas realizam e que são por vezes extremamente difíceis de serem realizadas pelo computador. Ler e compreender um texto é uma delas. Trata-se de uma sub-área da IA e que tem o nome de Processamento de Linguagem Natural  - PLN (refere-se aqui à linguagens como inglês, português, francês, etc.). Compreender um texto é ter a capacidade de discutir, argumentar, explicá-lo e fazer inferências (como deduções) sobre coisas expressas nele. Não se está aqui somente a buscar o sujeito e predicado ou se uma palavra A ou B está presente no texto (que Google faz muito bem). Busca-se apreender o significado do que está escrito
  
PLN é uma área básica da IA com mais de 50 anos de idade. Embora muitos avanços tenham sido obtidos desde então, não se pode afirmar que o problema de compreender um texto pelo computador está resolvido. Ou seja, ainda não temos programas de computador que leiam e compreendam plenamente um texto escrito em uma determinada língua natural.

O trabalho de doutorado de Vládia busca avançar o estado da arte em PLN. Mais particularmente, ela propõe uma nova maneira de representar e explorar os conceitos e sentenças de uma língua de forma que permita realizar inferências. Aqui atento para um dos grandes desafios da pesquisa na área: manipular os símbolos de uma língua para a realização de inferências úteis ao dia-a-dia das pessoas. O trabalho é fundamentado em teorias filosóficas da linguagem, em particular em filósofos ditos inferencialistas. Por essa razão o próprio título do artigo possui referencia à base inferencialista. Ao usar essa fundamentação, mostramos que podemos obter a capacidade de explorar um texto e de inferir conhecimento que não está explicitamente representado nele.

Mas para que isso serve mesmo na Segurança Pública? Em muito. Notícias sobre crimes e boletins de ocorrência policial são exemplos de documentos que poderiam ser explorados por programas tipo o que produzimos. Por exemplo, suponha uma notícia no jornal dizendo o seguinte: “João matou sua esposa a facadas após discussão por que ela havia chegado tarde em casa”. Temos a capacidade de inferir que se trata de um crime passional. Nada na sentença está explicitamente a nos dizer isso, mas conseguimos inferir. O programa desenvolvido por Vládia também tem essa capacidade, o que os outros programas desenvolvidos até então não tinham (ou tinham em menor capacidade). Imagine um programa que consiga entender um texto e que possa então ler os milhões que estão na Web e deles extrair os objetivos e as causas principais.

No caso do artigo, mostramos o que chamamos de WikiCrimesIE (WikiCrimes Information Extractor). Com ele podemos ler notícias sobre crimes na web, compreende-las e assim registrar automaticamente em WikiCrimes. Na verdade, ainda não estamos fazendo isso completamente. Estamos a extrair porções de informações do texto, como endereço, tipo do crime, causas e tipo de vitima, mas o objetivo final é deixar para o usuário de WikiCrimes somente a tarefa de confirmar se a compreensão do texto foi correta.

Para finalizar, quero dizer que temos a plena consciência de que o problema de compreender um texto ainda não foi resolvido. Muitas limitações no trabalho de Vládia ainda existem (eximo-me de descrevê-las aqui) e deverão ser objetos de trabalhos futuros. É assim que avança a ciência. Mas o relevante é dizer que o trabalho abre perspectivas importantes na área e que por isso merece o reconhecimento que está tendo.

2 comentários:

Juliana Montenegro disse...

Olá Sr. Vasco Furtado,

sou aluna do curso de Jornalismo da Universidade de Fortaleza (Unifor). Eu e minha e equipe da cadeira de Telejornalismo II, estamos fazendo um trabalho (uma reportagem) sobre a Interatividade no Ceará. Gostaria de saber, se é possível uma entrevista em breve com o senhor. Se sim, qual o local e horário mais conveniente seria?

Grata.

Juliana Montenegro
(jujumontenegro@hotmail.com/ 85 8863 5436)

Anônimo disse...

Olá Sr. Vasco Furtado.

Ontem ministrei uma palestra sobre gestão do conhecimento - a prática da Emplasa com o case EmplasaGEo Geoinformação para o Cidadão e um dos presentes citou o sistema WIKI Crimes que o senhor criou. Gostaria de conhecer como foi construído esse sistema. Quem nos indicou foi o Sr. Pedro Vivas do Tribunal de Justiça da Bahia.

Gilberto Ramos Alves
e-mail gralves@sp.gov.br
11 3293-5324