Watson

Da aprendis
Ir para: navegação, pesquisa
Watson
Sigla Watson
Designação homenagem a Thomas J. Watson, fundador da IBM
Ano de Criação 2007
Entidade Criadora IBM
Entidade Gestora IBM
Aplicações Executa a tecnologia DeepQA da IBM, um novo tipo de capacidade analítica que pode executar milhares de tarefas simultâneas em segundos para fornecer respostas precisas a perguntas.


Luis Carvalho
Mestrado de Informática Médica
Universidade do Porto
up201007548@med.up.pt


Figura 1: O que é o IBMWatson (http://www.youtube.com/watch?v=lPKkG3oKjUs).

Figura 2: Como funciona o IBMWatson (https://www.youtube.com/watch?v=DywO4zksfXw&nohtml5=False).

Figura 3: O futuro do IBMWatson (https://youtu.be/L5QJs6byoaI).


Sumário

No último século, a IBM realizou várias inovações científicas fruto do seu compromisso com a pesquisa e a sua tradição em Grandes Desafios. Esses Grandes Desafios – como o DeepBlue®, projetado para rivalizar com o campeão mundial de xadrez Gary Kasparov – são um esforço para impulsionar a ciência de uma forma que antes não era considerada possível. O IBMWatson é o mais novo Grande Desafio de pesquisa da IBM. É projetado para desenvolver a ciência do processamento de linguagens naturais através de avanços na tecnologia de perguntas e respostas.

O IBMWatson é um sistema otimizado para suportar e relacionar uma grande diversidade de informação, com uma arquitetura IBM DeepQA e executado num cluster de servidores baseados em processadores IBM®POWER7®. Após quatro anos de pesquisa e desenvolvimento intensos por parte de uma equipa de pesquisadores da IBM, o Watson competiu no programa de TV Jeopardy! em fevereiro de 2011. Competiu, ao mesmo nível dos especialistas humanos em termos de precisão, confiança e velocidade, contra dois dos mais conhecidos e bem-sucedidos campeões de Jeopardy!, KenJennings e Brad Rutter. [1]

Jeopardy! O desafio da IBM

Hoje em dia, existe uma necessidade das empresas em captar cada vez mais informações essenciais aos seus negócios, usando a documentação em linguagem natural. Aumenta o interesse em sistemas otimizados que analisem profundamente o conteúdo de perguntas em linguagem natural para obter respostas com precisão. Os avanços na tecnologia de respostas a perguntas (QA, question/answering) vão ajudar cada vez mais os profissionais na tomada de decisões críticas e pontuais em áreas como atendimento médico, business intelligence, descoberta de conhecimento, gestão do conhecimento corporativo e atendimento ao cliente.

Tendo a QA em mente, a IBM impôs o desafio de desenvolver um sistema computacional chamado “Watson” (em homenagem a Thomas J. Watson, fundador da IBM), que pudesse competir ao nível de dos melhores (campeões) humanos em tempo real. O IBMWatson representa um avanço impressionante no design e análise de sistemas. Ele executa a tecnologia DeepQA da IBM, um novo tipo de capacidade analítica que pode executar milhares de tarefas simultâneas em segundos para fornecer respostas precisas a perguntas.

Ativado pela tecnologia dos processadores IBMPOWER7, o Watson é um exemplo de cargas de trabalho de análise complexa que estão a tornar-se cada vez mais comuns e essenciais para o sucesso e a competitividade dos negócios, no ambiente atual de grande fluxo de dados. [1]

IBM DeepQA

DeepQA é uma arquitetura probabilística paralela maciça baseada em evidências. Para o desafio Jeopardy!, mais de 100 técnicas diferentes são usadas para analisar a linguagem natural, identificar fontes, encontrar e gerar hipóteses, encontrar e pontuar evidências, misturar e classificar hipóteses. Muito mais importante do que qualquer técnica em particular, é a maneira como todas essas técnicas são combinadas no DeepQA, demonstrando que as abordagens sobrepostas podem unir forças e contribuir para melhorias na precisão, confiança ou velocidade.

A DeepQA é uma arquitetura com uma metodologia complementar, mas não é específica para o Desafio Jeopardy! A IBM começou a adaptá-la para diferentes aplicações comerciais, inclusive nas áreas de medicina, pesquisa corporativa e jogos.[1] Os princípios predominantes da DeepQA são:

  1. Paralelismo maciço: o paralelismo maciço é explorado na consideração de várias interpretações e hipóteses.
  2. Muitos especialistas: facilitam a integração, aplicação e avaliação contextual de uma ampla gama de análises probabilísticas de perguntas e conteúdos fracamente acopladas.
  3. Estimativa universal de confiança: não há um único componente que se compromete com uma resposta; todos os componentes produzem características e confianças associadas, pontuando interpretações diferentes de perguntas e conteúdos. Um substrato subjacente de processamento de confiança aprende a empilhar e combinar as pontuações.
  4. Integração de conhecimento superficial e profundo: equilibra o uso da semântica restrita e da semântica superficial, aproveitando-se de muitas ontologias formadas livremente.

Velocidade e escala horizontal

O DeepQA é desenvolvido usando o Apache UIMA, uma implementação de estrutura da Unstructured Information Management Architecture (Arquitetura de Gestão de Informação Não-Estruturada). A UIMA foi projetada para dar suporte à interoperabilidade e escala horizontal de aplicativos de análise textual e multimodal. Todos os componentes da DeepQA são implementados como anotadores UIMA. Esses componentes analisam o texto e produzem anotações ou asserções sobre ele.

Com o tempo, o IBMWatson evoluiu de tal forma que o sistema agora tem centenas de componentes. A UIMA facilitou a integração, teste e avaliação rápida dos componentes. As implementações iniciais do IBMWatson eram executadas num único processador, que exigia duas horas para responder a uma única pergunta. Mas a computação da DeepQA é paralela, portanto, ela pode ser dividida em várias partes independentes, cada uma das quais podendo ser executada por um processador separado.

A UIMA-AS, parte da Apache UIMA, permite a escala horizontal de aplicativos UIMA usando mensagens assíncronas. O IBMWatson utiliza a UIMA-AS para se escalar em 2.880 processadores POWER7 num cluster de 90 servidores IBMPower®750. A UIMA-AS gere toda a comunicação entre processos, usando o padrão aberto JMS. A implantação da UIMA-AS para POWER7 permitiu ao IBMWatson fornecer respostas de um a seis segundos.

O Watson tem cerca de 200 milhões de páginas de conteúdo em linguagem natural (equivalente à leitura de 1 milhão de livros) e utiliza a estrutura Apache Hadoop para facilitar o pré-processamento em grandes volumes de dados para criar conjuntos de dados internos à memória, usados em tempo de execução. Os anotadores UIMA DeepQA do Watson foram implementados como mapeadores na estrutura de redução de mapa da Hadoop, que os distribuiu pelos processadores no cluster. A Hadoop contribui para a utilização otimizada das CPUs e também fornece ferramentas convenientes para implantar, gerir e monitorizar o processo de análise de dados.[1]

Aproveitando-se do POWER7

O Watson aproveita-se do desempenho de processamento paralelo maciço dos seus processadores POWER7 para executar as suas milhares de tarefas da DeepQA simultaneamente em núcleos de processadores individuais. Cada um dos 90 servidores IBMPower750 num cluster do IBMWatson conta com 32 núcleos POWER7, executados a 3.55GHz. Executando o sistema operativo Linux®, os servidores são abrigados em 10 racks, juntamente com os nós de E/S e hubs de comunicação associados. O sistema tem um total combinado de 16 terabytes de memória e pode operar a mais de 80 teraflops (trilhões de operações por segundo). Com seu design inovador de oito núcleos, o POWER7 é ideal para o processamento paralelo maciço dos algoritmos analíticos do Watson.

O POWER7 também conta com 500 gigabytes de largura de banda de comunicação interna, contribuindo para uma eficiente utilização tanto da memória, quanto do processador. Como cada servidor conta com 32 núcleos POWER7 de alto desempenho com até 512GB de memória, o Power750 é a plataforma ideal para os processos Java do Watson, que utilizam muitos recursos de processador e de memória. Projetar o IBMWatson em servidores Power750, foi uma escolha deliberada para garantir uma adoção mais rápida de sistemas otimizados em setores como os de serviços de saúde e financeiros. Esse objetivo é uma diferença fundamental entre o Watson e o Deep Blue, que era um computador altamente personalizado.

O Deep Blue era baseado numa geração anterior da tecnologia de processadores Power, contando com um sistema RS/6000SP de 30 nós, cada um deles contendo um único processador POWER2 de 120MHz. Mas, além dos processadores POWER2 normais, o desempenho do Deep Blue era aprimorado com 480 processadores especialistas em xadrez. O mesmo servidor Power750 usado pelo Watson já é implantado hoje por milhares de empresas em sistemas otimizados que oferecem processamento complexo de análises e transações.

Figura 4: Rice University (https://www.youtube.com/watch?v=kNEpOPQxslQ).
Figura 5: GHY International (https://www.youtube.com/watch?v=ovJwn7FDOl4).

A Rice University em Houston, Texas, por exemplo, utiliza sistemas IBMPower750 para acelerar a compreensão da base molecular do cancro através da aplicação de tecnologias de análise do genoma. Os sistemas POWER7 deram à Rice mais flexibilidade e eficiência, permitindo-lhes enfrentarem, com um único sistema, uma gama mais ampla de desafios de pesquisa do que era possível antes.

A GHY International, uma firma corretora alfandegária no Canadá, migrou para um Power750 novo, executando AIX®, Power i e Power Linux, para dar mais suporte às crescentes transações de comércio internacional dos seus clientes. Com a virtualização PowerVM™, agora a GHY é capaz de implantar capacidades novas em apenas cinco minutos para dar suporte às necessidades em mudança dos seus clientes.[1]

Um sistema projetado para respostas

Figura 6: Como aprende o IBMWatson (https://youtu.be/ymUFadN_MO4).
Depois de quatro anos de pesquisa e desenvolvimento intensos por parte de uma equipe de pesquisadores da IBM, o Watson demonstrou as suas habilidades ao competir no Jeopardy! contra campeões humanos, com desempenho ao nível de especialistas em termos de precisão, confiança e velocidade. O projeto promoveu os campos da análise de dados não-estruturados, do processamento de linguagem natural e do design de sistemas otimizados para cargas de trabalho. Além do Jeopardy!, a tecnologia por detrás do Watson pode ser adaptada para resolver problemas comerciais e sociais – por exemplo, diagnóstico de doenças lidando com perguntas de suporte técnico on-line e analisando grandes quantidades de documentos jurídicos – e na promoção do progresso em vários setores. A capacidade do Watson para entender o significado e o contexto da linguagem humana e para processar rapidamente informações de modo a encontrar respostas precisas para perguntas complexas, revela um potencial enorme para transformar a forma pela qual os computadores podem ajudar as pessoas a realizar tarefas nos seus negócios e nas suas vidas pessoais.[1]

WATSON na Oncologia

Figura 7: IBMWatson na oncologia (https://youtu.be/TuxL3yzXxJo).
O Watson oferece aos médicos opções de tratamento baseadas em evidências com base na formação especializada de MSK médicos. Seja numa comunidade ou um hospital, os oncologistas como todos os médicos estão a lutar para trabalhar com o grande volume de pesquisa, registos médicos, e os ensaios clínicos. O Watson escala o conhecimento vital e ajuda os oncologistas. Agora, com a colaboração entre IBM e MSK, o Watson para Oncologia utiliza a experiência mundialmente reconhecida MSK para avaliar detalhes específicos de cada paciente versus a evidência clínica.[2]

Futuro...

A IBM inaugurou em dezembro de 2015 a sede mundial da nova unidade Watson Internet of Things (IoT) em Munique, na Alemanha. Lança também uma série de novas ofertas e capacidades com o objetivo de alargar o poder da computação cognitiva a milhões de dispositivos, sensores e sistemas interconetados que compõem a IoT. Estas novas ofertas estarão disponíveis através da IBM Watson IoT Cloud, a nova plataforma da Companhia para a área da Internet das Coisas.

Também em Munique ficará localizado o primeiro Centro Europeu de Inovação IBM Watson que, em conjunto com a nova unidade Watson IoT, reunire 1.000 especialistas da IBM, entre consultores, investigadores, programadores e designers. Em colaboração com clientes e parceiros, o objetivo é incentivar a inovação e a criação de novas soluções e oportunidades de negócio na área da IoT e da computação cognitiva.

A IBM vai colocar à disposição na sua nova plataforma Watson IoT Cloud as APIs e os serviços do IBM Watson, ajudando a dar sentido ao crescente volume de dados que encontramos neste mundo físico que se está a tornar cada vez mais digital. Como tal, clientes, start-ups, universidades e o ecossistema de parceiros passam a ter acesso direto a uma plataforma IBM aberta, baseada na cloud, para testar, desenvolver e criar a próxima geração de aplicações, serviços e soluções cognitivas na área da Internet das Coisas. Os setores automóvel, da eletrónica, da Saúde e dos seguros, na linha da frente da inovação 4.0, estão entre os que mais podem beneficiar.Ligação para o Site www.ibm.com/IoT

Bibliografia

  1. 1,0 1,1 1,2 1,3 1,4 1,5 IBM Corporation 2011 IBM Systems and Technology GroupRoute, “Watson – Um Sistema Projetado para Respostas: O futuro do design de sistemas otimizados para carga de trabalho,” 2011.
  2. http://www.ibm.com/smarterplanet/us/en/ibmwatson/watson-oncology.html