Simplificando o Big Data na Saúde: Onde está hoje e para onde está indo

Big data está gerando muito alarde em todos os setores, incluindo os de saúde. Enquanto meus colegas e eu conversamos com os líderes dos sistemas de saúde, descobrimos que eles estão procurando respostas sobre big data. Eles ouviram que é algo importante e que precisam pensar sobre o assunto. Mas eles não sabem ao certo o que fazer com isso. Então fazem perguntas como:

  • Quando vou precisar de big data?
  • O que devo fazer para me preparar para o big data?
  • Qual é a melhor maneira de usar big data?
  • O que o Health Catalyst está fazendo com big data?

Este artigo abordará essas questões diretamente. É importante separar a realidade de propaganda exagerada e descrever claramente o lugar do big data no setor de saúde hoje, junto com o papel que ele terá no futuro.

Big Data na Área da Saúde Hoje

Já existem vários casos de uso na área da saúde. Algumas instituições de saúde com foco acadêmico ou de pesquisa estão experimentando o big data ou usando-o em projetos de pesquisa avançada. Essas instituições recorrem a cientistas de dados, estatísticos, estudantes de pós-graduação e afins para discutir as complexidades do big data. Nas seções a seguir, abordaremos algumas dessas complexidades e o que está sendo feito para simplificar o big data e torná-lo mais acessível.

Uma Breve História do Big Data na Saúde

Em 2001, Doug Laney, agora na Gartner, cunhou o termo “os 3 V’s” para definir big data – Volume, Velocidade e Variedade. Outros analistas argumentam que isso é simplista demais, e há mais coisas em que pensar ao definir o termo. Eles sugerem mais V’s, como Variabilidade e Veracidade, e até um C para Complexidade. Nós vamos ficar com a definição mais simples de 3 V’s para esta parte.

Na área da saúde, temos grandes volumes de dados de entrada. Os EMRs sozinhos coletam quantidades absurdas de dados. A maioria desses dados é coletada para fins recreativos, de acordo com Brent James, da Intermountain Healthcare. Mas nem o volume nem a velocidade dos dados nos serviços de saúde são realmente altos o suficiente para exigir big data hoje. Nosso trabalho com sistemas de saúde mostra que apenas uma pequena fração das tabelas em um banco de dados EMR (talvez 400 a 600 tabelas de 1000) são relevantes para a prática atual da medicina e seus correspondentes casos de uso de análise. Assim, a grande maioria da coleta de dados na área da saúde hoje pode ser considerada recreativa. Embora esses dados possam ter valor no futuro conforme o número de casos de uso se expande, não há muitos casos reais para grande parte desses dados hoje.

Certamente há variedade nos dados, mas a maioria dos sistemas coleta dados muito semelhantes com ocasional ajuste ao modelo. Dito isso, novos casos de uso que apoiam a genômica certamente exigirão uma abordagem de big data.

Sistemas de Saúde Sem Big Data

A maioria dos sistemas de saúde pode fazer muita coisa hoje sem big data, inclusive atendendo à maioria de suas necessidades de análise e relatórios. Não chegamos nem perto de alcançar os limites do que a análise na área da saúde pode realizar com os bancos de dados relacionais tradicionais – e usar esses bancos de dados com eficiência é um foco mais valioso do que nos preocupar com big data.

Atualmente, a maior parte das instituições de saúde está sobrecarregada com alguns problemas banais, como relatórios normativos e painéis operacionais. A maioria só precisa do básico agora, mas quando as necessidades básicas forem satisfeitas e algumas das aplicações avançadas iniciais estiverem em vigor, novos casos de uso chegarão (por exemplo, dispositivos médicos e sensores vestíveis) impulsionando a necessidade de soluções ao estilo big data.

Barreiras Existentes ao Uso de Big Data na Saúde Hoje

Vários desafios com big data ainda precisam ser abordados em suas atuais distribuições. Dois obstáculos para o uso geral de big data na área da saúde são o conhecimento técnico necessário para usá-lo e a falta de segurança resistente e integrada em torno dele.

Experiência

O valor do big data na área da saúde hoje é limitado a pesquisas porque o seu uso requer um conjunto de habilidades muito especializadas. Especialistas em TI de hospitais familiarizados com as linguagens de programação do SQL e os bancos de dados  tradicionais não estão preparados para a curva de aprendizado e outras complexidades que envolvem o big data.

Na verdade, a maioria das organizações precisa de cientistas de dados que manipulem e obtenham dados de um ambiente de big data. Geralmente são pensadores de nível Ph.D. com experiência significativa e esses não ficam circulando por um sistema de saúde qualquer. Esses especialistas são difíceis de encontrar e caros, e, normalmente, apenas instituições de pesquisa têm acesso a eles. Os cientistas de dados estão em grande demanda em todos os setores, como bancos e empresas de internet com bolsos profundos.

A boa notícia é que, graças às mudanças nas ferramentas, pessoas com qualificações menos especializadas poderão trabalhar facilmente com big data no futuro. O big data está chegando a abraçar o SQL como língua franca para consultas. E quando isso acontecer, será útil em um sistema de saúde.

O Polybase da Microsoft é um exemplo de ferramenta de consulta que permite que os usuários consultem sistemas Hadoop Distributed File System (HDFS) e bancos de dados relacionais SQL usando uma sintaxe SQL estendida. Outras ferramentas, como o Impala, permitem o uso do SQL em um banco de dados do Hadoop. Esses tipos de ferramentas trarão o big data para um grupo maior de usuários.

Segurança

Na área da saúde, o cumprimento da HIPAA não é negociável. Nada é mais importante que a privacidade e a segurança dos dados dos pacientes. Mas, francamente, não há muitas maneiras boas e integradas de gerenciar a segurança em big data. Embora a segurança esteja progredindo, tem sido uma reflexão tardia até este ponto. E por um bom motivo. Se um hospital só tem que conceder acesso a alguns cientistas de dados, ele realmente não tem muito com o que se preocupar. Mas, ao abrir o acesso a um grupo grande e diversificado de usuários, a segurança não pode ser uma reflexão tardia.

As organizações de saúde podem tomar algumas medidas hoje para garantir uma melhor segurança dos dados. O big data é executado em tecnologia de código aberto com tecnologia de segurança inconsistente. Para evitar grandes problemas, as organizações devem ser seletivas em relação aos fornecedores de big data e evitar assumir que qualquer grande fornecedora será segura.

Assim, a melhor opção para as organizações de saúde que procuram implementar big data é comprar uma distribuição comercial bem apoiada, em vez de começar com uma distribuição Apache bruta. Outra opção é selecionar uma solução baseada em nuvem, como o Azure HDInsight, para começar rapidamente. Um exemplo de empresa com uma distribuição segura e bem apoiada é o Cloudera. Essa empresa criou um ambiente Hadoop compatível com PCI (Indústria de Cartões de Pagamento) que suporta autenticação, autorização, proteção de dados e auditoria. Certamente, outras distribuições comerciais estão trabalhando arduamente para agregar segurança mais sofisticada, que será adequada para a conformidade com a HIPAA e outros requisitos de segurança exclusivos do setor de saúde.

Big Data difere dos bancos de dados usados atualmente na área da saúde

O big data difere de um banco de dados relacional típico. Isso é óbvio para um CIO ou para um diretor de TI, mas uma breve explicação de como os dois sistemas diferem mostrará por que o big data é na verdade um trabalho em andamento – mas que tem muito potencial.

Big Data tem Estrutura Mínima

A maior diferença entre bancos de dados relacionais e big data é que o big data não tem a estrutura tradicional de tabela e coluna que os bancos de dados relacionais têm. Em bancos de dados relacionais clássicos, é necessário um esquema para os dados (por exemplo, os dados demográficos são armazenados em uma tabela unida a outras tabelas por um identificador compartilhado, como um identificador de paciente). Cada parte dos dados existe em seu lugar bem definido. Em contraste, o big data quase não tem estrutura alguma. Os dados são extraídos de seus sistemas de origem em sua forma bruta, armazenados em um sistema de arquivos distribuído, massivo e um tanto caótico. O Hadoop Distributed File System (HDFS) armazena dados em vários nós em uma forma hierárquica simples de diretórios de arquivos. Convencionalmente, os dados são armazenados em blocos de 64 MB (arquivos) nos nós de dados com um alto grau de compactação.

Big Data Se Refere a Dados Brutos

Por convenção, big data geralmente não é transformado de forma alguma. Pouca ou nenhuma “limpeza” é feita e, geralmente, nenhuma regra de negócios é aplicada. Algumas pessoas referem-se a esses dados brutos em termos do “Princípio do Sushi” (ou seja, os dados são melhores quando estão crus, frescos e prontos para consumo). Curiosamente, o Data Warehouse do Health Catalyst Late-Binding ™ segue os mesmos princípios. Essa abordagem não transforma dados, aplica regras de negócios ou vincula os dados semanticamente até o último momento. Em outras palavras, você estará o mais próximo possível da camada de aplicação.

Big Data é Menos Caro

Devido à sua natureza não estruturada e de código aberto, o big data é muito mais barato de possuir e operar do que um banco de dados tradicional. Um cluster do Hadoop é construído a partir de hardware de baixo custo e, normalmente, é executado em unidades de disco tradicionais com configuração DAS (direct-attached), em vez de em redes de área de armazenamento (SAN) caras. A maioria dos mecanismos de banco de dados relacionais são softwares exclusivos e exigem contratos de licenciamento e manutenção caros. Os bancos de dados relacionais também exigem recursos especializados e significativos para serem projetados, administrados e mantidos. Por outro lado, o big data não precisa de muito design e é bastante simples de manter. O excesso de armazenamento permite falhas de hardware mais toleráveis. Os clusters do Hadoop são projetados para simplificar a reconstrução de nós defeituosos.

Big Data Não Tem Roadmap

A falta de estrutura predefinida significa que um ambiente de big data é mais barato e mais simples de criar. Então, qual é a pegadinha? A dificuldade do big data é que não é simples encontrar dados necessários nesse armazenamento massivo e não estruturado. Um banco de dados relacional estruturado essencialmente vem com um roteiro – um esboço de onde cada dado está. No caso do big data, não há esquemas tradicionais e, portanto, não há muita orientação. Com um banco de dados relacional, uma linguagem de consulta simples e estruturada (por exemplo, SQL) obtém os dados necessários usando um sofisticado mecanismo de consulta otimizado para localizar dados.

Com big data, as linguagens de consulta são muito mais complicadas. É preciso ser um usuário de dados sofisticado – como um cientista de dados – para encontrar o subconjunto de dados necessários para os aplicativos. Criar os algoritmos MapReduce necessários para consultar instâncias do big data não é para os fracos. Felizmente, isso está mudando em um ritmo bastante rápido com ferramentas como o SparkSQL e outras de consulta que aproveitam o SQL convencional para esse fim. Os mecanismos de consulta de big data agora podem converter consultas SQL em tarefas MapReduce, enquanto outras, como o Microsoft PolyBase mencionado anteriormente, podem unir consultas de um banco de dados relacional e o Hadoop retorna um único conjunto de resultados.

Em suma, big data é barato, mas mais difícil de usar. Bancos de dados relacionais são caros, mas muito práticos. O nível de maturidade da tecnologia big data é baixo – já que a jornada do big data começou apenas alguns anos atrás. Então, à medida que ferramentas e segurança alcançam seu potencial, os sistemas de saúde poderão fazer coisas interessantes com essa tecnologia.

Está Perto: Big Data Será Importante na Área de Saúde

Quando as organizações de saúde visualizam o futuro do big data, elas geralmente pensam em usá-lo para analisar anotações em texto. As tecnologias analíticas atuais utilizam, na maioria das vezes, dados discretos e lutam para reunir todas as valiosas informações clínicas nas anotações de médicos e enfermeiros. Técnicas de indexação de big data e alguns novos trabalhos que encontram informações em campos textuais podem, de fato, acrescentar valor real à análise dos serviços de saúde no futuro.

Big Data e a Internet das Coisas

O big data se tornará realmente valioso para a área da saúde no que é conhecido como internet das coisas (IoT). O SAS descreve IoT como:

A Internet das Coisas é uma rede crescente de objetos do cotidiano, desde máquinas industriais até bens de consumo que podem compartilhar informações e realizar tarefas enquanto você está ocupado com outras atividades, como trabalho, sono ou exercícios. Em breve, nossos carros, nossas casas, nossos principais eletrodomésticos e até mesmo nossas ruas estarão conectados à Internet – criando essa rede de objetos que é chamada de Internet das Coisas, ou IoT. Composta de milhões de sensores e dispositivos que geram fluxos incessantes de dados, a IoT pode ser usada para melhorar nossas vidas e nossos negócios de várias maneiras.

A empresa de análises Gartner projeta que até 2020 haverá mais de 25 bilhões de dispositivos conectados na IoT. Para a área da saúde, qualquer dispositivo que gere dados sobre a saúde de alguém e envie esses dados para a nuvem fará parte da IoT. As tecnologias vestíveis são talvez o exemplo mais familiar desses dispositivos. Muitas pessoas agora podem usar um dispositivo fitness que monitora quantos passos eles deram, sua frequência cardíaca, seu peso e quais suas tendências. Os aplicativos estão disponíveis em smartphones que rastreiam com que frequência e com que intensidade o usuário se exercita. Há também dispositivos médicos que podem enviar dados para a nuvem: monitores de pressão arterial, oxímetros de pulso, monitores de glicose e muito, muito mais.

Big Data e Gestão de Atendimento

As ACOs (Accountable Care Organizations) concentram-se no atendimento gerenciado e querem manter as pessoas em casa e fora do hospital. Sensores e dispositivos vestíveis coletarão dados de saúde de pacientes em suas casas e enviarão todos esses dados para a nuvem. Balanças eletrônicas, monitores de pressão arterial, sensores de SpO2, sensores de proximidade como o iBeacon e sensores que ainda serão inventados irão disparar dados de milhões de pacientes continuamente. Instituições de saúde e gerentes de atendimento, usando ferramentas sofisticadas, monitorarão esse enorme fluxo de dados e a IoT para manter seus pacientes saudáveis.

E todos esses dados de sensores diferentes entrarão nas organizações de saúde em um volume e velocidade sem precedentes. Em um futuro voltado para a saúde baseado em manter as pessoas fora do hospital, a capacidade de gerenciamento de todos esses dados será crucial. Esses volumes de dados são melhor gerenciados como fluxos em um cluster de big data. À medida que os dados chegam, as organizações precisarão ser capazes de identificar possíveis problemas de saúde e alertar um gerente de atendimento a intervir. Por exemplo, se a pressão arterial do paciente disparar, o sistema enviará um alerta em tempo real para um gerente de atendimento que poderá interagir com o paciente para recuperar a pressão sanguínea de forma saudável.

Big data é a única esperança para gerenciar o volume, a velocidade e a variedade dos dados desse sensor.

A parte divertida: Uso de Big Data para análise preditiva, prescritiva e genômica

Alerta em tempo real é apenas um importante uso futuro do big data. Outro é a análise preditiva. Os casos de uso para análise preditiva na área da saúde foram limitados até o presente porque, simplesmente, não temos dados suficientes com que trabalhar. O big data pode ajudar a preencher essa lacuna.

Um exemplo de dados que podem desempenhar um papel na análise preditiva são os dados socioeconômicos. Fatores socioeconômicos influenciam a saúde do paciente de maneiras significativas. Esses fatores podem mostrar que é improvável que pessoas em determinado código postal tenham um carro. Há uma boa chance, portanto, de que um paciente daquele lugar que acabou de receber alta do hospital tenha dificuldade em chegar a uma consulta de acompanhamento em um consultório médico distante. (Os sistemas de saúde, de fato, descobriram que é mais barato enviar um táxi para trazer um paciente para uma consulta do que ele perder a consulta e ser readmitido no hospital.)

Esse e outros dados similares podem ajudar as organizações a prever compromissos perdidos, falta de comprometimento com medicamentos e muito mais. Esse é apenas um pequeno exemplo de como o big data pode alimentar a análise preditiva. As possibilidades são infinitas.

Rotas de Pacientes e Análise Prescritiva

Outro uso para análise preditiva é prever a “rota” de um paciente. Aproveitando os dados históricos de outros pacientes com condições semelhantes, algoritmos preditivos podem ser criados usando linguagens de programação como R e bibliotecas de machine learning de big data para prever fielmente a trajetória de um paciente ao longo do tempo.

Quando conseguirmos prever com precisão as trajetórias dos pacientes, podemos mudar para o objetivo final – Análise Prescritiva. Intervir para interromper a trajetória do paciente e colocá-lo na rota correta se tornará realidade muito em breve. O big data é bem adequado para esses casos de uso futuristas.

Sequenciamento Genômico e Big Data

Como alguém que passou muitos anos trabalhando no projeto Genoma Humano, estou pessoalmente muito empolgado com o uso crescente de dados genômicos no tratamento de pacientes. O custo de sequenciar o genoma completo de um indivíduo caiu nos últimos anos. Sequenciamento, que já foi uma arte, em breve se tornará comum e, eventualmente, se tornará uma espécie de mercadoria de teste de laboratório. Sequências genômicas são arquivos enormes e a análise de genomas gera ainda mais dados. Novamente, o big data atende bem a esse caso de uso. Carregar uma sequência genética em um banco de dados relacional exigiria um enorme CLOB (Character Large Object) ou um armazenamento separado apenas para gerenciar a sequência. Com big data, basta lançá-lo no cluster do Hadoop e ele está pronto para análise.

O futuro do data warehouse da saúde e a transição para big data

Falei sobre as atuais limitações do Big Data na área da saúde e as possibilidades futuras fascinantes que ele permite. Uma questão importante a ser abordada neste ponto é, obviamente, a seguinte: o que um sistema de saúde deveria fazer nesse meio tempo? Atualmente, a necessidade de qualidade nos sistemas de saúde e melhoria de custos é urgente. As organizações de saúde não podem esperar que a tecnologia de big data amadureça para entrar de cabeça na inteligência analítica. O fator importante será escolher uma solução de data warehouse que possa se adaptar facilmente ao futuro do big data.

Um Enterprise Data Warehouse(EDW) Late-Binding ™ é ideal para fazer a transição de bancos de dados relacionais para big data não estruturado. Como dito anteriormente, a abordagem de vinculação tardia (Late Binding) é, de fato, muito semelhante à abordagem do big data. Em um EDW Late Binding, como o Health Catalyst, os dados dos sistemas de origem (EHRs, sistemas financeiros, etc.) são colocados em mercados de fonte. Nesse processo, como no big data, é melhor manter os dados o mais simples possível, contando com os modelos de dados naturais dos sistemas de origem. Tanto quanto possível, os métodos de Late Binding minimizam a remodelação de dados nos mercados de fonte até que o caso de uso analítico o exija. Os dados permanecem no estado bruto até que alguém precise deles. Nesse ponto, os analistas integram os dados em um data mart separado e aplicam significado e contexto semântico para que uma análise eficaz possa ocorrer. Como essa abordagem é tão semelhante ao big data, é uma transição natural substituir a camada do mercado de fonte da arquitetura do EDW por um cluster de big data.

Exemplo Real de Transição para Big Data

Em conclusão, aqui está um breve exemplo de como a transição de bancos de dados relacionais para big data está acontecendo no mundo real. Nós, da Health Catalyst, estamos trabalhando com um de nossos grandes clientes de sistemas de saúde e a Microsoft para criar um data warehouse massivamente paralelo em uma Microsoft APS Appliance que também inclui um Hortonworks Hadoop Cluster. Isso significa que podemos executar um banco de dados relacional tradicional e um cluster de big data paralelamente. Podemos consultar os dois armazenamentos de dados simultaneamente, o que melhora nosso poder de processamento de dados. Juntos, estamos começando a experimentar o big data de maneiras importantes, como a realização do processamento de linguagem natural (PLN) com anotações médicas, análises preditivas e outros casos de uso.

A progressão dos atuais bancos de dados relacionais de multiprocessamento simétrico (SMP) para bancos de dados de processamento massivamente paralelo (MPP) para big data na área da saúde está em andamento.

Fonte: https://www.healthcatalyst.com/big-data-in-healthcare-made-simple Autor: Doug Adamson

Sobre o autor

Equipe Conteúdo Cetax

Posts recentes

Comentários

Arquivos

Tags

Categorias

Meta

/* ]]> */