Cientistas renomeiam genes humanos para impedir que o Microsoft Excel os interprete mal como datas

Às vezes é mais fácil reescrever a genética do que atualizar o Excel

Existem dezenas de milhares de genes no genoma humano: pequenas torções de DNA e RNA que se combinam para expressar todos os traços e características que tornam cada um de nós único. Cada gene recebe um nome e um código alfanumérico, conhecido como símbolo, que os cientistas usam para coordenar as pesquisas. Mas ao longo do último ano, cerca de 27 genes humanos foram renomeados, tudo porque o Microsoft Excel continuou interpretando errado seus símbolos como datas.

O problema não é tão inesperado quanto parece. O Excel é um gigante no mundo das planilhas e é usado regularmente por cientistas para acompanhar seu trabalho e até mesmo realizar ensaios clínicos. Mas suas configurações padrão foram projetadas com aplicativos mais mundanos em mente, portanto, quando um usuário insere o símbolo alfanumérico de um gene em uma planilha, como MARCH1 – abreviação de “Membrane Associated Ring-CH-Type Finger 1” – o Excel converte isso em uma data: 1-mar.

Estudos descobriram que um quinto dos dados genéticos em artigos foi afetado por erros do Excel

Isso é extremamente frustrante, até mesmo perigoso, corrompendo dados que os cientistas precisam classificar manualmente para restaurar. Também é surpreendentemente difundido e afeta até mesmo o trabalho científico revisado por pares. Um estudo de 2016 examinou dados genéticos compartilhados ao lado de 3.597 artigos publicados e descobriu que cerca de um quinto havia sido afetado por erros do Excel.

“É muito, muito chato”, disse Dezső Módos, biólogo de sistemas do Quadram Institute, no Reino Unido, ao The . Módos, cujo trabalho envolve a análise de dados genéticos recém-seqüenciados, diz que erros do Excel acontecem o tempo todo, simplesmente porque o software geralmente é a primeira coisa a ser entregue quando os cientistas processam dados numéricos. “É uma ferramenta muito difundida e, se você for um pouco analfabeto computacional, vai usá-la”, diz. “Durante meus estudos de doutorado eu também fiz!”

Exemplos de símbolos de genes sendo renderizados como datas no Microsoft Excel.

GIF: O

Também não há solução fácil. O Excel não oferece a opção de desativar essa formatação automática e a única maneira de evitá-la é alterar o tipo de dados para colunas individuais. Mesmo assim, um cientista pode corrigir seus dados, mas exportá-los como um arquivo CSV sem salvar a formatação. Ou, outro cientista pode carregar os dados sem a formatação correta, alterando os símbolos dos genes de volta para as datas. O resultado final é que, embora os usuários conhecedores do Excel possam evitar esse problema, é fácil introduzir erros.

A ajuda chegou, porém, na forma do corpo científico encarregado de padronizar os nomes dos genes, o HUGO Gene Nomenclature Committee, ou HGNC. Esta semana, o HGNC publicou novas diretrizes para nomenclatura de genes, inclusive para “símbolos que afetam o manuseio e a recuperação de dados”. A partir de agora, dizem eles, os genes humanos e as proteínas que eles expressaram serão nomeados com um olho na formatação automática do Excel. Isso significa que o símbolo MARCH1 agora se tornou MARCHF1, enquanto SEPT1 se tornou SEPTIN1 e assim por diante. Um registro de símbolos e nomes antigos será armazenado pelo HGNC para evitar confusão no futuro.

Até agora, os nomes de cerca de 27 genes foram alterados assim no ano passado, disse Elspeth Bruford, coordenadora do HGNC, ao The Verge, mas as próprias diretrizes não foram formalmente anunciadas até esta semana. “Consultamos as respectivas comunidades de pesquisa para discutir as atualizações propostas e também notificamos os pesquisadores que publicaram sobre esses genes especificamente quando as mudanças estavam sendo implementadas”, diz Bruford.

Como Bruford deixa claro, a arte de nomear genes é muito impulsionada pelo consenso. Como os lexicógrafos encarregados de atualizar os dicionários, o Comitê de Nomenclatura Genética deve estar atento às necessidades dos indivíduos que serão mais afetados por seu trabalho.

EMOCIONADO com este anúncio do Comitê de Nomenclatura de Genes Humanos. pic.twitter.com/BqLIOMm69d — Janna Hutz (@jannahutz) 4 de agosto de 2020

Isso nem sempre foi o caso, mente. Nos primeiros dias de fronteira da genética, a nomenclatura de genes era muitas vezes um playground para cientistas criativos, levando a genes notórios como “sonic hedgehog” (sim, nomeado para aquele Sonic) e “Indy” (abreviação de “I’m not dead” ainda”; uma referência à função do gene, que pode dobrar a vida útil das moscas da fruta quando mutadas).

Agora, porém, o HGNC tomou o assunto firmemente em mãos, e as diretrizes atuais não cedem muito terreno ao capricho ou ao ego. O foco está nas preocupações práticas: como minimizar a confusão? Por essa razão, os símbolos dos genes devem ser únicos e os nomes dos genes devem ser breves e específicos, diz o comitê. Eles não podem usar subscrito ou sobrescrito; só pode conter letras latinas e algarismos arábicos; e não deve soletrar nomes ou palavras, especialmente as ofensivas (uma regra que deve valer “idealmente em qualquer idioma”).

Os nomes dos genes devem evitar ofensas “idealmente em qualquer idioma”

E embora a decisão de renomear os genes não seja tomada de ânimo leve, não é incomum, diz Bruford. Muitos símbolos de genes que podem ser lidos como substantivos foram renomeados para evitar falsos positivos durante pesquisas, por exemplo. No passado, CARS se tornou CARS1, WARS mudou para WARS1 e MARS foi ajustado para MARS1. Outras mudanças foram feitas para evitar insultos.

“Sempre temos que imaginar um médico tendo que explicar a um pai que seu filho tem uma mutação em um gene específico”, diz Bruford. “Por exemplo, o HECA costumava ter o nome do gene ‘headcase homólogo (Drosophila)’ em homenagem ao gene equivalente na mosca da fruta, mas nós o mudamos para ‘hdc homólogo, regulador do ciclo celular’ para evitar possíveis ofensas”.

Mas Bruford diz que esta é a primeira vez que as diretrizes foram reescritas especificamente para combater os problemas causados ​​pelo software. Até agora, as reações parecem ser extremamente positivas – alguns diriam até alegres.

Depois que a geneticista Janna Hutz compartilhou a seção relevante das novas diretrizes do HGNC no Twitter, a resposta da comunidade foi jubilosa. “EXCLUÍDA com este anúncio do Comitê de Nomenclatura de Genes Humanos”, tuitou a própria Hutz. “Finalmente!!!” respondeu Mudra Hegde, biólogo computacional do Broad Institute em Massachusetts. “A melhor notícia do dia!” disse um usuário pseudônimo do Twitter.

Por que a Microsoft venceu em uma luta contra a genética humana?

Bruford observa que houve alguma divergência sobre a decisão, mas parece estar focada principalmente em uma única pergunta: por que foi mais fácil renomear genes humanos do que mudar o funcionamento do Excel? Por que, exatamente, em uma briga entre a Microsoft e toda a comunidade genética, foram os cientistas que tiveram que recuar?

A Microsoft não respondeu a um pedido de comentário, mas a teoria de Bruford é que simplesmente não vale a pena mudar. “Este é um caso de uso bastante limitado do software Excel”, diz ela. “Há muito pouco incentivo para a Microsoft fazer uma mudança significativa nos recursos que são usados ​​de forma extremamente ampla pelo resto da enorme comunidade de usuários do Excel.”

Bruford não parece amargo com a situação, no entanto. Afinal, ela diz, não adianta esperar por uma hipotética atualização do Excel para corrigir esses problemas quando uma solução de longo prazo pode ser apresentada pelos próprios cientistas. O Microsoft Excel pode ser passageiro, mas os genes humanos existirão enquanto nós existirmos. É melhor dar a eles nomes que funcionem.

Correção: A história foi corrigida para esclarecer que os usuários do Excel podem salvar planilhas que mantêm sua formatação, evitando o erro de transformar símbolos de genes em datas. Lamentamos o erro.

#tecnologia #tecnologia #tecnologia #Microsoft #relatório #Ciência #tecnologia

Novo vídeo sobre mesa posta da Tati

John Doe

Curioso e apaixonado por tecnologia.

Deixe um comentário

O seu endereço de e-mail não será publicado.