Cientistas renomearam genes humanos para impedir o Microsoft Excel de interpretá-los incorretamente como datas

Às vezes é mais fácil reescrever a genética do que atualizar o Excel

Existem dezenas de milhares de genes no genoma humano: torções minúsculas de DNA e RNA que se combinam para expressar todos os traços e características que tornam cada um de nós único. Cada gene recebe um nome e um código alfanumérico, conhecido como símbolo, que os cientistas usam para coordenar as pesquisas. Mas ao longo do ano passado, cerca de 27 genes humanos foram renomeados, tudo porque o Microsoft Excel continuava interpretando erroneamente seus símbolos como datas.

O problema não é tão inesperado quanto parece. O Excel é um gigante no mundo das planilhas e é regularmente usado por cientistas para rastrear seus trabalhos e até mesmo conduzir testes clínicos. Mas suas configurações padrão foram projetadas com aplicações mais mundanas em mente, então, quando um usuário insere um símbolo alfanumérico de um gene em uma planilha, como MARCH1 – abreviação de “Membrane Associated Ring-CH-Type Finger 1” – o Excel converte isso em uma data: 1 de março

Estudos descobriram que um quinto dos dados genéticos em artigos foi afetado por erros do Excel

Isso é extremamente frustrante, até mesmo perigoso, pois corrompe dados que os cientistas precisam separar manualmente para restaurá-los. Também é surpreendentemente generalizado e afeta até mesmo trabalhos científicos revisados ​​por pares. Um estudo de 2016 examinou dados genéticos compartilhados com 3.597 artigos publicados e descobriu que cerca de um quinto havia sido afetado por erros do Excel.

“É muito, muito chato”, disse Dezső Módos, biólogo de sistemas do Instituto Quadram, no Reino Unido, ao The. Módos, cujo trabalho envolve a análise de dados genéticos sequenciados recentemente, diz que os erros do Excel acontecem o tempo todo, simplesmente porque o software costuma ser a primeira coisa disponível quando os cientistas processam dados numéricos. “É uma ferramenta muito difundida e se você for um pouco analfabeto computacional, vai usá-la”, diz ele. “Durante meus estudos de doutorado eu também fiz!”

Exemplos de símbolos de genes processados ​​como datas no Microsoft Excel.

GIF: o

Também não há solução fácil. O Excel não oferece a opção de desativar essa formatação automática e a única maneira de evitá-la é alterar o tipo de dados para colunas individuais. Mesmo assim, um cientista pode corrigir seus dados, mas exportá-los como um arquivo CSV sem salvar a formatação. Ou outro cientista pode carregar os dados sem a formatação correta, transformando os símbolos do gene em datas. O resultado final é que, embora usuários experientes do Excel possam evitar esse problema, é fácil introduzir erros.

A ajuda chegou, porém, na forma do corpo científico encarregado de padronizar os nomes dos genes, o HUGO Gene Nomenclature Committee, ou HGNC. Esta semana, o HGNC publicou novas diretrizes para nomenclatura de genes, incluindo para “símbolos que afetam o manuseio e recuperação de dados”. De agora em diante, eles dizem, os genes humanos e as proteínas que eles expressam serão nomeados com um olho na formatação automática do Excel. Isso significa que o símbolo MARCH1 agora se tornou MARCHF1, enquanto SEPT1 se tornou SEPTIN1 e assim por diante. Um registro de símbolos e nomes antigos será armazenado pelo HGNC para evitar confusão no futuro.

Até agora, os nomes de cerca de 27 genes foram alterados assim no ano passado, Elspeth Bruford, a coordenadora do HGNC, disse ao The Verge, mas as próprias diretrizes não foram anunciadas formalmente até esta semana. “Consultamos as respectivas comunidades de pesquisa para discutir as atualizações propostas e também notificamos os pesquisadores que publicaram sobre esses genes especificamente quando as alterações estavam sendo implementadas”, diz Bruford.

Como Bruford deixa claro, a arte de nomear genes é muito impulsionada pelo consenso. Como os lexicógrafos encarregados de atualizar os dicionários, o Comitê de Nomenclatura Genética deve ser sensível às necessidades dos indivíduos que serão mais afetados por seu trabalho.

EXCITADO por este anúncio do Comitê de Nomenclatura do Gene Humano. pic.twitter.com/BqLIOMm69d – Janna Hutz (@jannahutz) 4 de agosto de 2020

Nem sempre foi esse o caso, veja. Nos primeiros dias de fronteira da genética, a nomenclatura de genes costumava ser um playground para cientistas criativos, levando a genes notórios como “ouriço sônico” (sim, esse nome em homenagem a isso S onic) e “Indy” (abreviação de “Eu não estou morto ainda ”; uma referência à função do gene, que pode dobrar o tempo de vida das moscas-das-frutas quando sofrem mutação).

Agora, porém, o HGNC assumiu o assunto com firmeza e as diretrizes atuais não cedem muito terreno para capricho ou ego. O foco está em questões práticas: como podemos minimizar a confusão? Por esse motivo, os símbolos dos genes devem ser únicos e os nomes dos genes devem ser breves e específicos, diz o comitê. Eles não podem usar subscrito ou sobrescrito; só pode conter letras latinas e algarismos arábicos; e não deve soletrar nomes ou palavras, especialmente os ofensivos (uma regra que deve ser verdadeira “idealmente em qualquer idioma”).

Os nomes dos genes devem evitar ofensas “de preferência em qualquer idioma”

E embora a decisão de renomear genes não seja tomada de ânimo leve, não é incomum, diz Bruford. Muitos símbolos de genes que podem ser lidos como substantivos foram renomeados para evitar falsos positivos durante as pesquisas, por exemplo. No passado, CARS tornou-se CARS1, WARS mudou para WARS1 e MARS mudou para MARS1. Outras mudanças foram feitas para evitar o insulto.

“Sempre temos que imaginar um clínico tendo que explicar a um pai que seu filho tem uma mutação em um determinado gene”, diz Bruford. “Por exemplo, o HECA costumava ter o nome do gene‘ homólogo da caixa-de-cabeça (Drosophila) ’, em homenagem ao gene equivalente na mosca da fruta, mas mudamos para‘ hdc homólogo, regulador do ciclo celular ’para evitar possível ofensa.”

Mas Bruford diz que esta é a primeira vez que as diretrizes foram reescritas especificamente para combater os problemas causados ​​pelo software. Até agora, as reações parecem extremamente positivas – alguns diriam até alegres.

Depois que a geneticista Janna Hutz compartilhou a seção relevante das novas diretrizes do HGNC no Twitter, a resposta da comunidade foi exultante. “EXCITADO com este anúncio do Comitê de Nomenclatura do Gene Humano”, twittou a própria Hutz. “Finalmente!!!” respondeu Mudra Hegde, bióloga computacional do Broad Institute em Massachusetts. “As melhores notícias do dia!” disse um usuário pseudônimo do Twitter.

Por que a Microsoft venceu uma luta contra a genética humana?

Bruford observa que houve alguma divergência sobre a decisão, mas a maioria parece estar focada em uma única pergunta: por que foi mais fácil renomear genes humanos do que mudar o funcionamento do Excel? Por que, exatamente, em uma luta entre a Microsoft e toda a comunidade genética, foram os cientistas que tiveram que recuar?

A Microsoft não respondeu a um pedido de comentário, mas a teoria de Bruford é que simplesmente não vale a pena mudar. “Este é um caso de uso bastante limitado do software Excel”, diz ela. “Há muito pouco incentivo para a Microsoft fazer uma mudança significativa nos recursos que são usados ​​de forma extremamente ampla pelo resto da enorme comunidade de usuários do Excel.”

Bruford não parece chateado com a situação, no entanto. Afinal, ela diz, não seria bom esperar por uma atualização hipotética do Excel para corrigir esses problemas quando uma solução de longo prazo pode ser introduzida pelos próprios cientistas. O Microsoft Excel pode ser passageiro, mas os genes humanos existirão enquanto estivermos. É melhor dar-lhes nomes que funcionem.

Correção: A história foi corrigida para esclarecer que os usuários do Excel podem salvar planilhas que mantenham sua formatação, evitando o erro de os símbolos dos genes serem transformados em datas. Lamentamos o erro.

#tecnologia #tecnologia #tecnologia #microsoft #relatório #Ciência #tecnologia

John Doe

Curioso e apaixonado por tecnologia.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *