Análises comparativas das distribuições de comprimentos do genoma vegetal e viral via estatísticas generalizadas.
DNA, Proteínas, Estatística generalizada, Correlações, Inferência Bayesiana, Plantas, Vírus.
Esta tese de doutorado explora a análise estatística das distribuições de comprimentos de genomas vegetais e virais, buscando compreender padrões e correlações estatísticas subjacentes. Propomos uma ampla quantidade de modelos derivados das estatísticas generalizadas de Tsallis e Kaniadakis: $q-$exponencial, soma de $q-$exponenciais, $q-$Gaussiana, $q-$Weibull, $\kappa-$exponencial, soma de $\kappa-$exponenciais e $\kappa-$Maxwelliana. Utilizamos a inferência Bayesiana e os critérios AIC e BIC para identificar os modelos que melhor explicam o comportamento das sequências genéticas analisadas. Inicialmente estudamos as distribuições de comprimentos associados aos íntrons e éxons de duas espécies vegetais pertencentes à família das \textit{Cucurbitaceae}, a saber, \textit{Cucumis sativus e Cucumis melo}. Nesse caso testamos os ajustes para as funções $q-$exponencial e soma de $q-$exponenciais, onde a última se mostrou superior. Os valores encontrados para o índice entrópico $q$, para todos os cromossomos de ambas as espécies, foram de 1,28 $\pm$ 0,06 para íntrons e 1,06 $\pm$ 0,13 para éxons. Expandimos essa investigação no contexto da estatística de Kaniadakis, utilizando mais três espécies de Cucurbitáceas: \textit{Cucurbita maxima}, \textit{Cucurbita moschata} e \textit{Cucurbita pepo}. Os modelos $\kappa-$exponencial, soma de $\kappa-$exponenciais e $\kappa-$Maxwelliana foram testados e a soma de $\kappa-$exponenciais se mostrou superior aos demais, considerando as sequências de éxons e íntrons. Os valores do índice entrópico $\kappa$ para as espécies analisadas se enquadram no intervalo $(0,35 \pm 0,08)$. Ampliamos a base de dados para 23 espécies de vegetais pertencentes a 7 famílias distintas e testamos a viabilidade dos modelos propostos para explicar as distribuições de comprimentos das proteínas vegetais. As funções $q-$Gaussiana e $\kappa-$Maxwelliana se mostraram superiores e apresentaram valores de $q$ e $\kappa$ na mesma faixa para todas as espécies investigadas: $q_g$ = 1,28(4) e $\kappa$ = 0,38(4). Essas funções também se mostraram eficientes em explicar o comportamento das distribuições de comprimentos das proteínas de 25 espécies virais, pertencentes às famílias \textit{Flaviviridae} e \textit{Coronaviridae}. Identificamos a possível existência de uma informação biológica, presente nas cadeias do DNA, capaz de caracterizar plantas e vírus.