Prévia do material em texto
<p>Instituto de Ciências Matemáticas e de Computação - ICMC</p><p>SME0823 - Modelos de Regressão e Aprendizado Supervisionado II</p><p>Lista 1</p><p>Professor: Jorge Luis Bazan Guzman</p><p>2024</p><p>Universidade de São Paulo</p><p>Hugo de Oliveira Borges ( 11915202)</p><p>Gabriel Sanches da Silva ( 11884693)</p><p>Vitória Gomes Guimarães ( 12610497)</p><p>Grupo:</p><p>nusp</p><p>nusp</p><p>nusp</p><p>Exercícios número 1 e 2 do Capitulo 2 de James et al</p><p>(2015).</p><p>a) Um método �exível deve performar melhor porque ele irá conseguir extrair mais informações</p><p>de um n grande. Já o n grande também tem suas qualidades, reduzindo a chance de over�tting,</p><p>sendo esse o grande problema com métodos com grande �exibilidade.</p><p>b) Teria o risco de over�tting muito alto, sendo que quaisquer padrões captados por métodos</p><p>�exíveis têm maior probabilidade de ser apenas um ruído.Então, um método in�exível seria o</p><p>ideal.</p><p>1.1</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 1/32</p><p>c) Os métodos in�exíveis não são tão bons para relações não-lineares, assim, é melhor usar um</p><p>método �exível.</p><p>d) Uma alta variância em termos do erro signi�ca que a amostra tem muito ruído. Então, os</p><p>métodos in�exíveis são mais indicado para esses casos, podendo se ajustar melhor a esse</p><p>ruído.</p><p>a) Problema de Regressão - Porque salário é uma variável contínua</p><p>Inferência - Porque queremos saber como o salário do CEO é impactado.</p><p>n = 500 e p = 3</p><p>b) Problema de Classi�cação - Porque queremos classi�car sucesso e fracasso.</p><p>Problema de Previsão - Porque queremos prever sucesso e/ou fracasso.</p><p>n = 20 e p = 13</p><p>c) Problema de Regressão - Porque a porcentagem de mudança do dólar americano acaba</p><p>sendo uma variável dependente e quantitativa.</p><p>Problema de predição - Porque queremos prever porcentagem da mudança.</p><p>n = 52 e p = 3%</p><p>1.2</p><p>Exercício número 10 do Capitulo 2 de James et al</p><p>(2015).</p><p>1 !pip install ISLP</p><p>Mostrar saída oculta</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>import numpy as np</p><p>import pandas as pd</p><p>import matplotlib.pyplot as plt</p><p>from scipy import stats</p><p>import seaborn as sns</p><p>a)</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 2/32</p><p>crim zn indus chas nox rm age dis rad tax ptratio b l</p><p>0 0.00632 18.0 2.31 0 0.538 6.575 65.2 4.0900 1 296 15.3 396.90</p><p>1 0.02731 0.0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 396.90</p><p>2 0.02729 0.0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 392.83</p><p>3 0.03237 0.0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 394.63</p><p>4 0.06905 0.0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 396.90</p><p>... ... ... ... ... ... ... ... ... ... ... ... ...</p><p>501 0.06263 0.0 11.93 0 0.573 6.593 69.1 2.4786 1 273 21.0 391.99</p><p>502 0.04527 0.0 11.93 0 0.573 6.120 76.7 2.2875 1 273 21.0 396.90</p><p>503 0.06076 0.0 11.93 0 0.573 6.976 91.0 2.1675 1 273 21.0 396.90</p><p>504 0.10959 0.0 11.93 0 0.573 6.794 89.3 2.3889 1 273 21.0 393.45</p><p>505 0.04741 0.0 11.93 0 0.573 6.030 80.8 2.5050 1 273 21.0 396.90</p><p>506 rows × 14 columns</p><p>1</p><p>2</p><p>3</p><p>4</p><p>#Leitura do Arquivo</p><p>pathfile = '/content/BostonHousing.csv'</p><p>dados = pd.read_csv(pathfile)</p><p>dados</p><p>b)</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>nLinhas = len(dados.axes[0])</p><p>nColunas = len(dados.axes[1])</p><p>#Número de Linhas e Colunas</p><p>print(nLinhas, nColunas)</p><p>506 14</p><p>O Dataset Boston é derivado de informações coletadas pelo Serviço de Censo dos EUA sobre</p><p>moradias na área de Boston. Possui 506 linhas e 14 colunas.</p><p>CRIM - taxa de criminalidade per capita por cidade.</p><p>ZN - proporção de terrenos residenciais zoneados para lotes acima de 25.000 pés quadrados.</p><p>INDUS - proporção de hectares comerciais não varejistas por cidade.</p><p>CHAS - Variável dummy Charles River (1 se o trato limita o rio; 0 caso contrário).</p><p>NOX - concentração de óxidos nítricos (partes por 10 milhões).</p><p>RM - número médio de quartos por alojamento.</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 3/32</p><p>AGE - proporção de unidades ocupadas pelos proprietários construídas antes de 1940.</p><p>DIS - distâncias ponderadas para cinco centros de emprego de Boston.</p><p>RAD – índice de acessibilidade às rodovias radiais.</p><p>TAX - taxa de imposto sobre a propriedade de valor total por US$ 10.000.</p><p>PTRATIO - proporção aluno-professor por cidade.</p><p>B - 1000(Bk - 0,63)^2 onde Bk é a proporção de negros por cidade.</p><p>LSTAT - % status mais baixo da população.</p><p>MEDV - Valor médio das casas ocupadas pelos proprietários em US$ 1.000.</p><p>c)</p><p>1</p><p>2</p><p>df = pd.DataFrame(dados)</p><p>sns.pairplot(df)</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 4/32</p><p><seaborn.axisgrid.PairGrid at 0x7a54487dae60></p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 5/32</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>6</p><p>7</p><p>plt.figure(figsize=(10, 6))</p><p>sns.scatterplot(x=dados['age'], y=dados['crim'])</p><p>plt.title('Age of Houses vs Crime Rate')</p><p>plt.xlabel('Proportion of Older Homes')</p><p>plt.ylabel('Crime Rate')</p><p>plt.show()</p><p>Casas mais antigas, mais crimes</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>6</p><p>7</p><p>8</p><p>plt.figure(figsize=(10, 6))</p><p>sns.scatterplot(x=dados['dis'], y=dados['crim'])</p><p>plt.title('Distance to Employment Centers vs Crime Rate')</p><p>plt.xlabel('Distance to Employment Centers')</p><p>plt.ylabel('Crime Rate')</p><p>plt.show()</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 6/32</p><p>Mais perto da área de trabalho, mais crime</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>6</p><p>plt.figure(figsize=(10, 6))</p><p>sns.scatterplot(x=dados['rad'], y=dados['crim'])</p><p>plt.title('Accessibility to Radial Highways vs Crime Rate')</p><p>plt.xlabel('Accessibility to Radial Highways Index')</p><p>plt.ylabel('Crime Rate')</p><p>plt.show()</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 7/32</p><p>Maior índice de acessibilidade às rodovias radiais, mais criminalidade</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>6</p><p>plt.figure(figsize=(10, 6))</p><p>sns.scatterplot(x=dados['tax'], y=dados['crim'])</p><p>plt.title('Tax Rate vs Crime Rate')</p><p>plt.xlabel('Property Tax Rate per $10,000')</p><p>plt.ylabel('Crime Rate')</p><p>plt.show()</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 8/32</p><p>Taxa de imposto mais alta, mais crime</p><p>d)</p><p>1 from scipy.stats import pearsonr</p><p>1 correlation = dados.corr()['crim']</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>p_values = {}</p><p>for column in dados.columns:</p><p>if column != 'crim':</p><p>corr_coeff, p_value = pearsonr(dados['crim'], dados[column])</p><p>p_values[column] = p_value</p><p>1</p><p>2</p><p>print("Coeficientes de Correlação com 'CRIM':")</p><p>print(correlation)</p><p>Coeficientes de Correlação com 'CRIM':</p><p>crim 1.000000</p><p>zn -0.200469</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 9/32</p><p>indus 0.406583</p><p>chas -0.055892</p><p>nox 0.420972</p><p>rm -0.219247</p><p>age 0.352734</p><p>dis -0.379670</p><p>rad 0.625505</p><p>tax 0.582764</p><p>ptratio 0.289946</p><p>b -0.385064</p><p>lstat 0.455621</p><p>medv -0.388305</p><p>Name: crim, dtype: float64</p><p>1</p><p>2</p><p>3</p><p>print("\nValores p associados aos coeficientes de correlação:")</p><p>for column, p_value in p_values.items():</p><p>print(f"{column}: {p_value:.4f}")</p><p>Valores p associados aos coeficientes de correlação:</p><p>zn: 0.0000</p><p>indus: 0.0000</p><p>chas: 0.2094</p><p>nox: 0.0000</p><p>rm: 0.0000</p><p>age: 0.0000</p><p>dis: 0.0000</p><p>rad: 0.0000</p><p>tax: 0.0000</p><p>ptratio: 0.0000</p><p>b: 0.0000</p><p>lstat: 0.0000</p><p>medv: 0.0000</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>6</p><p>alpha = 0.05</p><p>print("\nPreditores com valores p menores que 0.05:")</p><p>for column, p_value in p_values.items():</p><p>if p_value < alpha:</p><p>print(f"{column}: p-value = {p_value:.4f}")</p><p>Preditores com valores</p><p>p menores que 0.05:</p><p>zn: p-value = 0.0000</p><p>indus: p-value = 0.0000</p><p>nox: p-value = 0.0000</p><p>rm: p-value = 0.0000</p><p>age: p-value = 0.0000</p><p>dis: p-value = 0.0000</p><p>rad: p-value = 0.0000</p><p>tax: p-value = 0.0000</p><p>ptratio: p-value = 0.0000</p><p>b: p-value = 0.0000</p><p>lstat: p-value = 0.0000</p><p>medv: p-value = 0.0000</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 10/32</p><p>1</p><p>2</p><p>corr = dados.corr(method = 'pearson') # Correlações dos dados</p><p>print(corr['crim'])</p><p>crim 1.000000</p><p>zn -0.200469</p><p>indus 0.406583</p><p>chas -0.055892</p><p>nox 0.420972</p><p>rm -0.219247</p><p>age 0.352734</p><p>dis -0.379670</p><p>rad 0.625505</p><p>tax 0.582764</p><p>ptratio 0.289946</p><p>b -0.385064</p><p>lstat 0.455621</p><p>medv -0.388305</p><p>Name: crim, dtype: float64</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>results = pd.DataFrame({</p><p>'Predictor': correlation.index,</p><p>'Correlation Coefficient': correlation.values,</p><p>'P-value': [p_values.get(col, 'N/A') for col in correlation.index]</p><p>})</p><p>1</p><p>2</p><p>print("Tabela de Correlação e Valores P:")</p><p>print(results)</p><p>Tabela de Correlação e Valores P:</p><p>Predictor Correlation Coefficient P-value</p><p>0 crim 1.000000 N/A</p><p>1 zn -0.200469 0.000006</p><p>2 indus 0.406583 0.0</p><p>3 chas -0.055892 0.209435</p><p>4 nox 0.420972 0.0</p><p>5 rm -0.219247 0.000001</p><p>6 age 0.352734 0.0</p><p>7 dis -0.379670 0.0</p><p>8 rad 0.625505 0.0</p><p>9 tax 0.582764 0.0</p><p>10 ptratio 0.289946 0.0</p><p>11 b -0.385064 0.0</p><p>12 lstat 0.455621 0.0</p><p>13 medv -0.388305 0.0</p><p>Com base nos coe�cientes de correlação e nos seus valores p correspondentes, existe uma</p><p>associação entre a taxa de criminalidade per capita (criminalidade) e os outros preditores</p><p>e)</p><p>1</p><p>2</p><p>summary_crim = dados['crim'].describe()</p><p>print(summary_crim)</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 11/32</p><p>count 506.000000</p><p>mean 3.613524</p><p>std 8.601545</p><p>min 0.006320</p><p>25% 0.082045</p><p>50% 0.256510</p><p>75% 3.677083</p><p>max 88.976200</p><p>Name: crim, dtype: float64</p><p>1</p><p>2</p><p>tax = summary['tax']</p><p>print(tax)</p><p>count 506.000000</p><p>mean 408.237154</p><p>std 168.537116</p><p>min 187.000000</p><p>25% 279.000000</p><p>50% 330.000000</p><p>75% 666.000000</p><p>max 711.000000</p><p>Name: tax, dtype: float64</p><p>1</p><p>2</p><p>pTeacher = summary['ptratio']</p><p>print(pTeacher)</p><p>count 506.000000</p><p>mean 18.455534</p><p>std 2.164946</p><p>min 12.600000</p><p>25% 17.400000</p><p>50% 19.050000</p><p>75% 20.200000</p><p>max 22.000000</p><p>Name: ptratio, dtype: float64</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>6</p><p>#Histogramas 'crim'</p><p>plt.figure(figsize=(10,6))</p><p>sns.histplot(dados['crim'], binwidth=5, edgecolor='black')</p><p>plt.xlabel('Crim')</p><p>plt.ylabel('Número de Suburbios')</p><p>plt.show()</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 12/32</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>6</p><p>#Histogramas 'tax'</p><p>plt.figure(figsize=(10,6))</p><p>sns.histplot(dados['tax'], binwidth=5, edgecolor='black')</p><p>plt.xlabel('Tax')</p><p>plt.ylabel('Número de Suburbios')</p><p>plt.show()</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 13/32</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>6</p><p>#Histogramas 'ptratio'</p><p>plt.figure(figsize=(10,6))</p><p>sns.histplot(dados['ptratio'], binwidth=2, edgecolor='black')</p><p>plt.xlabel('ptratio')</p><p>plt.ylabel('Número de Suburbios')</p><p>plt.show()</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 14/32</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>selection = dados[dados['crim'] > 10]</p><p>proporcao = len(selection) / len(dados)</p><p>print(f"Proporção de subúrbios com CRIM > 10: {proporcao:.4f}")</p><p>Proporção de subúrbios com CRIM > 10: 0.1067</p><p>Aproximadamente 11% dos bairros têm taxas de criminalidade acima de 10%.</p><p>1</p><p>2</p><p>3</p><p>4</p><p>selection = dados[dados['crim'] > 50]</p><p>proporcao = len(selection) / len(dados)</p><p>print(f"Proporção de subúrbios com CRIM > 50: {proporcao:.4f}")</p><p>Proporção de subúrbios com CRIM > 50: 0.0079</p><p>Aproximadamente 0,8% dos bairros têm taxas de criminalidade acima de 10%.</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 15/32</p><p>1</p><p>2</p><p>3</p><p>4</p><p>selection = dados[dados['tax'] < 600]</p><p>proporcao = len(selection) / len(dados)</p><p>print(f"Proporção de subúrbios com TAX < 600: {proporcao:.4f}")</p><p>Proporção de subúrbios com TAX < 600: 0.7292</p><p>1</p><p>2</p><p>3</p><p>4</p><p>selection = dados[dados['tax'] > 600]</p><p>proporcao = len(selection) / len(dados)</p><p>print(f"Proporção de subúrbios com TAX > 600: {proporcao:.4f}")</p><p>Proporção de subúrbios com TAX > 600: 0.2708</p><p>Com base no histograma dos impostos São poucos suburbios onde temos taxas mais altas o</p><p>valor médio é $303, 00</p><p>f)</p><p>1</p><p>2</p><p>nLinhasChas = dados[dados['chas'] == 1] # Descobrindo o número de suburbios.</p><p>len(nLinhasChas)</p><p>35</p><p>g)</p><p>1</p><p>2</p><p>median_ptratio = dados['ptratio'].median()</p><p>print(median_ptratio)</p><p>19.05</p><p>h)</p><p>1</p><p>2</p><p>subMenorvalor = df.loc[df['medv'].idxmin()]</p><p>print(subMenorvalor)</p><p>crim 38.3518</p><p>zn 0.0000</p><p>indus 18.1000</p><p>chas 0.0000</p><p>nox 0.6930</p><p>rm 5.4530</p><p>age 100.0000</p><p>dis 1.4896</p><p>rad 24.0000</p><p>tax 666.0000</p><p>ptratio 20.2000</p><p>b 396.9000</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 16/32</p><p>lstat 30.5900</p><p>medv 5.0000</p><p>Name: 398, dtype: float64</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>6</p><p>7</p><p>8</p><p>9</p><p>10</p><p>11</p><p>summary_total = dados.describe()</p><p>print("\nIntervalos totais para todos os preditores:")</p><p>print(summary_total)</p><p>print("\nComparação dos valores dos preditores para o subúrbio com medv mais baixo em</p><p>for column in suburbio_min_age.columns:</p><p>if column != 'medv':</p><p>min_value = summary_total[column]['min']</p><p>max_value = summary_total[column]['max']</p><p>value = suburbio_min_age[column].values[0]</p><p>print(f"{column}: {value} (Intervalo total: {min_value} - {max_value})")</p><p>Intervalos totais para todos os preditores:</p><p>crim zn indus chas nox rm \</p><p>count 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000</p><p>mean 3.613524 11.363636 11.136779 0.069170 0.554695 6.284634</p><p>std 8.601545 23.322453 6.860353 0.253994 0.115878 0.702617</p><p>min 0.006320 0.000000 0.460000 0.000000 0.385000 3.561000</p><p>25% 0.082045 0.000000 5.190000 0.000000 0.449000 5.885500</p><p>50% 0.256510 0.000000 9.690000 0.000000 0.538000 6.208500</p><p>75% 3.677083 12.500000 18.100000 0.000000 0.624000 6.623500</p><p>max 88.976200 100.000000 27.740000 1.000000 0.871000 8.780000</p><p>age dis rad tax ptratio b \</p><p>count 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000</p><p>mean 68.574901 3.795043 9.549407 408.237154 18.455534 356.674032</p><p>std 28.148861 2.105710 8.707259 168.537116 2.164946 91.294864</p><p>min 2.900000 1.129600 1.000000 187.000000 12.600000 0.320000</p><p>25% 45.025000 2.100175 4.000000 279.000000 17.400000 375.377500</p><p>50% 77.500000 3.207450 5.000000 330.000000 19.050000 391.440000</p><p>75% 94.075000 5.188425 24.000000 666.000000 20.200000 396.225000</p><p>max 100.000000 12.126500 24.000000 711.000000</p><p>22.000000 396.900000</p><p>lstat medv</p><p>count 506.000000 506.000000</p><p>mean 12.653063 22.532806</p><p>std 7.141062 9.197104</p><p>min 1.730000 5.000000</p><p>25% 6.950000 17.025000</p><p>50% 11.360000 21.200000</p><p>75% 16.955000 25.000000</p><p>max 37.970000 50.000000</p><p>Comparação dos valores dos preditores para o subúrbio com medv mais baixo em relação</p><p>crim: 38.3518 (Intervalo total: 0.00632 - 88.9762)</p><p>zn: 0.0 (Intervalo total: 0.0 - 100.0)</p><p>indus: 18.1 (Intervalo total: 0.46 - 27.74)</p><p>chas: 0 (Intervalo total: 0.0 - 1.0)</p><p>nox: 0.693 (Intervalo total: 0.385 - 0.871)</p><p>rm: 5.453 (Intervalo total: 3.561 - 8.78)</p><p>age: 100.0 (Intervalo total: 2.9 - 100.0)</p><p>dis: 1.4896 (Intervalo total: 1.1296 - 12.1265)</p><p>rad: 24 (Intervalo total: 1.0 - 24.0)</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 17/32</p><p>tax: 666 (Intervalo total: 187.0 - 711.0)</p><p>ptratio: 20.2 (Intervalo total: 12.6 - 22.0)</p><p>b: 396.9 (Intervalo total: 0.32 - 396.9)</p><p>lstat: 30.59 (Intervalo total: 1.73 - 37.97)</p><p>i)</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>#Quantidade de suburbios com mais de 7 quartos por casa</p><p>rmMaior7 = dados[dados['rm'] > 7]</p><p>print(len(rmMaior7))</p><p>64</p><p>1</p><p>2</p><p>3</p><p>4</p><p>#Quantidade de suburbios com mais de 8 quartos por casa</p><p>rmMaior8 = dados[dados['rm'] > 8]</p><p>print(len(rmMaior8))</p><p>13</p><p>1 rmMaior8.describe()</p><p>Temos que 64 suburbios tem casas com mais de 7 casos e 13 suburbios contendo casas com</p><p>mais de 8 quartos.</p><p>Exercício 1.5.1 do livro de Demetrio (2002)</p><p>Veri�que se as distribuições que se seguem pertencem à família exponencial na forma</p><p>canônica dada:</p><p>f(y; θ,ϕ) = exp{ [yθ− b(θ)] + c(y,ϕ)}1</p><p>a(ϕ)</p><p>Para achar a Funções Geradoras de Momentos para a família exponencial com um parâmetro,</p><p>podemos usar a notação de McCullagh & Nelder (1989), que é dada por:</p><p>=</p><p>E a Funções Geradoras de Cumulantes dada por:</p><p>Funções Geradoras de Momentos e de Cumulantes</p><p>M(t; θ,ϕ) = E[ ]etY f(y; θ,ϕ) = exp{ [b[a(ϕ)t+ θ)] − b(θ)]}1</p><p>a(ϕ)</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 18/32</p><p>ϕ(t; θ,ϕ) = lnM(t; θ,ϕ)</p><p>Relação FE com média e variância:</p><p>E(Y ) = (θ)b′</p><p>V ar(Y ) = a(ϕ) (θ) = a(ϕ)V (μ)b′′</p><p>Para a distribuição de Poisson com parâmetro , a função massa de probabilidade é:</p><p>Identi�car</p><p>Para a distribuição de Poisson, o parâmetro de dispersão é 1, então:</p><p>Identi�car e</p><p>Seja a forma canônica:</p><p>Aplicando na distribuição de Poisson temos:</p><p>Comparando com a forma canônica, identi�camos:</p><p>(porque )</p><p>Portanto, substituindo , temos:</p><p>Então, a forma canônica para a distribuição de Poisson na notação dada é:</p><p>onde:</p><p>Distribuição de Poisson</p><p>μ</p><p>f(y;μ) = μye−μ</p><p>y!</p><p>a(ϕ)</p><p>ϕ</p><p>a(ϕ) = 1</p><p>θ b(θ)</p><p>f(y; θ,ϕ) = exp{ [yθ− b(θ)] + c(y,ϕ)}1</p><p>a(ϕ)</p><p>f(y;μ) = exp{y log(μ) − μ− log(y!)}</p><p>θ = log(μ)</p><p>b(θ) = μ = eθ μ = eθ</p><p>c(y,ϕ) = − log(y!)</p><p>μ = eθ</p><p>f(y; θ) = exp{yθ− − log(y!)}eθ</p><p>f(y; θ,ϕ) = exp{ [yθ− ]− log(y!)}1</p><p>1 eθ</p><p>θ = log(μ)</p><p>b(θ) = eθ</p><p>c(y,ϕ) = − log(y!)</p><p>ϕ = 1</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 19/32</p><p>Encontrando o Momento Gerador da Função</p><p>O momento gerador da função (MGF) é dado por:</p><p>Podemos expressar o MGF na forma da família exponencial:</p><p>Como para a Poisson, podemos simpli�car:</p><p>Sabemos que , então:</p><p>Podemos reescrever isso como:</p><p>Como , temos . Portanto, o MGF para a distribuição de Poisson é:</p><p>M(t; θ,ϕ)</p><p>M(t; θ,ϕ) = E [ ]etY</p><p>M(t; θ,ϕ) = exp{ [b(a(ϕ)t+ θ) − b(θ)]}1</p><p>a(ϕ)</p><p>a(ϕ) = 1</p><p>M(t; θ,ϕ) = exp{b(t+ θ) − b(θ)}</p><p>b(θ) = eθ</p><p>M(t; θ,ϕ) = exp{ − }et+θ eθ</p><p>M(t; θ,ϕ) = exp{ ( − 1)}eθ et</p><p>θ = log(μ) = μeθ</p><p>M(t; θ,ϕ) = exp{μ( − 1)}et</p><p>Para achar Funções Geradoras de Cumulantes dada por:</p><p>Usando resultados obtidos a cima temos:</p><p>ϕ(t; θ,ϕ) = lnM(t; θ,ϕ)</p><p>ϕ(t; θ,ϕ) = lnM(t; θ,ϕ) = μ( − 1)}et</p><p>Calculando E(Y)</p><p>Primeiro, recordemos que para a distribuição de Poisson:</p><p>Agora, vamos calcular as derivadas necessárias:</p><p>1. Primeira derivada de :</p><p>2. Segunda derivada de :</p><p>A esperança é dada por :</p><p>Como , temos:</p><p>Portanto, , o que é esperado para a distribuição de Poisson.</p><p>b(θ) = eθ</p><p>b(θ) (θ) = =b′ d</p><p>dθ</p><p>eθ eθ</p><p>b(θ) (θ) = =b′′ d2</p><p>dθ2</p><p>eθ eθ</p><p>E(Y ) (θ)b′</p><p>E(Y ) = (θ) =b′ eθ</p><p>θ = log(μ)</p><p>E(Y ) = = μelog(μ)</p><p>E(Y ) = μ</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 20/32</p><p>Calculando</p><p>A variância é dada por . Para a Poisson, temos , então:</p><p>Substituindo :</p><p>Portanto, , o que também é esperado para a distribuição de Poisson.</p><p>A função de variância para a Poisson é simplesmente . Assim, podemos</p><p>reescrever a variância:</p><p>Como para a Poisson, temos:</p><p>Portanto, para a distribuição de Poisson:</p><p>Var(Y )</p><p>Var(Y ) a(ϕ) (θ)b′′ a(ϕ) = 1</p><p>Var(Y ) = (θ) =b′′ eθ</p><p>θ = log(μ)</p><p>Var(Y ) = = μelog(μ)</p><p>Var(Y ) = μ</p><p>V (μ) V (μ) = μ</p><p>Var(Y ) = a(ϕ) (θ) = a(ϕ)V (μ)b′′</p><p>a(ϕ) = 1</p><p>Var(Y ) = V (μ) = μ</p><p>E(Y ) = μ</p><p>Var(Y ) = V (μ) = μ = eθ</p><p>Distribuição Binomial Negativa</p><p>P(y;μ,k) = Γ(y+k)</p><p>y!Γ(k)</p><p>μykk</p><p>(μ+k)k+y</p><p>Para a distribuição Binomial Negativa com os parâmetros dados:</p><p>Portanto temos:</p><p>P(y;μ,k) = exp{y logμ+ k log(k) − (k+ y) log(μ+ k) + log[ ]}Γ(y+k)</p><p>y!Γ(k)</p><p>= exp{y logμ+ k log(k) − k log(μ+ k) − y log(μ+ k) + log[ ]}Γ(y+k)</p><p>y!Γ(k)</p><p>= exp{y log[ ] − k log(μ+ k) + k log(k) + log[ ]}μ</p><p>(μ+k)</p><p>Γ(y+k)</p><p>y!Γ(k)</p><p>P(y;μ,k) = exp{y log( )+ k log( )+ log[ ]}μ</p><p>μ+k</p><p>k</p><p>μ+k</p><p>Γ(y+k)</p><p>y!Γ(k)</p><p>Identi�cando o parâmetro natural de acordo com a expressão a cima temos:</p><p>Reescreva em termos de :</p><p>θ</p><p>=μ</p><p>μ+k eθ</p><p>μ θ</p><p>= ⟹ μ =μ</p><p>μ+k eθ</p><p>(μ+k)eθ</p><p>1−eθ</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 21/32</p><p>Resolvendo para :</p><p>Então, substitua na função de massa.</p><p>Encontrando :</p><p>Simpli�que:</p><p>Então:</p><p>Substituindo na função:</p><p>Simpli�cando os termos de :</p><p>Finalmente:</p><p>Parâmetro natural :</p><p>Termo : O termo que não depende de é:</p><p>μ</p><p>μ(1 − ) = μ+ keθ eθ eθ</p><p>μ− μ = μ + keθ eθ eθ</p><p>μ = keθ</p><p>1−eθ</p><p>=μ</p><p>μ+k eθ</p><p>b(θ)</p><p>=k</p><p>μ+k</p><p>k</p><p>+kkeθ</p><p>1−eθ</p><p>= = =k</p><p>μ+k</p><p>k(1− )eθ</p><p>k+k(1− )eθ eθ</p><p>1−eθ</p><p>+1−eθ eθ</p><p>1−eθ</p><p>1</p><p>= 1−k</p><p>μ+k eθ</p><p>P(y;μ,k) = exp{y log( ) + k log(1 − ) + log[ ]}eθ eθ</p><p>Γ(y+k)</p><p>y!Γ(k)</p><p>y</p><p>y log( ) = yθeθ</p><p>P(y;μ,k) = exp{yθ+ k log(1 − ) + log[ ]}eθ</p><p>Γ(y+k)</p><p>y!Γ(k)</p><p>θ log( )μ</p><p>μ+k</p><p>b(θ) y −k log(1 − )eθ</p><p>Função de normalização : 1</p><p>Função :</p><p>a(ϕ)</p><p>c(y,ϕ) log[ ]Γ(y+k)</p><p>y!Γ(k)</p><p>Encontrando o Momento Gerador da Função</p><p>O momento gerador da função (MGF) é dado por:</p><p>Podemos expressar o MGF na forma da família exponencial:</p><p>M(t; θ,ϕ)</p><p>M(t; θ,ϕ) = E [ ]etY</p><p>M(t; θ,ϕ) = exp{ [b(a(ϕ)t+ θ) − b(θ)]}1</p><p>a(ϕ)</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 22/32</p><p>Como para essa distribuição, a MGF simpli�ca para:</p><p>Sabemos que:</p><p>Substituindo na expressão da MGF:</p><p>A MGF pode ser reescrita como:</p><p>Usando a propriedade dos logaritmos , temos:</p><p>O que nos dá:</p><p>Portanto, o momento gerador da função (MGF) para a distribuição dada é:</p><p>a(ϕ) = 1</p><p>M(t; θ,ϕ) = exp{b(t+ θ) − b(θ)}</p><p>b(θ) = −k log(1 − )eθ</p><p>M(t; θ,ϕ) = exp{−k log(1 − ) + k log(1 − )}et+θ eθ</p><p>M(t; θ,ϕ) = exp{k [log(1 − ) − log(1 − )]}eθ et+θ</p><p>log(a) − log(b) = log( )a</p><p>b</p><p>M(t; θ,ϕ) = exp{k log( )}1−eθ</p><p>1−et+θ</p><p>M(t; θ,ϕ) = ( )1−eθ</p><p>1−et+θ</p><p>k</p><p>M(t; θ,ϕ) = ( )1−eθ</p><p>1−et+θ</p><p>k</p><p>Sabemos que:</p><p>Vamos substituir essa relação na expressão da MGF:</p><p>Podemos escrever:</p><p>Substituindo , temos:</p><p>Simpli�cando:</p><p>Então, a MGF pode ser reescrita como:</p><p>1 − =eθ k</p><p>μ+k</p><p>M(t; θ,ϕ) = ( )</p><p>k</p><p>μ+k</p><p>1−et+θ</p><p>k</p><p>1 − = 1− ⋅et+θ et eθ</p><p>= 1−eθ k</p><p>μ+k</p><p>1 − = 1− (1 − )et+θ et k</p><p>μ+k</p><p>1 − = 1− ( ) = 1−et+θ et</p><p>μ+k−k</p><p>μ+k</p><p>μet</p><p>μ+k</p><p>M(t; θ,ϕ) = ( )</p><p>k</p><p>μ+k</p><p>1−</p><p>μet</p><p>μ+k</p><p>k</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 23/32</p><p>Simpli�cando a fração:</p><p>Finalmente, temos a MGF</p><p>simpli�cada:</p><p>M(t; θ,ϕ) = ( )k</p><p>μ+k− μet</p><p>k</p><p>M(t; θ,ϕ) = ( )k</p><p>k+μ( −1)et</p><p>k</p><p>= (1 + (1 − ))μ</p><p>k</p><p>et</p><p>−k</p><p>Para achar Funções Geradoras de Cumulantes dada por:</p><p>Usando resultados obtidos a cima temos:</p><p>ϕ(t; θ,ϕ) = lnM(t; θ,ϕ)</p><p>ϕ(t; θ,ϕ) = lnM(t; θ,ϕ) = ln (1 + (1 − ))μ</p><p>k</p><p>et</p><p>−k</p><p>Dada a função para a distribuição binomial negativa:</p><p>A esperança é dada por:</p><p>Calculando a derivada de em relação a :</p><p>Usando a regra da cadeia:</p><p>Como , temos:</p><p>Portanto, a esperança é:</p><p>A variância é dada por:</p><p>Vamos calcular a segunda derivada de :</p><p>Usando a regra do quociente:</p><p>Simpli�cando:</p><p>b(θ)</p><p>b(θ) = −k log(1 − )eθ</p><p>E(Y )</p><p>E(Y ) = (θ)b′</p><p>b(θ) θ</p><p>(θ) = [−k log(1 − )]b′ d</p><p>dθ</p><p>eθ</p><p>(θ) = −k ⋅ ⋅ (1 − )b′ 1</p><p>1−eθ</p><p>d</p><p>dθ</p><p>eθ</p><p>(1 − ) = −d</p><p>dθ</p><p>eθ eθ</p><p>(θ) =b′ k⋅eθ</p><p>1−eθ</p><p>E(Y )</p><p>E(Y ) = k⋅eθ</p><p>1−eθ</p><p>Var(Y )</p><p>Var(Y ) = a(ϕ) (θ)b′′</p><p>b(θ)</p><p>(θ) = [ ]b′′ d</p><p>dθ</p><p>k⋅eθ</p><p>1−eθ</p><p>(θ) =b′′</p><p>k⋅[(1− )⋅ −(− ⋅ )]eθ eθ eθ eθ</p><p>(1−eθ)2</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 24/32</p><p>Substituindo :</p><p>Dado que para essa distribuição, a variância é:</p><p>Ou podemos escrever a variância na forma:</p><p>(θ) = =b′′</p><p>k⋅[ − + ]eθ e2θ e2θ</p><p>(1−eθ)2</p><p>k⋅eθ</p><p>(1−eθ)2</p><p>=eθ</p><p>μ</p><p>μ+k</p><p>(θ) = =b′′</p><p>k⋅</p><p>μ</p><p>μ+k</p><p>( )k</p><p>μ+k</p><p>2</p><p>μ(μ+k)</p><p>k</p><p>a(ϕ) = 1 Var(Y )</p><p>Var(Y ) = (θ) =b′′</p><p>μ(μ+k)</p><p>k</p><p>Var(Y ) = μ (1 + )μ</p><p>k</p><p>1 Comece a programar ou gere código com IA.</p><p>Distribuição Gama</p><p>P(y;μ, v) = exp( )</p><p>( v</p><p>μ</p><p>)v</p><p>Γ(v)</p><p>yv−1</p><p>−yv</p><p>μ</p><p>Vamos reescrever a densidade de probabilidade na forma exponencial:</p><p>Vamos identi�car os componentes , , e correspondentes:</p><p>1. Parâmetro natural : O termo que acompanha é , então:</p><p>2. Termo : O termo que depende apenas de (ou ) e não de ( y ):</p><p>Primeiro, substitua :</p><p>Agora substitua em :</p><p>P(y;μ, v) = exp{v log( )+ (v− 1) log(y) − − log(Γ(v))}v</p><p>μ</p><p>yv</p><p>μ</p><p>= exp{v log( )+ v log(y) − log(y) − − log(Γ(v))}v</p><p>μ</p><p>yv</p><p>μ</p><p>= exp{− + v log( )+ v log(y) − log(y) − log(Γ(v))}yv</p><p>μ</p><p>v</p><p>μ</p><p>= exp{ [− + log( )] + v log(vy) − log(y) − log(Γ(v))}1</p><p>v−1</p><p>y</p><p>μ</p><p>1</p><p>μ</p><p>θ b(θ) a(ϕ) c(y,ϕ)</p><p>θ y − 1</p><p>μ</p><p>θ = − 1</p><p>μ</p><p>b(θ) θ μ</p><p>θ = − 1</p><p>μ</p><p>= −θ ⇒ μ = −1</p><p>μ</p><p>1</p><p>θ</p><p>b(θ)</p><p>b(θ) = log( ) = log( ) = −log(−θ)1</p><p>μ</p><p>1</p><p>− 1</p><p>θ</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 25/32</p><p>3. Função de normalização :</p><p>4. Função : O termo que depende de e (que é conhecido e constante):</p><p>a(ϕ) v−1</p><p>c(y,ϕ) y v</p><p>c(y,ϕ) = v log(vy) − log(y) − log(Γ(v))</p><p>A MGF é dada por:</p><p>Vamos substituir , , e na fórmula:</p><p>Substituindo na expressão:</p><p>Simpli�cando a expressão:</p><p>Isso se simpli�ca para:</p><p>A expressão pode ser reescrita como:</p><p>Ou, simpli�cando ainda mais:</p><p>M(t; θ,ϕ) = exp{ [b(a(ϕ)t+ θ) − b(θ)]}1</p><p>a(ϕ)</p><p>a(ϕ) θ b(θ)</p><p>M(t; θ,ϕ) = exp{v [b( − )− b(− )]}t</p><p>v</p><p>1</p><p>μ</p><p>1</p><p>μ</p><p>b(θ) = − log(−θ)</p><p>M(t; θ,ϕ) = exp{v [−log(−( − ))+ log(− )]}t</p><p>v</p><p>1</p><p>μ</p><p>1</p><p>μ</p><p>M(t; θ,ϕ) = exp{v[log( )]}</p><p>− 1</p><p>μ</p><p>−( − )t</p><p>v</p><p>1</p><p>μ</p><p>M(t; θ,ϕ) = exp{v log( )}μ</p><p>μ−</p><p>tμ</p><p>v</p><p>M(t; θ,ϕ) = ( )μ</p><p>μ−</p><p>tμ</p><p>v</p><p>v</p><p>M(t; θ,ϕ) = ( )μ</p><p>μ− t</p><p>v</p><p>v</p><p>= (1 − )tμ</p><p>v</p><p>−v</p><p>Para achar Funções Geradoras de Cumulantes dada por:</p><p>Usando resultados obtidos a cima temos:</p><p>ϕ(t; θ,ϕ) = lnM(t; θ,ϕ)</p><p>ϕ(t; θ,ϕ) = lnM(t; θ,ϕ) = ln(1 − )tμ</p><p>v</p><p>−v</p><p>Sabemos que:</p><p>Vamos calcular a derivada de em relação a :</p><p>b(θ) = − log(−θ)</p><p>b(θ) θ</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 26/32</p><p>Usando a regra da cadeia, temos:</p><p>Substituindo :</p><p>Portanto, a esperança é:</p><p>Agora, vamos calcular a segunda derivada de :</p><p>A derivada de em relação a é:</p><p>Substituindo :</p><p>Para a distribuição Gama, . Portanto, a variância é:</p><p>E como</p><p>(θ) = [− log(−θ)]b′ d</p><p>dθ</p><p>(θ) = ⋅ (−1) =b′ 1</p><p>−θ</p><p>1</p><p>θ</p><p>θ = − 1</p><p>μ</p><p>(θ) = = −μb′ 1</p><p>− 1</p><p>μ</p><p>E(Y )</p><p>E(Y ) = −μ = − 1</p><p>θ</p><p>b(θ)</p><p>(θ) = [ (θ)] = [ ]b′′ d</p><p>dθ</p><p>b′ d</p><p>dθ</p><p>1</p><p>θ</p><p>1</p><p>θ</p><p>θ</p><p>(θ) = −b′′ 1</p><p>θ2</p><p>θ = 1</p><p>μ</p><p>(θ) = − =b′′ 1</p><p>(− )1</p><p>μ</p><p>2</p><p>μ2</p><p>a(ϕ) = 1</p><p>v</p><p>Var(Y )</p><p>Var(Y ) = a(ϕ) (θ) = ⋅ (− ) =b′′ 1</p><p>v</p><p>μ2 μ2</p><p>v</p><p>V (μ) = (θ) ⇒ V (μ) =b′′ μ2</p><p>Distribuição Normal Inversa (ou Inversa Gaussiana)</p><p>P(y;μ, ) = exp{− }σ2 1</p><p>2πσ2y3</p><p>− −−−−</p><p>√ (y−μ)2</p><p>2 yσ2μ2</p><p>Primeiro, vamos manipular a densidade para extrair os termos que precisamos.</p><p>Expanda o quadrado na exponencial:</p><p>Isso se torna:</p><p>P(y;μ, ) = exp{− ⋅ (y− μ − log(2π )}σ2 1</p><p>2 yσ2μ2</p><p>)2 1</p><p>2 σ2y3</p><p>P(y;μ, ) = exp{− − log(2π )}σ2 −2μy+y2 μ2</p><p>2 yσ2μ2</p><p>1</p><p>2 σ2y3</p><p>P(y;μ, ) = exp{− + − − log(2π )}σ2 y</p><p>2σ2μ2</p><p>1</p><p>μσ2</p><p>1</p><p>2 yσ2</p><p>1</p><p>2 σ2y3</p><p>= exp{ [− + ] − − log(2π )}1</p><p>σ2</p><p>y</p><p>2μ2</p><p>1</p><p>μ</p><p>1</p><p>2 yσ2</p><p>1</p><p>2 σ2y3</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 27/32</p><p>Precisamos agora identi�car os termos na forma :</p><p>1. Parâmetro natural : O termo que acompanha na expressão é .</p><p>2. Função de normalização é : = .</p><p>3. Termo : Para encontrar , observamos que ele depende apenas de : Portanto:</p><p>Fazendo para :</p><p>4. Função : Inclui os termos que dependem apenas de e :</p><p>[yθ− b(θ)] + c(y,ϕ)1</p><p>a(ϕ)</p><p>θ y − 1</p><p>2μ2</p><p>a(ϕ) σ2</p><p>b(θ) b(θ) θ</p><p>θ = − ⇒1</p><p>2μ2</p><p>= − ⇒μ2 1</p><p>2θ</p><p>μ = (−2θ)</p><p>1</p><p>2</p><p>1</p><p>μ</p><p>= ⇒ b(θ) = −(−2θ1</p><p>μ</p><p>1</p><p>(−2θ)</p><p>1</p><p>2</p><p>)</p><p>1</p><p>2</p><p>c(y,ϕ) y ϕ</p><p>c(y,ϕ) = {− − log(2π )}1</p><p>2 yσ2</p><p>1</p><p>2 σ2y3 = {− [ + log(2π )]}1</p><p>2</p><p>1</p><p>yσ2 σ2y3</p><p>A função geradora de momentos (MGF) é dada por:</p><p>Substituindo ( a(\phi) ), ( \theta ), e ( b(\theta) ) na fórmula:</p><p>Podemos simpli�car a expressão para :</p><p>Sabendo que: podemos reescrever da seguinte forma:</p><p>M(t; θ,ϕ) = exp{ [b(a(ϕ)t+ θ) − b(θ)]}1</p><p>a(ϕ)</p><p>M(t; θ,ϕ) = exp{ [ − ]}1</p><p>σ2 −2( t+ θ)σ2− −−−−−−−−−√ −2θ− −−−√</p><p>M(t; θ,ϕ)</p><p>M(t; θ,ϕ) = exp{ [ − ]}1</p><p>σ2 −2 t− 2θσ2− −−−−−−−−√ −2θ− −−−√</p><p>θ = − 1</p><p>2μ2</p><p>M(t; θ,ϕ) = exp{ [ + ]}1</p><p>σ2 −2 t−σ2 1</p><p>μ2</p><p>− −−−−−−−−</p><p>√ 1</p><p>μ2</p><p>E a Funções Geradoras de Cumulantes dada por:</p><p>ϕ(t; θ,ϕ) = lnM(t; θ,ϕ) = { [ + ]}1</p><p>σ2 −2 t−σ2 1</p><p>μ2</p><p>− −−−−−−−−</p><p>√ 1</p><p>μ2</p><p>Calculando para</p><p>Sabemos que:</p><p>Vamos calcular a derivada de em relação a :</p><p>Usando a regra da cadeia, temos:</p><p>(θ)b′ E(Y )</p><p>b(θ) = −2θ− −−−√</p><p>b(θ) θ</p><p>(θ) = ( )b′ d</p><p>dθ</p><p>−2θ− −−−√</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 28/32</p><p>(θ) = ⋅ (−2) =b′ 1</p><p>2 −2θ√</p><p>−1</p><p>−2θ√</p><p>Agora, vamos calcular a segunda derivada de :</p><p>A derivada de em relação a é:</p><p>Sabemos que . Vamos substituir isso na expressão para :</p><p>Portanto, a segunda derivada correta é:</p><p>E, como resultado, a variância é:</p><p>b(θ)</p><p>(θ) = ( )b′′ d</p><p>dθ</p><p>−1</p><p>−2θ√</p><p>−1</p><p>−2θ√</p><p>θ</p><p>(θ) = ⋅ (−2) = ⋅ (−2) =b′′</p><p>−1⋅(− )1</p><p>2</p><p>(−2θ)3/2</p><p>1</p><p>2(−2θ)3/2</p><p>1</p><p>(−2θ)3/2</p><p>θ = − 1</p><p>2μ2</p><p>(θ)b′′</p><p>(θ) = = = =b′′ 1</p><p>(−2(− ))1</p><p>2μ2</p><p>3/2</p><p>1</p><p>( )1</p><p>μ2</p><p>3/2</p><p>1</p><p>1</p><p>μ3</p><p>μ3</p><p>(θ) =b′′ μ3 Var(Y )</p><p>Var(Y ) = a(ϕ) (θ) =b′′ σ2μ3</p><p>Exercício 1.5.6 do livro de Demetrio (2002)</p><p>1. Distribuição Gama: A distribuição Gama com parâmetros e tem a seguinte densidade:</p><p>2. Distribuição Binomial Negativa: A distribuição Binomial Negativa com parâmetros</p><p>(probabilidade de sucesso) e (número de falhas) tem a seguinte forma:</p><p>Para mostrar que tem distribuição Binomial Negativa incondicionalmente, podemos usar a</p><p>relação entre a Gama e a Binomial Negativa. A ideia principal é que se segue uma</p><p>distribuição Poisson condicionada a uma variável aleatória que segue uma distribuição</p><p>Gama, então segue uma distribuição Binomial Negativa incondicionalmente.</p><p>Considere que segue uma distribuição Poisson com parâmetro , onde segue uma</p><p>distribuição Gama:</p><p>Então, a distribuição condicional de dado é:</p><p>a)</p><p>μ v</p><p>P(y;μ, v) = exp(− )</p><p>( )v</p><p>μ</p><p>v</p><p>Γ(v)</p><p>yv−1</p><p>yv</p><p>μ</p><p>p</p><p>k</p><p>P(Y = y) = ( )(1 − p , y = 0, 1, 2,…y+k−1</p><p>k−1 )kpy</p><p>Y</p><p>Y</p><p>λ</p><p>Y</p><p>Y λ λ</p><p>λ ∼ Gama(α = v,β = )v</p><p>μ</p><p>Y λ</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 29/32</p><p>A distribuição incondicional de é obtida integrando sobre :</p><p>Substituindo as expressões para e :</p><p>A integral pode ser simpli�cada:</p><p>Reconhecendo que a integral é a função</p><p>Gama:</p><p>Podemos aplicar isso à integral acima:</p><p>Simpli�cando, obtemos:</p><p>A forma acima corresponde à densidade</p><p>de probabilidade da distribuição Binomial Negativa</p><p>com parâmetros e :</p><p>Portanto, tem uma distribuição Binomial Negativa incondicionalmente, mostrando a conexão</p><p>entre a distribuição Gama e a Binomial Negativa.</p><p>P(Y = y ∣ λ) = λye−λ</p><p>y!</p><p>Y λ</p><p>P(Y = y) = P(Y = y ∣ λ)P(λ)dλ∫ ∞</p><p>0</p><p>P(Y = y ∣ λ) P(λ)</p><p>P(Y = y) = ⋅ dλ∫ ∞</p><p>0</p><p>λye−λ</p><p>y!</p><p>( )v</p><p>μ</p><p>v</p><p>λv−1e</p><p>− λ</p><p>v</p><p>μ</p><p>Γ(v)</p><p>P(Y = y) = ⋅ dλ1</p><p>y!</p><p>( )v</p><p>μ</p><p>v</p><p>Γ(v)</p><p>∫ ∞</p><p>0 λy+v−1e</p><p>−λ(1+ )v</p><p>μ</p><p>dλ =∫ ∞</p><p>0 λa−1e−bλ</p><p>Γ(a)</p><p>ba</p><p>P(Y = y) = ⋅ ⋅1</p><p>y!</p><p>( )v</p><p>μ</p><p>v</p><p>Γ(v)</p><p>Γ(y+v)</p><p>(1+ )v</p><p>μ</p><p>y+v</p><p>P(Y = y) = ⋅ = ⋅Γ(y+v)</p><p>y!Γ(v)</p><p>( )v</p><p>μ</p><p>v</p><p>(1+ )v</p><p>μ</p><p>y+v</p><p>Γ(y+v)</p><p>y!Γ(v)</p><p>μyvv</p><p>(μ+v)y+v</p><p>p = μ</p><p>μ+v k = v</p><p>P(Y = y) = ( )y+v−1</p><p>v−1 ( )μ</p><p>μ+v</p><p>y</p><p>( )v</p><p>μ+v</p><p>v</p><p>Y</p><p>Os cálculos de E(Y) e VAR(Y) estão demonstrdos na questão anterior, na sessão de</p><p>"Distribuição Gama"</p><p>b)</p><p>z ∼ G(r,λ)</p><p>f(z; r,λ) = (λ)r</p><p>Γ(r)</p><p>zr−1e−λz</p><p>A função de densidade é a densidade da distribuição Gamma com parâmetros e :f(z; r,λ) r λ</p><p>f(z; r,λ) = λr</p><p>Γ(r)</p><p>zr−1e−λz</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 30/32</p><p>Portanto, segue uma distribuição Gamma com parâmetros e .</p><p>Vamos considerar a variável aleatória que segue uma distribuição Poisson com parâmetro .</p><p>Suponha que a taxa é uma variável aleatória e que:</p><p>Seja a variável com distribuição Gamma condicionada a . Vamos usar a fórmula para a</p><p>distribuição Gamma condicional a :</p><p>Para obter a distribuição marginal de , precisamos integrar sobre a distribuição de . A</p><p>função de massa da distribuição Poisson é:</p><p>Assim, a distribuição marginal de ( Z ) é dada por:</p><p>Substituindo e :</p><p>A soma pode ser simpli�cada utilizando a fórmula da série de Taylor para a função exponencial.</p><p>Note que:</p><p>Podemos reescrever a série com a função de MGF da distribuição Poisson. A soma é:</p><p>Portanto, o termo de soma é:</p><p>Comparando com a fórmula da distribuição binomial negativa, que tem a forma:</p><p>Com e , conseguimos ver que a distribuição resultante é uma</p><p>binomial negativa com parâmetros e .</p><p>Z r λ</p><p>λ μ</p><p>λ</p><p>λ ∼ Poisson(μ)</p><p>Z λ</p><p>λ</p><p>f(z ∣ λ) = λr</p><p>Γ(r)</p><p>zr−1e−λz</p><p>Z λ</p><p>p(λ) = μλe−μ</p><p>λ!</p><p>f(z) = f(z ∣ λ)p(λ)∑∞</p><p>λ=0</p><p>f(z ∣ λ) p(λ)</p><p>f(z) = ⋅∑∞</p><p>λ=0</p><p>λr</p><p>Γ(r)</p><p>zr−1e−λz</p><p>μλe−μ</p><p>λ!</p><p>(μ ) = (μ ) ⋅∑∞</p><p>λ=0</p><p>λr</p><p>λ! e−μe−λzzr e−μzr ∑∞</p><p>λ=0</p><p>(λe−λz)r</p><p>λ!</p><p>=∑∞</p><p>λ=0</p><p>(μe−λz)λe−μ</p><p>λ! eμ( −1)e−λz</p><p>f(z) = (μe−μ)rzr−1</p><p>Γ(r)</p><p>e−μ( −1)e−λz</p><p>P(Y = k) = ( )(1 − pk+r−1</p><p>r−1 )kpr</p><p>p = μ</p><p>μ+1 (1 − p) = 1</p><p>μ+1</p><p>r p</p><p>Primeiro, considere a variável dada que segue uma distribuição binomial negativa com</p><p>parâmetros e , onde é a probabilidade de sucesso.</p><p>A esperança e a variância da distribuição binomial negativa são dadas por:</p><p>Esperança Condicional:</p><p>Y</p><p>r p p</p><p>E[Y ∣ λ] = r(1−p)</p><p>p</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 31/32</p><p>Variância Condicional:</p><p>Dado que a taxa segue uma distribuição Poisson com parâmetro , temos que é a</p><p>probabilidade de sucesso. Se , então a distribuição binomial negativa pode</p><p>ser reescrita em termos da taxa Poisson.</p><p>Para a distribuição binomial negativa onde a taxa é uma variável aleatória, a probabilidade de</p><p>sucesso pode ser expressa como:</p><p>Então, a esperança e a variância condicionais podem ser escritas em termos de como:</p><p>Esperança Condicional:</p><p>Variância Condicional:</p><p>Para obter as esperanças e variâncias marginais, precisamos considerar a expectativa sobre a</p><p>distribuição de , que é Poisson com parâmetro :</p><p>Esperança Marginal:</p><p>Se , então é uma função complexa. No entanto, a expectativa de</p><p>uma variável binomial negativa com taxa Poisson pode ser diretamente encontrada como:</p><p>Var(Y ∣ λ) = r(1−p)</p><p>p2</p><p>λ μ p</p><p>λ ∼ Poisson(μ)</p><p>λ</p><p>p</p><p>p = λ</p><p>λ+1</p><p>λ</p><p>E[Y ∣ λ] = = − r = =</p><p>r(1− )λ</p><p>λ+1</p><p>λ</p><p>λ+1</p><p>r</p><p>λ</p><p>λ+1</p><p>r(λ+1−λ)</p><p>λ</p><p>r</p><p>λ</p><p>Var(Y ∣ λ) = = =</p><p>r(1− )λ</p><p>λ+1</p><p>( )λ</p><p>λ+1</p><p>2</p><p>r( )1</p><p>λ+1</p><p>( )λ</p><p>λ+1</p><p>2</p><p>r(λ+1)</p><p>λ2</p><p>λ μ</p><p>E[Y ] = E[E[Y ∣ λ]]</p><p>E[Y ] = E [ ]r</p><p>λ</p><p>λ ∼ Poisson(μ) E [ ]1</p><p>λ</p><p>21/08/2024, 22:01 Q1 reg2.ipynb - Colab</p><p>https://colab.research.google.com/drive/1ENkeuR5KIFZd3soCXGa2DUVy7IQtjH56?usp=drive_link#scrollTo=yg_6E_jYatj6 32/32</p><p>Exercício 1.5.8 do livro de Demetrio (2002)</p><p>Uma distribuição de Poisson in�acionada de zeros (ZIP) é uma modi�cação da distribuição de</p><p>Poisson que acomoda uma quantidade extra de zeros na distribuição. Essa distribuição é útil</p><p>quando há mais zeros observados do que o esperado em uma distribuição de Poisson simples.</p><p>A distribuição ZIP é caracterizada por dois parâmetros: , o parâmetro da Poisson subjacente, e</p><p>, a probabilidade de in�ação de zeros. A função de massa de probabilidade (PMF) é dada por:</p><p>Esperança ( E(Y) )</p><p>A esperança de ( Y ) para a distribuição ZIP pode ser calculada como:</p><p>Podemos separar os termos para e :</p><p>Para :</p><p>Para :</p><p>Essa soma é equivalente à esperança da distribuição de Poisson com parâmetro , ou seja, .</p><p>Portanto, a esperança é:</p><p>Variância</p><p>A variância de pode ser obtida a partir da expressão para :</p><p>Calculamos da seguinte forma:</p><p>Novamente, separamos os termos:</p><p>De�nição da Distribuição ZIP</p><p>λ</p><p>ω</p><p>P(Y = y) = {</p><p>ω+ (1 − ω) ,e−λ</p><p>(1 − ω) ,λye−λ</p><p>y!</p><p>se y = 0</p><p>se y = 1, 2, 3,…</p><p>E(Y ) = y ⋅ P(Y = y)∑∞</p><p>y=0</p><p>y = 0 y ≥ 1</p><p>E(Y ) = 0 ⋅ P(Y = 0) + y ⋅ P(Y = y)∑∞</p><p>y=1</p><p>y = 0</p><p>P(Y = 0) = ω+ (1 − ω)e−λ</p><p>y ≥ 1</p><p>E(Y ) = y ⋅ (1 − ω) = (1 − ω)λ∑∞</p><p>y=1</p><p>λye−λ</p><p>y! ∑∞</p><p>y=1</p><p>λy−1e−λ</p><p>(y−1)!</p><p>λ λ</p><p>E(Y ) = (1 − ω)λ</p><p>V ar(Y )</p><p>Y E( )Y 2</p><p>V ar(Y ) = E( ) −Y 2 (E(Y ))2</p><p>E( )Y 2</p><p>E( ) = ⋅ P(Y = y)Y 2 ∑∞</p><p>y=0 y</p><p>2</p><p>E( ) = 0 ⋅ P(Y = 0) + ⋅ P(Y = y)Y 2 ∑∞</p><p>y=1 y</p><p>2</p><p>21/08/2024, 22:01 Untitled33.ipynb - Colab</p><p>https://colab.research.google.com/drive/1vwVTZrcVPU6n4_iqAR9nmbd3Nru9pdl8#scrollTo=d4aSpCJ0mX1T 1/2</p><p>Para :</p><p>Podemos utilizar a seguinte propriedade para o segundo momento da Poisson:</p><p>Portanto:</p><p>Agora, calculamos a variância:</p><p>Simpli�cando:</p><p>Portanto, para a distribuição de Poisson in�acionada de zeros (ZIP) com parâmetros e :</p><p>Esperança:</p><p>Variância:</p><p>Essa distribuição acomoda a in�ação de zeros e ajusta a variância de acordo com a quantidade</p><p>extra de zeros observada.</p><p>y ≥ 1</p><p>E( ) = (1 − ω) ⋅Y 2 ∑∞</p><p>y=1 y</p><p>2 λye−λ</p><p>y!</p><p>E( ∣ Poisson(λ)) = + λY 2 λ2</p><p>E( ) = (1 − ω)( + λ)Y 2 λ2</p><p>V ar(Y ) = E( ) − = (1 − ω)( + λ) − (1 − ωY 2 (E(Y ))2 λ2 )2λ2</p><p>V ar(Y ) = (1 − ω)λ+ (1 − ω)( − (1 − ω) )λ2 λ2</p><p>V ar(Y ) = (1 − ω)λ (1 + λω)</p><p>λ ω</p><p>E(Y ) = (1 − ω)λ</p><p>V ar(Y ) = (1 − ω)λ(1 + λω)</p><p>21/08/2024, 22:01 Untitled33.ipynb - Colab</p><p>https://colab.research.google.com/drive/1vwVTZrcVPU6n4_iqAR9nmbd3Nru9pdl8#scrollTo=d4aSpCJ0mX1T 2/2</p>