textanalysis.booklet

textanalysis.booklet.booklet0

class textanalysis.booklet.booklet0.Ex01(text=None)[código fonte]

Implementa a atividade descrita em Apostila 0 Exercitando 01

Parâmetros

text (str) – Texto a ser utilizado como base para o exercício.

property text: str

Texto a ser utilizado pela classe

Propriedade ser utilizado pelos outros métodos da classe. Se for atribuído None, será convertido para uma string vazia.

Levanta

TypeError – Se for atribuído com um valor que não seja string

Tipo de retorno

str

Retorna

Texto a ser utilizado pela classe

property text_chars: iter[str]

Cria um gerador para os caracteres individuais do texto.

Retorna

Iterador dos caracteres de text

property text_split: iter[str]

Divide o texto em uma lista de palavras

Divide o texto em uma lista de palavras, separadas por um espaço em branco, e cria um gerador para os itens da lista.

Retorna

Iterador das palavras de text

property text_split_len: int

Contabiliza o tamanho da lista do iterador text_split

Tipo de retorno

int

Retorna

Tamanho da lista text_split

text_replace(old, new)[código fonte]

Substitui old por new

Substitui o trecho de text indicado pelo parâmetro old pelo texto indicado no parâmetro new

Parâmetros
  • old (str) – Texto original a ser substituído.

  • new (str) – Texto novo.

Tipo de retorno

str

Retorna

O novo valor de text

text_segment(first, last=None)[código fonte]

Retorna o segmento do texto entre first e last

Retorna o segmento do texto indicado, da posição inicial first até a posição last, ambos INCLUSIVO, ou seja, retorna o caracter das posições indicadas. Se last for omitido, retorna apenas o caracter indicado por first

Levanta

ValueError – Se first é menor ou igual a zero ou menor que last

Parâmetros
  • first (int) – Posição inicial do segmento (deve ser maior que zero)

  • last (int, opcional) – Posição final do segmento, opcional

Tipo de retorno

str

Retorna

String com o segmento do texto ou uma string vazia se first for maior que o tamanho do texto

text_last(n)[código fonte]

Retorna os últimos caracteres do texto, de tamanho indicado pelo parâmetro n, que é opcional com valor padrão 15.

Parâmetros

n (int, opcional) – Tamanho do segmento.

Levanta

IndexError – se o tamanho do segmento é maior que o texto em si.

Tipo de retorno

str

Retorna

Segmento do texto dos últimos n caracteres.

text_save(filename)[código fonte]

Salva o texto em um arquivo indicado pelo parâmetro filename.

Parâmetros

filename (str) – Caminho do arquivo

Tipo de retorno

str

Retorna

Caminho completo do arquivo salvo

class textanalysis.booklet.booklet0.Ex02(docname)[código fonte]

Implementa a atividade descrita em Apostila 0 Exercitando 02

Parâmetros

docname (str) – Caminho do arquivo docx a ser carregado.

property paragraphs: iter[str]

Cria um iterador para os parágrafos encontrados no documento.

Retorna

iterador dos parágrafos no documento

property paragraphs_list: list[str]

Cria uma lista contendo cada parágrafo encontrado no documento.

Tipo de retorno

list[str]

Retorna

Lista com os parágrafos.

property paragraphs_len: int

Contabiliza o tamanho da lista do gerador criado por Exercitando02.paragraphs().

Tipo de retorno

int

Retorna

Tamanho da lista.

paragraphs_segment(first, last=None)[código fonte]

Retorna os parágrafos do documento, da posição inicial first até a posição last, ambos INCLUSIVO, ou seja, também retorna os parágrafos nas posições indicadas. Se last for omitido, retorna apenas o parágrafo indicado por first.

Levanta

ValueError – Erro gerado quando first é menor ou igual a zero ou quando first menor que last.

Parâmetros
  • first (int) – Posição inicial do segmento (deve ser maior que zero).

  • last (int, opcional) – Posição final do segmento.

Tipo de retorno

Union[list[str], str]

Retorna

Uma lista de string com os parágrafos solicitados, ou uma única string de parágrafo de last for omitido.

paragraphs_hastext(text)[código fonte]

Verifica se a string indicado pelo parâmetro text existe no documento.

Parâmetros

text (str) – Texto a procurar no documento.

Tipo de retorno

bool

Retorna

Verdadeiro ou falso.

property paragraphs_text: str

Retorna uma string com o conteúdo do documento.

Tipo de retorno

str

Retorna

String do documento.

paragraphs_replacetext(old, new)[código fonte]

Retorna uma string com o conteúdo do documento, substiuindo o texto indicado pelo parâmetro old por new.

Parâmetros
  • old (str) – Texto original a ser substituído.

  • new (str) – Texto novo.

Tipo de retorno

str

Retorna

String com o texto substituído.

textanalysis.booklet.booklet1

class textanalysis.booklet.booklet1.Ex01[código fonte]

Implementa a atividade descrita em Apostila 1 Exercitando 01

property corpus: nltk.corpus.reader.plaintext.CategorizedPlaintextCorpusReader
Tipo de retorno

CategorizedPlaintextCorpusReader

Retorna

O Corpus carregado dos arquivos na pasta de dados

findid(fid, category=None)[código fonte]

Encontra o fileid desejado no corpus

Parâmetros
  • fid (str) – O id desejado

  • category (str) – A categoria desejada

Tipo de retorno

list[str]

Retorna

Lista de ids encontrado

words(fileid, category=None)[código fonte]

Iterador das palavras do corpus com ID fileid

Parâmetros
  • fileid (str) – ID desejado

  • category (str) – Categoria desejada

Retorna

Iterador de string

class textanalysis.booklet.booklet1.Ex02(docfile)[código fonte]

Implementa a atividade descrita em Apostila 1 Exercitando 02

property doc: docx.api.Document
Tipo de retorno

Document

Retorna

Documento em formato docx

property words: iter[str]
Retorna

Iterador de string

property bigrams: iter[BiGram]
Retorna

Iterador de tupla

property trigrams: iter[TriGram]
Retorna

Iterador de tupla

top_bigrams(top=20)[código fonte]
Parâmetros

top (int) –

Retorna

Iterador de tupla

top_trigrams(top=20)[código fonte]
Parâmetros

top (int) –

Retorna

Iterador de tupla

class textanalysis.booklet.booklet1.Ex03(file)[código fonte]

Implementa a atividade descrita em Apostila 1 Exercitando 03

property stopwords: list[str]
Tipo de retorno

list[str]

property file: str
Tipo de retorno

str

property words: list[str]
Tipo de retorno

list[str]

property tokens: iter[str]
property tokens_freq: nltk.probability.FreqDist
Tipo de retorno

FreqDist

property words_freq: nltk.probability.FreqDist
Tipo de retorno

FreqDist

tokens_freq_plot()[código fonte]
Tipo de retorno

str

property bigrams: iter[BiGram]
quadrigrams(word=None)[código fonte]
property top_bigrams: list[tuple[tuple[str, str], int]]
Tipo de retorno

list[tuple[tuple[str, str], int]]

property top_life_quadrigrams: list[tuple[tuple[str, str, str, str], int]]
Tipo de retorno

list[tuple[tuple[str, str, str, str], int]]

class textanalysis.booklet.booklet1.Ex04[código fonte]
textanalysis.booklet.booklet1.ex04()[código fonte]