Documentation
¶
Index ¶
- Constants
- Variables
- func CountTokens(tokenizer ITokenizer) int
- func CountTokensR(reader io.Reader) int
- type ITokenizer
- type Token
- func EofToken(si int) *Token
- func NewLargeToken(si int, ei int) *Token
- func NewToken(tp TokenType, si int, data string) *Token
- func NewTokenPlus(tp TokenType, si int, data string, ascii bool, hasUpper bool) *Token
- func ReadTokenList(tokenizer ITokenizer) []Token
- func ReadTokenListS(text string) []Token
- func (t *Token) Copy() Token
- func (t *Token) Data() []byte
- func (t *Token) Finish() int
- func (t *Token) HasUpper() bool
- func (t *Token) IsAscii() bool
- func (t *Token) IsEoS() bool
- func (t *Token) IsEof() bool
- func (t *Token) IsNumber() bool
- func (t *Token) IsUndefined() bool
- func (t *Token) IsUnknown() bool
- func (t *Token) IsWord() bool
- func (t *Token) Length() int
- func (t *Token) NormalValue() string
- func (t *Token) SetEoF(pos int) *Token
- func (t *Token) Start() int
- func (t *Token) Type() TokenType
- func (t *Token) Value() string
- type TokenType
Constants ¶
View Source
const MAX_WORD_LENGTH = 50
Variables ¶
View Source
var UNDEFINED_TOKEN = Token{/* contains filtered or unexported fields */}
Functions ¶
func CountTokens ¶
func CountTokens(tokenizer ITokenizer) int
func CountTokensR ¶
Types ¶
type ITokenizer ¶
type ITokenizer interface {
Next() *Token
}
ITokenizer - интерфейс получения токена
func New ¶
func New(reader io.Reader) ITokenizer
func NewS ¶
func NewS(text string) ITokenizer
type Token ¶
type Token struct {
// contains filtered or unexported fields
}
Token токен - охватывает минимальный примитив из исходного текста
func NewLargeToken ¶
func NewTokenPlus ¶
func ReadTokenList ¶
func ReadTokenList(tokenizer ITokenizer) []Token
func ReadTokenListS ¶
func (*Token) IsUndefined ¶
func (*Token) NormalValue ¶
type TokenType ¶
type TokenType byte
TokenType перечисление для типов токена
const ( // TOKEN_UD токен не определен TOKEN_UD TokenType = 0 // TOKEN_UK токен неопределенного типа строки TOKEN_UK TokenType = 1 // TOKEN_WD токен отдельного слова TOKEN_WD TokenType = 2 // TOKEN_ES токен с пробельными символами TOKEN_ES TokenType = 4 // TOKEN_WS токен с пробельными символами внутри предложения TOKEN_WS TokenType = 8 // TOKEN_DM токен с разделителями внутри предложения помимо пробелов TOKEN_DM TokenType = 16 // TOKEN_LC токен (без значения) для слитных участок текста, не разбирается TOKEN_LC TokenType = 32 // TOKEN_NB нечто численное - требуется для корректной обработки точек и запятых TOKEN_NB TokenType = 64 // TOKEN_EOF признак конца файла TOKEN_EOF TokenType = 128 )
Click to show internal directories.
Click to hide internal directories.