一切福田,不離方寸,從心而覓,感無不通。

【Kibana】Kibana入门教程

一、Kibana简介及下载安装 Kibana是专门用来为ElasticSearch设计开发的,可以提供数据查询,数据可视化等功能。 下载地址为:https://www.elastic.co/downloads/kibana#ga-release,请选择适合当前es版本的Kibana。 本教程使用Kibana4.5.4版本,以及es2.3.5版本。假定你已经具有es基本的知识。 1.1 安装步骤 安装步骤比较简单。 下载完后解压到任意目录。 启动es 配置config目录下的kibana.yml的elasticsearch.url指向es地址 运行bin目录下的kibana 如果没有修改配置文件的端口,那么在浏览器中输入http://localhost:5601 启动Kibana后,Kibana会自动在配置的es中创建一个名为.kibana的索引,用来存储数据,注意不要删除了。 1.2 数据准备 启动后如果显示如下界面: 说明Kibana没有在es中找到合适的index用来展示,如果es中没有数据,那么可以导入官方测试数据,用来学习操作。 如果你的es中已经有可以用来测试的数据,那么可以略过本节。 首先下载三个数据文件: 莎士比亚完整的作品,shakespeare.json 虚构的随机的账目数据,accounts.zip 随机的日志文件,logs.jsonl.gz 下载后解压最后两个压缩包:

设置莎士比亚的mapping,有三个index,因为假定是三天的日志,按天来生成索引:

设置日志的mapping:

最后将数据导入es:

导入后,输入以下命令检查结果,当然如果导入的过程中没有报错也表明导入成功:

应该输出下面的结果,当然容量也有可能有些差别。

这样的话数据就准备完毕了。 1.3 配置index 一般情况下,当启动Kibana的时候会自动搜索可用来展示的索引,如果你需要的没有被搜到,或者如上面新增的数据的索引没有检测到,那么key手动添加索引。配置index的位置为: 这样我们把刚才新增的数据的索引配置进去。 1.3.1 不带时间戳,或者没有字段表示时间戳 不要勾选包含时间的选项,输入index的名称,可以使用通配符,如果Create是灰色的,那么表明输入的索引不正确,请检查拼写。 点击创建后,会出现当前索引的所有字段,可对这些字段进行一些属性编辑,具体不再本文介绍。按同样的方式把bank配置进去。 1.3.2 带时间戳的 继续新增index,这次是带时间戳的,至于带不带时间戳会有什么不一样的,后面介绍就会明白了。 勾选包含时间,索引使用通配符,代表上面三个日志索引,时间字段选择@timestamp。点击创建就可以了。 这样基本工作就做好了,下面进入Kibana的实际讲解。 二、Kibana使用教程 首先看一下Kibana的主界面: 按照顺序讲解。 2.1 查询 查询是在指定索引的情况下查询,可以通过索引右侧下三角来选择其他索引。如果选择了logstash-*,没有数据也不要着急,后面会讲到。 2.1.1 查询语法 查询语法就是指明查询条件,用于过滤数据用的。 单纯的数据一个字符串,表明在当前索引的所有字段中,搜索包含当前字符串的记录: 如果要指定在某个字段中搜索,则使用filedname:searchtext的格式: 这样查询到一条数据,也可以使用区间,格式为filedname:[start TO end],如下面的语法就查询到10条数据。 也可以使用逻辑表达式并且可以带上括号,表达式符号为AND OR NOT。 表明在1000行内,有12行中包含love。  2.1.2 隐藏的时间查询限定条件 如果配置索引的时候选择了带时间戳,那么查询条件会默认加上一个时间条件,选择那样的索引后,右上角会出现时间条件: 所以,这个时候需要设置需要的时间: 因为时间可以设置为绝对时间,也可以设置为相对时间。当设置为相对时间时,数据其实是不断发生变化的,比如设置为上一个小时,那么当前查询的数据结果,在下一分钟有可能就不是正常的,所以此时可以指定一个刷新时间,用来不断显示新的数据。 刷新时间默认不是开启的,需要手动开启,根据选择的时间范围来选择刷新间隔,相对时间范围越窄则刷新间隔应该越短。 2.1.3 指定显示查询结果 默认情况下,查询结果显示所有字段,即_source的内容: 可以有时候只想关注一些指定的字段,那么可以将鼠标移动到索引下面的字段上,然后选在add即可,同样的移动上面已经选择的字段选择remove进行移除: 选择后,展示的结果就会以表格的形式进行展示: 2.1.4 复杂查询 通过搜索框进行查询的语法很多时候满足不了我们的要求,有时候我们需要使用自定义语法,在讲解复杂查询之前,先来讲另一个可玩的特性,就是说当我们点击某一个字段时,会把当前字段数量最多的前5个值及占比显示出来: 点击右侧的+号可以将当前值做为一个条件附加到搜索框的搜索条件上: 这个条件是在上面搜索结果的基础上继续进行筛选,鼠标移到上面会显示: 基本功能如图例所示,重点讲解最后一个即编辑,点击编辑后: 会出现熟悉的语法界面,在此处即可完成复杂的语法编写。 2.1.5 查询结果的保存 […]

龙生   29 May 2019
View Details

ElasticSearch使用

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。说白了就是一个搜索引擎。 环境安装 1.安装JDK环境 我使用的是以下方式安装,但是貌似yum库里最高只有到JDK1.8的版本。截止笔者发稿前,如想体验JDK10的自行去java官网下rpm包去安装

2.安装ElasticSearch 我采用的是rpm安装方式,按照官方文档即可正常安装 Installing from the RPM repository 什么?英文不好? 让老哥来教你。 如上图所示,在/etc/yum.repos.d目录里新建一个叫作elasticsearch.repo这个文件,把大框里的东西复制进去, 然后执行sudo yum install elasticsearch 启动的命令就是 sudo -i service elasticsearch start sudo -i service elasticsearch stop 3.安装Kibana Kibana 是一个开源的分析和可视化平台,旨在与 Elasticsearch 合作。Kibana 提供搜索、查看和与存储在 Elasticsearch 索引中的数据进行交互的功能。开发者或运维人员可以轻松地执行高级数据分析,并在各种图表、表格和地图中可视化数据。 我是用yum install kibana一键安装好的 安装完成以后修改配置文件 vim config/kibana.yml 将默认配置改成如下: server.port: 5601 server.host: “0.0.0.0” elasticsearch.url: “http://192.168.2.41:9200” kibana.index: “.kibana” 4.安装ElasticSearch-head 通过以下命令行安装 yum install -y npm cd /usr/local/src/ git clone git://github.com/mobz/elasticsearch-head.git cd elasticsearch-head/ npm install grunt -save ll node_modules/grunt #确认生成文件 npm install #执行安装 npm run start & #后台启动服务 5.安装IK中文分词 https://github.com/medcl/elasticsearch-analysis-ik cd /usr/share/elasticsearch/ 执行命令(将6.2.3替换成你的elasticsearch的版本) ./bin/elasticsearch-plugin […]

龙生   29 May 2019
View Details

Elasticsearch-基础介绍及索引原理分析

最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作,花了些时间学习Elasticsearch的基础理论知识,整理了一下,希望能对Elasticsearch感兴趣/想了解的同学有所帮助。 同时也希望有发现内容不正确或者有疑问的地方,望指明,一起探讨,学习,进步。 介绍 Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单,它不仅包括了全文搜索功能,还可以进行以下工作: 分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。 实时分析的分布式搜索引擎。 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。 基本概念 先说Elasticsearch的文件存储,Elasticsearch是面向文档型数据库,一条数据在这里就是一个文档,用JSON作为文档序列化的格式,比如下面这条用户数据:

  用Mysql这样的数据库存储就会容易想到建立一张User表,有balabala的字段等,在Elasticsearch里这就是一个文档,当然这个文档会属于一个User的类型,各种各样的类型存在于一个索引当中。这里有一份简易的将Elasticsearch和关系型数据术语对照表:

  一个 Elasticsearch 集群可以包含多个索引(数据库),也就是说其中包含了很多类型(表)。这些类型中包含了很多的文档(行),然后每个文档中又包含了很多的字段(列)。Elasticsearch的交互,可以使用Java API,也可以直接使用HTTP的Restful API方式,比如我们打算插入一条记录,可以简单发送一个HTTP的请求:

  更新,查询也是类似这样的操作,具体操作手册可以参见Elasticsearch权威指南 索引 Elasticsearch最关键的就是提供强大的索引能力了,其实InfoQ的这篇时间序列数据库的秘密(2)——索引写的非常好,我这里也是围绕这篇结合自己的理解进一步梳理下,也希望可以帮助大家更好的理解这篇文章。 Elasticsearch索引的精髓: 一切设计都是为了提高搜索的性能 另一层意思:为了提高搜索的性能,难免会牺牲某些其他方面,比如插入/更新,否则其他数据库不用混了。前面看到往Elasticsearch里插入一条记录,其实就是直接PUT一个json的对象,这个对象有多个fields,比如上面例子中的name, sex, age, about, interests,那么在插入这些数据到Elasticsearch的同时,Elasticsearch还默默1的为这些字段建立索引--倒排索引,因为Elasticsearch最核心功能是搜索。 Elasticsearch是如何做到快速索引的 InfoQ那篇文章里说Elasticsearch使用的倒排索引比关系型数据库的B-Tree索引快,为什么呢? 什么是B-Tree索引? 上大学读书时老师教过我们,二叉树查找效率是logN,同时插入新的节点不必移动全部节点,所以用树型结构存储索引,能同时兼顾插入和查询的性能。因此在这个基础上,再结合磁盘的读取特性(顺序读/随机读),传统关系型数据库采用了B-Tree/B+Tree这样的数据结构: 为了提高查询的效率,减少磁盘寻道次数,将多个值作为一个数组通过连续区间存放,一次寻道读取多个数据,同时也降低树的高度。 什么是倒排索引? 继续上面的例子,假设有这么几条数据(为了简单,去掉about, interests这两个field):

  ID是Elasticsearch自建的文档id,那么Elasticsearch建立的索引如下: Name:

  Age:

  Sex:

  Posting List Elasticsearch分别为每个field都建立了一个倒排索引,Kate, John, 24, Female这些叫term,而[1,2]就是Posting List。Posting list就是一个int的数组,存储了所有符合某个term的文档id。 看到这里,不要认为就结束了,精彩的部分才刚开始… 通过posting list这种索引方式似乎可以很快进行查找,比如要找age=24的同学,爱回答问题的小明马上就举手回答:我知道,id是1,2的同学。但是,如果这里有上千万的记录呢?如果是想通过name来查找呢? Term Dictionary Elasticsearch为了能快速找到某个term,将所有的term排个序,二分法查找term,logN的查找效率,就像通过字典查找一样,这就是Term Dictionary。现在再看起来,似乎和传统数据库通过B-Tree的方式类似啊,为什么说比B-Tree的查询快呢? Term Index B-Tree通过减少磁盘寻道次数来提高查询性能,Elasticsearch也是采用同样的思路,直接通过内存查找term,不读磁盘,但是如果term太多,term dictionary也会很大,放内存不现实,于是有了Term Index,就像字典里的索引页一样,A开头的有哪些term,分别在哪页,可以理解term index是一颗树: 这棵树不会包含所有的term,它包含的是term的一些前缀。通过term index可以快速地定位到term dictionary的某个offset,然后从这个位置再往后顺序查找。 所以term index不需要存下所有的term,而仅仅是他们的一些前缀与Term Dictionary的block之间的映射关系,再结合FST(Finite State Transducers)的压缩技术,可以使term […]

龙生   29 May 2019
View Details