ES第十一天-script_es script-程序员宅基地

技术标签: elasticsearch  

ES Scripts简介

在ES 1.4.X-5.0版本,Groovy是作为ES的脚本语言。
其他支持脚本:
① expression:每个文档的开销较低:表达式的作用更多,可以非常快速地执行,甚至比编写native脚本还要快,支持javascript语法的子集:单个表达式。缺点:只能访问数字,布尔值,日期和geo_point字段,存储的字段不可用
② mustache:提供模板参数化查询
③ java

在ES6之后,更多的是使用Painless作为脚本。
Painless:Painless是一种专门用于Elasticsearch的简单,用于内联和存储脚本,类似于Java,也有注释、关键字、类型、变量、函数等,安全的脚本语言。它是Elasticsearch的默认脚本语言,可以安全地用于内联和存储脚本。 本次将主要针对Painless进行script讲解。

script中的新增

  {
    
        "_index" : "product",
        "_type" : "_doc",
        "_id" : "3",
        "_score" : 1.0,
        "_source" : {
    
          "name" : "nfc phone",
          "desc" : "shouji zhong de hongzhaji",
          "price" : 2999,
          "tags" : [
            "xingjiabi",
            "fashao",
            "menjinka"
          ]
        }
      }

针对上面的文档,对里边的tags进行新增元素:

POST product/_update/3
{
    
  "script": {
    
    "lang": "painless",
    "source": "ctx._source.tags.add('无线充电')"
  }
}

script中的修改

 {
    
    "_index" : "product",
    "_type" : "_doc",
    "_id" : "3",
    "_score" : 1.0,
    "_source" : {
    
      "name" : "nfc phone",
      "desc" : "shouji zhong de hongzhaji",
      "price" : 2999,
      "tags" : [
        "xingjiabi",
        "fashao",
        "menjinka"
      ]
    }
  }

针对上面的文档,对价格进行更新:

POST product/_update/3
{
    
  "script": {
    
     //语法:#ctx._source.<field-name>
    "source": "ctx._source.price-=1"
  }
}

upsert

如果数据存在,执行partial update操作,如果数据不存在,那么执行create操作

POST product2/_update/15
{
    
    //存在执行这个:
  "script": {
    
    "source": "ctx._source.price += params.param1",
    "lang": "painless",
    "params": {
    
      "param1": 100
    }
  },
  //不存在进行插入这个:
  "upsert": {
    
    "name": "小米10",
    "price": 1999
  }
}

script中的删除

POST product/_update/15
{
    
  "script": {
    
    "lang": "painless",
    "source": "ctx.op='delete'"
  }
}

script中的批量操作bulk

POST _bulk
{
     "update" : {
     "_id" : "0", "_index" : "product2", "retry_on_conflict" : 3} }
{
     "script" : {
     "source": "ctx._source.price += params.param1", "lang" : "painless", "params" : {
    "param1" : 100}}, "upsert" : {
    "price" : 1999}}

script中的查询

   {
    
        "_index" : "product",
        "_type" : "_doc",
        "_id" : "4",
        "_score" : 1.0,
        "_source" : {
    
          "name" : "xiaomi erji",
          "desc" : "erji zhong de huangmenji",
          "price" : 999,
          "tags" : [
            "low",
            "bufangshui",
            "yinzhicha"
          ]
        }
      }

针对上面的文档,可以这样使用脚本查询:

GET /product/_search
{
    
  "script_fields": {
    
      //取个展示的名字
    "test_filed": {
    
      "script": {
    
        "lang": "painless",
        //使用doc对象用(点操作符)来得到对应的字段,
        "source": "doc.price.value" 
      }
    }
  }
}

但是对于一些text类型的文本,脚本中必须需要使用它的keyword,此时用点操作符就不行了,其实脚本中访问字段还有另外一种方式:

GET /product/_search
{
    
  "script_fields": {
    
    "test_filed": {
    
      "script": {
    
        "lang": "painless",
        //像这种访问字典的方式
        "source": "doc['name.keyword'].value"
      }
    }
  }
}

同时展示价格的原始价格和100倍后的价格:

GET /product/_search
{
    
  "script_fields": {
    
    "nature_source": {
    
      "script": {
    
        "lang": "painless",
        "source": "doc.price.value"
      }
    },
    "test_filed": {
    
      "script": {
    
        "lang": "painless",
        //script中可以进行计算 并支持参数
        "source": "doc.price.value*params.size",
        "params": {
    
          "size": 100
        }
      }
    }
  }
}

展示原始价格 和 多个打折价格:

GET product2/_search
{
    
  "script_fields": {
    
    "price": {
    
      "script": {
    
        "lang": "painless",
        "source": "doc['price'].value"
      }
    },
    "discount_price": {
    
      "script": {
    
        "lang": "painless",
        //之前看返回结果注意到,这里可以返回一个数组(也就是可以返回多个元素内容):
        "source": "[doc['price'].value * params.discount_8,doc['price'].value * params.discount_7,doc['price'].value * params.discount_6,doc['price'].value * params.discount_5]",
        "params": {
    
          "discount_8": 0.8,
          "discount_7": 0.7,
          "discount_6": 0.6,
          "discount_5": 0.5
        }
      }
    }
  }
}

脚本和参数

上面的脚本我们可以看到有的地方进行了调用参数params中声明的变量。
ES在首次执行脚本时,会对脚本进行编译(编译行为每分钟默认为15次,比较消耗性能),然后将编译好的内容缓存放入内存(可缓存大小有限制,默认为100M),
没有过期时间 可以手工设置过期时间script.cache.expire 通过script.cache.max_size设置缓存大小 脚本最大64MB 通过script.max_size_in_bytes配置
但如果脚本内容发送修改,缓存失效。但通过传入参数的方式,而后续只改变参数的值,这样在后续执行起来都是非常快的。
也就是说:如果需要将变量传递到脚本中,则应以命名形式传递变量params,而不是将值硬编码到脚本本身中。例如,如果你希望能够将字段值乘以不同的乘数,请不要将乘数硬编码到脚本中

Stored scripts

当你有一段脚本逻辑是通用的,你这时候可能想把它抽象成一个模板,让各个地方直接调用,那这个时候就可以用这个,它可以理解为script模板 缓存在集群的cache中,它类似数据库中的存储过程 ,作用域为整个集群

这里以一个折扣计算的脚本为例:

创建脚本

//语法: POST _scripts/名字
POST _scripts/calculate-discount
{
    
  "script": {
    
    "lang": "painless",
    "source": "doc['price'].value * params.discount"
  }
}

查看脚本

GET _scripts/calculate-discount

删除脚本

DELETE _scripts/calculate-discount

引用脚本

GET product/_search
{
    
  "script_fields": {
    
    "discount_price": {
    
      "script": {
    
         //这里不需要再指定source,而是直接指定对应上面存储了的脚本id名即可 
        "id":"calculate-discount",
        "params": {
    
          "discount": 0.8
        }
      }
    }
  }
}

date类型的查询

日期字段实际为ZonedDateTime的一个类,因此它们支持诸如此类的方法:getYear,getDayOfWeek 或例如从历元开始到毫秒getMillis。要在脚本中使用它们,请省略get前缀并继续使用小写的方法名其余部分。

getYear()  //year
getMonth() //month
getDayOfMonth() //dayOfMonth
getDayOfWeek() //dayOfWeek
getDayOfYear() //dayOfYear
getHour() //hour
getMinute() //minute
getSecond() //second
getNano() //nano

例如获取创建时间所属的年:

GET product/_search
{
    
  "script_fields": {
    
    "test_year": {
    
      "script": {
    
          //对应的就是getYear() 
        "source": "doc.createtime.value.year"
      }
    }
  }
}

脚本中的多行语句

当遇到复杂脚本,可能需要写很多行,这个时候上面的那种单行的写起来就太难受了。。。
实际上,ES是支持多行脚本编写的:
只需要source后面的语句的开头和结尾都是三个引号,在两对三引号之间写下多行内容即可,语句和语句直接使用“;”结尾,和java差不多:

POST product2/_update/1
{
    
  "script": {
    
    "lang": "painless",
    "source": """
      ctx._source.name += params.name;
      ctx._source.price -= 1
    """,
    "params": {
    
      "name": "无线充电",
      "price": "1"
    }
  }
}

例子

1、部分匹配,如果对应文档的name字段中包含phone,就把它的name字段加上标识符号:

POST product/_update/1
{
    
  "script": {
    
    "lang": "painless",
    "source": """
        // =~ 部分匹配
      if (ctx._source.name =~ /[\s\S]*phone[\s\S]*/) {
          //加上标识
        ctx._source.name += "***|";
      } else {
         //啥也不做 
        ctx.op = "noop";
      }
    """
  }
}

这里如果没有在elasticsearch.yml文件中设置开启正则,会报错:
在这里插入图片描述

script.painless.regex.enabled: true

2、完全匹配,如果日期完全符合正则的要求,也就是日期格式为 类似 2018-12-31 这种的日期才行,然后加上标识符号:

POST product2/_update/1
{
    
  "script": {
    
    "lang": "painless",
    "source": """
      // ==~ 完全匹配
      if (ctx._source.createtime ==~ /[0-9]{4}-[0-9]{2}-[0-9]{2}/) {
        ctx._source.name += "|***";
      } else {
      //啥也不做 
        ctx.op = "noop";
      }
    """
  }
}

3、针对price小于1000的文档,进行统计出它们tag元素的总数:

每个文档的结构是这样:

{
“_index” : “product”,
“_type” : “_doc”,
“_id” : “5”,
“_score” : 0.0,
“_source” : {
“name” : “hongmi erji”,
“desc” : “erji zhong de kendeji”,
“price” : 399,
“tags” : [
“lowbee”,
“xuhangduan”,
“zhiliangx”
]
}
}

查询:

GET product/_search
{
    
  "query": {
    
    "bool": {
    
      "filter": [
        {
    
          "range": {
    
            "price": {
    

              "lt": 10000
            }
          }
        }
      ]
    }
  },
  "aggs":{
    
    "tag_count_aggs":{
    
      "sum":{
    
        "script":{
    
          "lang":"painless",
          //这里最后的聚合结果,是把每个文档经过这个脚本的结果分别进行累加后得到
          "source":"""
          int total = 0;
          for(int i =0; i<doc['tags.keyword'].length;i++){
            total+=i;
          }
          return total;
          """
        }
      }
    }
  }

doc[‘field’].value和params[’_source’][‘field’]的区别

理解它们之间的区别是很重要的,首先,使用doc关键字,将导致该字段的条件被加载到内存(缓存),这将导致更快的执行,但更多的内存消耗。
此外,doc[…]符号只允许简单类型(不能返回一个复杂类型(JSON对象或者nested类型)),只有在非分析或单个词条的基础上有意义。
但是,doc如果可以使用的情况下(返回非复杂类型),仍然是从文档中进行访问值的推荐方式,因为_source每次使用时都必须加载并解析,因此使用_source非常缓慢。

例子演示:

创建索引:

PUT /test_index2
{
    
  "mappings": {
    
    "properties": {
    
      "ajbh": {
    
        "type": "text",
        "fields": {
    }
      },
      "ajmc": {
    
        "type": "text"
      },
      "lasj": {
    
        "type": "date",
        "format": "yyyy/MM/dd HH:mm:ss"
      },
      "jsbax_sjjh2_xz_ryjbxx_cleaning": {
    
        "properties": {
    
          "XM": {
    
            "type": "text",
            "fields":{
    
              "keyword": {
    
              "type": "keyword",
              "ignore_above": 256
            }
            }
          },
          "NL": {
    
            "type": "integer"
          },
          "SF": {
    
            "type": "keyword"
          }
        }
      }
    }
  }
}

插入数据:

PUT test_index2/_bulk?refresh
{
    "index":{
    "_id":1}}
{
    "ajbh": "12345","ajmc": "立案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
    "XM": "张三","NL": "30","SF": "男"},{
    "XM": "李四","NL": "31","SF": "男"},{
    "XM": "王五","NL": "30","SF": "女"},{
    "XM": "赵六","NL": 23,"SF": "男"}]}
{
    "index":{
    "_id":2}}
{
    "ajbh": "563245","ajmc": "结案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
    "XM": "张三2","NL": "30","SF": "男"},{
    "XM": "李四2","NL": "31","SF": "男"},{
    "XM": "王五2","NL": "30","SF": "女"},{
    "XM": "赵六2","NL": 23,"SF": "女"}]}
{
    "index":{
    "_id":3}}
{
    "ajbh": "12345","ajmc": "立案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
    "XM": "张三3","NL": "30","SF": "男"},{
    "XM": "李四3","NL": "31","SF": "男"},{
    "XM": "王五3","NL": "30","SF": "女"},{
    "XM": "赵六3","NL": 23,"SF": "男"}]}

从所有文档中统计jsbax_sjjh2_xz_ryjbxx_cleaning中一共出现男性的次数:

GET /test_index2/_search
{
    
  "aggs": {
    
    "sum_gender": {
    
      "sum": {
    
        
        "script": {
    
          "lang": "painless",
          "source": """
          
          int total = 0;
          //注意这里写的就是params['_source'],因此返回的是复杂对象
          for(int i =0; i< params['_source']['jsbax_sjjh2_xz_ryjbxx_cleaning'].length; i++){
            if(params['_source']['jsbax_sjjh2_xz_ryjbxx_cleaning'][i]['SF']=='男'){
              total++;
            }
          }
          return total;
          
          """
        }
        
        
      }
    }
  }
}

扩展

ES除了painless语言 ,其实还支持很多语言,比如expression就是一种特点是快速的自定义排名和排序的语言,这个应用的不是很多,但是某些场景性能可能会更好。

GET product2/_search
{
    
  "script_fields": {
    
    "test_field": {
    
      "script": {
    
        "lang":   "expression",
        //和painless相比,这里就不用后面跟写“.value”了
        "source": "doc['price']"
      }
    }
  }
}
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/darkness0604/article/details/107594190

智能推荐

分布式光纤传感器的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告_预计2026年中国分布式传感器市场规模有多大-程序员宅基地

文章浏览阅读3.2k次。本文研究全球与中国市场分布式光纤传感器的发展现状及未来发展趋势,分别从生产和消费的角度分析分布式光纤传感器的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。主要生产商包括:FISO TechnologiesBrugg KabelSensor HighwayOmnisensAFL GlobalQinetiQ GroupLockheed MartinOSENSA Innovati_预计2026年中国分布式传感器市场规模有多大

07_08 常用组合逻辑电路结构——为IC设计的延时估计铺垫_基4布斯算法代码-程序员宅基地

文章浏览阅读1.1k次,点赞2次,收藏12次。常用组合逻辑电路结构——为IC设计的延时估计铺垫学习目的:估计模块间的delay,确保写的代码的timing 综合能给到多少HZ,以满足需求!_基4布斯算法代码

OpenAI Manager助手(基于SpringBoot和Vue)_chatgpt网页版-程序员宅基地

文章浏览阅读3.3k次,点赞3次,收藏5次。OpenAI Manager助手(基于SpringBoot和Vue)_chatgpt网页版

关于美国计算机奥赛USACO,你想知道的都在这_usaco可以多次提交吗-程序员宅基地

文章浏览阅读2.2k次。USACO自1992年举办,到目前为止已经举办了27届,目的是为了帮助美国信息学国家队选拔IOI的队员,目前逐渐发展为全球热门的线上赛事,成为美国大学申请条件下,含金量相当高的官方竞赛。USACO的比赛成绩可以助力计算机专业留学,越来越多的学生进入了康奈尔,麻省理工,普林斯顿,哈佛和耶鲁等大学,这些同学的共同点是他们都参加了美国计算机科学竞赛(USACO),并且取得过非常好的成绩。适合参赛人群USACO适合国内在读学生有意向申请美国大学的或者想锻炼自己编程能力的同学,高三学生也可以参加12月的第_usaco可以多次提交吗

MySQL存储过程和自定义函数_mysql自定义函数和存储过程-程序员宅基地

文章浏览阅读394次。1.1 存储程序1.2 创建存储过程1.3 创建自定义函数1.3.1 示例1.4 自定义函数和存储过程的区别1.5 变量的使用1.6 定义条件和处理程序1.6.1 定义条件1.6.1.1 示例1.6.2 定义处理程序1.6.2.1 示例1.7 光标的使用1.7.1 声明光标1.7.2 打开光标1.7.3 使用光标1.7.4 关闭光标1.8 流程控制的使用1.8.1 IF语句1.8.2 CASE语句1.8.3 LOOP语句1.8.4 LEAVE语句1.8.5 ITERATE语句1.8.6 REPEAT语句。_mysql自定义函数和存储过程

半导体基础知识与PN结_本征半导体电流为0-程序员宅基地

文章浏览阅读188次。半导体二极管——集成电路最小组成单元。_本征半导体电流为0

随便推点

【Unity3d Shader】水面和岩浆效果_unity 岩浆shader-程序员宅基地

文章浏览阅读2.8k次,点赞3次,收藏18次。游戏水面特效实现方式太多。咱们这边介绍的是一最简单的UV动画(无顶点位移),整个mesh由4个顶点构成。实现了水面效果(左图),不动代码稍微修改下参数和贴图可以实现岩浆效果(右图)。有要思路是1,uv按时间去做正弦波移动2,在1的基础上加个凹凸图混合uv3,在1、2的基础上加个水流方向4,加上对雾效的支持,如没必要请自行删除雾效代码(把包含fog的几行代码删除)S..._unity 岩浆shader

广义线性模型——Logistic回归模型(1)_广义线性回归模型-程序员宅基地

文章浏览阅读5k次。广义线性模型是线性模型的扩展,它通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。广义线性模型拟合的形式为:其中g(μY)是条件均值的函数(称为连接函数)。另外,你可放松Y为正态分布的假设,改为Y 服从指数分布族中的一种分布即可。设定好连接函数和概率分布后,便可以通过最大似然估计的多次迭代推导出各参数值。在大部分情况下,线性模型就可以通过一系列连续型或类别型预测变量来预测正态分布的响应变量的工作。但是,有时候我们要进行非正态因变量的分析,例如:(1)类别型.._广义线性回归模型

HTML+CSS大作业 环境网页设计与实现(垃圾分类) web前端开发技术 web课程设计 网页规划与设计_垃圾分类网页设计目标怎么写-程序员宅基地

文章浏览阅读69次。环境保护、 保护地球、 校园环保、垃圾分类、绿色家园、等网站的设计与制作。 总结了一些学生网页制作的经验:一般的网页需要融入以下知识点:div+css布局、浮动、定位、高级css、表格、表单及验证、js轮播图、音频 视频 Flash的应用、ul li、下拉导航栏、鼠标划过效果等知识点,网页的风格主题也很全面:如爱好、风景、校园、美食、动漫、游戏、咖啡、音乐、家乡、电影、名人、商城以及个人主页等主题,学生、新手可参考下方页面的布局和设计和HTML源码(有用点赞△) 一套A+的网_垃圾分类网页设计目标怎么写

C# .Net 发布后,把dll全部放在一个文件夹中,让软件目录更整洁_.net dll 全局目录-程序员宅基地

文章浏览阅读614次,点赞7次,收藏11次。之前找到一个修改 exe 中 DLL地址 的方法, 不太好使,虽然能正确启动, 但无法改变 exe 的工作目录,这就影响了.Net 中很多获取 exe 执行目录来拼接的地址 ( 相对路径 ),比如 wwwroot 和 代码中相对目录还有一些复制到目录的普通文件 等等,它们的地址都会指向原来 exe 的目录, 而不是自定义的 “lib” 目录,根本原因就是没有修改 exe 的工作目录这次来搞一个启动程序,把 .net 的所有东西都放在一个文件夹,在文件夹同级的目录制作一个 exe._.net dll 全局目录

BRIEF特征点描述算法_breif description calculation 特征点-程序员宅基地

文章浏览阅读1.5k次。本文为转载,原博客地址:http://blog.csdn.net/hujingshuang/article/details/46910259简介 BRIEF是2010年的一篇名为《BRIEF:Binary Robust Independent Elementary Features》的文章中提出,BRIEF是对已检测到的特征点进行描述,它是一种二进制编码的描述子,摈弃了利用区域灰度..._breif description calculation 特征点

房屋租赁管理系统的设计和实现,SpringBoot计算机毕业设计论文_基于spring boot的房屋租赁系统论文-程序员宅基地

文章浏览阅读4.1k次,点赞21次,收藏79次。本文是《基于SpringBoot的房屋租赁管理系统》的配套原创说明文档,可以给应届毕业生提供格式撰写参考,也可以给开发类似系统的朋友们提供功能业务设计思路。_基于spring boot的房屋租赁系统论文