使用PPMI改进共现矩阵_ppmi (positive point-wise mutual information)-程序员宅基地

技术标签: nlp  学习笔记  PPMI  

使用PPMI改进共现矩阵

共现矩阵的元素表示两个单词同时出现的次数,这里的次数并不具备好的性质,举个例子,有短语叫the car,因为the是个常用词,如果以两个单词同时出现的次数为衡量相关性的标准,与drive 相比,the和car的相关性更强,这是不对的。

点互信息(Pointwise Mutual Information,PMI):表达式如下,P(x)表示x发生的概率,P(y)表示y发生的概率,P(x,y)表示x和y同时发生的概率。PMI的值越高,表明x与y相关性越强。

在这里插入图片描述

用共现矩阵重写PMI表达式:将共现矩阵表示为C,将单词X和Y的共现次数表示为C(x,y),将单词x和y的出现次数分别表示为C(x)、C(y),将语料库的单词数量记为N。表达式如下。

在这里插入图片描述

正的点互信息(Positive PMI,PPMI):当两个单词的共现次数为0时, log0=-∞。为解决这个问题,实践上会使用下述正的点互信息。可以将单词间的相关性表示为大于等于0的实数。

在这里插入图片描述

共现

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_40828914/article/details/122485312

智能推荐

SaltStack数据系统_comment: no top file or master_tops data matches f-程序员宅基地

文章浏览阅读69次。文章目录1SaltStack数据系统2 SaltStack数据系统组件2.1 SaltStack组件之Grains2.2 SaltStack组件之Pillar2.3 Grains与Pillar的区别1SaltStack数据系统SaltStack有两大数据系统,分别是GrainsPillar2 SaltStack数据系统组件2.1 SaltStack组件之GrainsGrains是SaltStack的一个组件,其存放着minion启动时收集到的信息。Grains是SaltStack组件中非_comment: no top file or master_tops data matches found. please see master lo

error C2668: “swap”: 对重载函数的调用不明确_swap对重载函数的调用不明确-程序员宅基地

文章浏览阅读3.4k次,点赞6次,收藏3次。当出现这个错误提示的时候,很有可能代码并没有问题,而是编译器的设定问题。测试代码如下:#include using namespace std;//函数模板templatevoid swap(T &a,T &b){ T temp; temp = a; a = b; b = temp;}int main(int ,char **){ int a = 1, b _swap对重载函数的调用不明确

ZYNQ PCIe EP实现DMA+Linux交互,非常简洁的程序_c++ 往pcie发送数据-程序员宅基地

文章浏览阅读1w次,点赞8次,收藏120次。ZYNQ PCIe-DMA源码 例程 PS-PL交互 linux/裸机 verilog C/C++ZYNQ PCIe-DMA的实现过程一、概述二、基础知识三、系统总框架四、工作原理与工作模式五、接口时序六、资源使用情况七、PS-PL交互以及测试程序ZYNQ PCIe-DMA的实现过程近期在网上淘来个源码,看了之后觉得还不错。完全刷新我对ZYNQ的认知啊,原来ZYNQ也可以这么玩的。PS-PL交..._c++ 往pcie发送数据

Python-Django毕业设计员工宿舍管理系统(程序+Lw)_用python设计一个宿舍管理系统,要求能实现寝室信息的增加、删除、修改、查询以及-程序员宅基地

文章浏览阅读173次。该项目含有源码、文档、程序数据库、配套开发软件、软件安装教程项目运行环境配置:Pychram社区版py项目技术:django + python+ Vue 等等组成,B/S模式 +pychram管理等等。环境需要1.运行环境:最好是python3.7.7,我们在这个版本上开发的。其他版本理论上也可以。2.pycharm环境:pycharm都可以。推荐pycharm社区版;3.mysql环境:建议是用5.7版本均可。_用python设计一个宿舍管理系统,要求能实现寝室信息的增加、删除、修改、查询以及

linux使用apache搭建http服务器(文件服务器)_linux怎么搭http apache服务器-程序员宅基地

文章浏览阅读8.4k次,点赞5次,收藏41次。一、安装Apache$ sudo apt-get install apache2二、修改服务器访问端口Apache2的默认访问端口为80,可修改为其他端口(当端口被占用时需要更改其访问端口)进入apache2的安装目录 /etc/apache2/,修改ports.conf文件$ cd /etc/apache2/$ sudo chmod 775 ports.conf$ vim po..._linux怎么搭http apache服务器

逆转广义表_将广义表(a,( (b, c),( ) ),( ( ( d ), e ),f) 逆转为 ((f,(e-程序员宅基地

文章浏览阅读898次。题目请编写递归算法, 逆转广义表中的数据元素。例如: 将广义表:(a,((b,c),()),(((d),e),f))逆转为:((f,(e,(d))),((),(c,b)),a)。代码#include <iostream>#include <cstring>#include <algorithm>using namespace std;void reverse_str(char *s, int l, int r){ int n = r-l; _将广义表(a,( (b, c),( ) ),( ( ( d ), e ),f) 逆转为 ((f,(e ,( d)),( ( ),(c,b), a)的代码

随便推点

HTC硬件介绍_htc是什么硬件-程序员宅基地

文章浏览阅读399次。其中最重要的是头盔中两个屏幕,用的是比较高端的三星AMOLED屏幕,屏幕尺寸对角线为91.8mm,PPI(每英寸集成的像素)达到了447(像素密度越高表现出来的画面就更细腻)。体验者可以在一个小范围的空间中行走,体验制作好的内容。是通过摄像头不停的采集周围环境的图像来达到设备的姿态估计(比如噪音等一些没用的信息也会影响到它的准确性)。是通过计算机视觉,以及设备自身自带的传感器比如陀螺仪、加速器来实现位置的追踪。不需要外部硬件来定位。由LED阵列和横向纵向的两个马达,马达以非常高的频率扫描场景中的定位。_htc是什么硬件

基于 Python 深度学习的车辆特征分析系统,附源码_pycharm实时检测车辆及源码-程序员宅基地

文章浏览阅读1.7k次,点赞25次,收藏29次。而在机动车的自动识别过程中,通过利用深度学习的算法来让计算机通过不断地获取信息要素形成信息库,可以更好的提升计算机对于车辆的识别能力。本次就是通过利用了深度学习技术结合Python开发工具来设计一款能够在线通过图片分析来识别车辆的品牌的软件。_pycharm实时检测车辆及源码

matlab采样点数傅里叶变换,【 MATLAB 】模拟信号采样及离散时间傅里叶变换(DTFT)案例分析...-程序员宅基地

文章浏览阅读1.1k次。中使用的模拟信号: 为了研究在频域数量上的采样效果,对该信号使用两种不同的采样频率采样。a. 在 fs = 5000 对信号进行采样,求出并画出其离散时间傅里叶变换;b. 在 fs = 1000 对信号采样,求出并画出其离散时间傅里叶变换。题解:上篇博文也分析了,信号的带宽为2kHz,奈奎斯特频率就为 4000 样本/s,它小于第一问给出的采样频率,所以频谱混叠几乎不存在。我们通过MATLAB验证..._采样点时间轴变换matlab

程序员的选择-程序员宅基地

文章浏览阅读117次。程序员的15种选择前端程序员后端程序员全栈工程师运维工程师移动端开发工程师自由职业程序员测试工程师图像处理工程师游戏开发工程师交互体验工程师量化交易工程师数据科学家& 数据工程师研究型工程师创业公司程序员持续学习程序员转载于:https://www.cnblogs.com/huameixiao/p/11571598.html..._c程序员刚入门接触闭源和开源

vue 图片:src字符串拼接路径无效问题_vue 图片 字符串 拼接-程序员宅基地

文章浏览阅读2.1k次。无效代码:<img :src="'../../../../static/Hongkong1/img/commodity/' + oneArticleData.icon_name" />改为使用require获取图片编码即可<img :src="require('../../../../static/Hongkong1/img/commodity/' + oneArticl..._vue 图片 字符串 拼接

Notes Sixth day-渗透攻击-红队-打入内网_打入目标内网-程序员宅基地

文章浏览阅读3.5k次,点赞4次,收藏23次。**Notes Sixth day-渗透攻击-红队-信息收集(dayu)**作者:大余时间:2020-09-22请注意:对于所有笔记中复现的这些终端或者服务器,都是自行搭建的环境进行渗透的。我将使用Kali Linux作为此次学习的攻击者机器。这里使用的技术仅用于学习教育目的,如果列出的技术用于其他任何目标,我概不负责。我必须再重申一遍:务必不要做未授权测试!不要未经授权在真实网络环境中复现任何本书中描述的攻击。即使是出于好奇而不是恶意,你仍然会因未授权测试行为而陷入很多麻烦。为了个人能更好的继_打入目标内网

推荐文章

热门文章

相关标签