论文投稿反馈意见总结——SIGCSE_2021_paper_206
总评审优点:
话题与SIGCSE非常相关
数据集相当大
分析很好地呈现出来
将视频观看行为编码为字符串是一种有趣的方法
视觉效果非常简洁
缺点:
文章像一篇应用机器学习进行的项目报告
结果&讨论部分较多不足之处。在Programming1和Programming2课中没有full participation learners,原文的意思是利用轮廓系数确定的K值是2,所以没有这类学习者,但是过于牵强,应该是由于课程差异很大而导致的可能同一聚类方法不能应用于不同的课程。
4门特殊课程的选择过程没讲清楚
建议:
展示一些创造性的新应用技术
进行一些实验,以证明该工作在现有工作的基础上有所改进
比较并替代现有技术
评分
评分项
审1
审2
审3
有理论基础
2
1
3
有一个或多个研究问题
3
2
3
研究问题有基于相关的前期工作
2
2
3
工作解决了研究问题
2
2
3
文章提供了足够的细节来支撑对研究结果的复现
1
3
3
文章中描述的过程/方法是回答研究问题的有效方法
2
2
2
贡献描述清楚。(若是新项目,)介绍了超出先前工作的贡献。( ...
论文精读笔记——Achievable Rate Maximization by Passive Intelligent Mirrors
Intro多媒体通信课堂报告,选取ICASSP2018中的Achievable Rate Maximization by Passive Intelligent Mirrors一文。
ABSTRACT使用Passive Intelligent Mirrors(PIM,无源智能反射镜)来操作多用户MISO下行链路通信。
设计transmit powers(传输功率)和mirror reflection coefficient(镜像反射系数):保证移动用户的个人Quality of Service(QoS)需求的前提下,使sum-rate(和速率)最大化。
问题特点:non-convex(非凸)
solution:alternating maximization(交替极大化)与majorization-minimization算法(优化极小化算法)相结合。
merit:在不需要额外的能量消耗的情况下,system throughput(系统吞吐量)至少提高了40%。
1. INTRODUCTION无线设备数量直奔500亿(50 billions)
对蜂窝网络的要求:
比现有网络高1000 ...
HBase1.4.13完全分布式安装
版本选择首先check版本要求!否则后续会遇到难以预料的“惊喜”。以下截图为2020年9月信息,可能随时更新,最新信息自行查询官网标准。
JDK版本:
Hadoop版本:
本机已安装Hadoop2.7.7&JDK1.8,于是选择HBase-1.4.x进行安装。从镜像源中下载hbase-1.4.13-bin.tar.gz。
HBase1.4.13安装先用scp从网关把压缩包传到Master服务器上:
1scp hbase-1.4.13-bin.tar.gz lpj@cpu-node0:/home/lpj/
解压并重命名:
12tar -zxf hbase-1.4.13-bin.tar.gz -C /home/lpj/mv hbase-1.4.13 hbase1.4
配置环境变量,将hbase下的bin目录添加到path中,这样,启动hbase就无需到/usr/local/hbase目录下,大大地方便了hbase的使用。编辑~/.bashrc文件,先前在安装Hadoop时已经引入过PATH,直接在export PATH这行追加/home/lpj/hbase1.4/bin,这里的 ...
ZooKeeper3.4.14完全分布式安装
ZooKeeper版本的选择与下载在HBase文档里有这一句话:
然后在ZooKeeper的下载镜像源里说道:
为了求稳&参照实验室前人装了3.4.14的经验,下载了zookeeper-3.4.14.tar.gz这个包。然后用MobaXterm的Sftp传到网关,再用scp传到Master服务器:
1scp zookeeper-3.4.14.tar.gz lpj@cpu-node0:/home/lpj/
解压并重命名:
12tar -zxf zookeeper-3.4.14.tar.gz -C /home/lpj/mv zookeeper-3.4.14 zookeeper3.4
ZooKeeper配置首先在zookeeper文件夹里新建两个文件夹:
12mkdir zkdata # 数据mkdir zkdatalog # 日志
然后进入到zookeeper的conf目录下,把zoo_sample.cfg复制一份命名为zoo.cfg,用来做配置文件:
12cd /home/lpj/zookeeper3.4/conf/cp zoo_sample.cfg zoo.cfg
...
《大数据技术原理与应用》学习笔记——Ch3:分布式文件系统HDFS
Intro本文为《大数据技术原理与应用》第三章学习笔记。
HDFS编程实践参考教程
HDFS简介Hadoop分布式文件系统(Hadoop Distributed File System,HDFS),大数据平台两大核心技术之一,为了解决海量数据的分布式存储问题。
计算机集群结构
分布式文件系统的结构分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另 一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)。
主节点:数据目录(元数据)服务。负责文件和目录的创建、删除和重命名等,同时管理数据节点和文件块的映射关系。
从节点:完成数据存储任务。负责数据的存储和读取。
存储:由NameNode分配存储位置,然后由客户端把数据直接写入相应DataNode。
读取:客户端从NameNode中获得数据节点和文件块的映射关系,然后到相应位置访问文件块。
通常采用多副本存储:文件块被复制为多个副本存储在不同节点上,且存储同一文件块的不同副本的各个节点分布 ...
Hadoop2.7.7完全分布式安装:1台Master+1台Slave
Intro进入实验室后有了更多可用服务器的条件,参照Hadoop集群安装配置教程_Hadoop3.1.3_Ubuntu进行了一下真正的Hadoop集群的安装部署。基本步骤参照教程,但基于自己实验室里条件有不少改动的地方。
首先基于实验室原有Hadoop平台,把实验对象从Hadoop3.1.3改成了Hadoop2.7.7。
Overview摘抄自林子雨老师的教程:
当Hadoop采用分布式模式部署和运行时,存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。这时,数据就可以分布到多个节点上,不同数据节点上的数据计算可以并行执行,这时的MapReduce分布式计算能力才能真正发挥作用。为了降低分布式模式部署难度,本教程简单使用两个节点(两台物理机器)来搭建集群环境,一台机器作为 Master节点,局域网IP地址为x.x.x.x,另一台机器作为 Slave 节点,局域网 IP 地址为x.x.x.y。由三个以上节点构成的集群,也可以采用类似的方法完成安装部署。Hadoop 集群的安装配置大致包括以下步骤:(1)步骤1:选定一台机器作为 Master;(2)步骤2 ...
《大数据技术原理与应用》学习笔记——Ch2:大数据处理架构Hadoop
Intro本文为《大数据技术原理与应用》第二章学习笔记。
Hadoop概述“Hadoop”不是一个单一的技术,而是一系列大数据技术的结合体,是一整套解决方案的统称,可以称为一个项目。
两大核心:HDFS实现海量数据的分布式存储,MapReduce实现海量数据的分布式处理
特性:
高可靠性
高效性
高可扩展性
高容错性
成本低
运行在Linux平台上
支持多种编程语言
Hadoop生态系统
组件
功能
HDFS
分布式文件系统
MapReduce
分布式并行编程模型
YARN
资源管理和调度器
Tez
运行在YARN之上的下一代Hadoop查询处理框架
Hive
Hadoop上的数据仓库
HBase
Hadoop上的非关系型的分布式数据库
Pig
一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin
Sqoop
用于在Hadoop与传统数据库之间进行数据传递
Oozie
Hadoop上的工作流管理系统
Zookeeper
提供分布式协调一致性服务
Storm
流计算框架
Flume
一个高可用的, ...
论文精读笔记——Unsupervised Clickstream Clustering for User Behavior Analysis Courses
Intro在阅读完《ViSeq: Visual Analytics of Learning Sequence in Massive Open Online Courses》后觉得里面的参考文献[27]似乎更有帮助,于是精读了这篇文章:《Unsupervised Clickstream Clustering for User Behavior Analysis》,作以下笔记。
Unsupervised Clickstream Clustering for User Behavior AnalysisABSTRACT面向通用的在线服务(社交网络或众包服务),了解用户行为。
研究面向用户行为分析的无监督点击流聚类,建立了一个无监督的系统,从点击流数据(用户点击事件的痕迹)中捕捉用户行为,并以直观的方式可视化检测到的行为,通过划分相似图来识别相似用户的集群。
相似图上的分区(也就是聚类过程)利用迭代特征剪枝算法(iterative feature pruning)来捕捉用户集群中的自然层次结构,产生直观的特征便于可视化和理解。
INTRODUCTIONClickstreams:用户操作生成的带 ...
论文精读笔记——ViSeq:Visual Analytics of Learning Sequence in Massive Open Online Courses
Intro为了借鉴《ViSeq: Visual Analytics of Learning Sequence in Massive Open Online Courses》中3.1中的相似度计算方法,精读了这一篇文章,作以下笔记,笔记内容偏向关注文章中和相似度计算有关的部分,另外还简略看了一下关系度较高的两篇参考文献,也作了一点记录。
ViSeq: Visual Analytics of Learning Sequence in Massive Open Online CoursesAbstract背景:由于更多的工作只研究aggregated events而不关注sequence of learning activities
ViSeq:可视化的分析系统,实现不同学习群体学习序列的可视化,更好地理解学习行为背后的原因
ViSeq包含四个链接视图:用于识别学习者分组的投影视图(projection view)、用于显示某个选定的学习者群体内整体序列模式的模式视图(pattern view)、用于说明连续事件之间转换的序列视图(sequence view)、带有扩展序列链的用来比较选中的 ...
Spark2.4.6安装教程
Intro本文大部分内容转载于Spark安装和编程实践(Spark2.4.0),另附上一点本人安装过程中的记录,以备参考。
安装 Spark2.4首先需要下载Spark安装文件。推荐下载地址:清华源和华科源,原文是下载Spark2.4.0,但目前已经更新到2.4.6了,所以就选择spark-2.4.6-bin-without-hadoop.tgz下载即可。
本教程的具体运行环境如下:
Hadoop 3.1.3
Java JDK 1.8
Spark 2.4.0
Hadoop和Java JDK的安装参照Hadoop3.1.3安装教程:单机&伪分布式配置。
安装Spark(Local模式)1234sudo tar -zxf ~/下载/spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/cd /usr/localsudo mv ./spark-2.4.0-bin-without-hadoop/ ./sparksudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名
...