Bubble Rap数据集Infocom05, Hong-Kong, Cambrige, Infocom06, Reality

Bubble Rap论文2011见刊,现在已经被引用1000+次。其使用的数据集是Infocom05, Hong-Kong, Cambrige, Infocom06, Reality。本文介绍了这些数据集的下载、数据格式以及分析其所得到结果的一些出入。

1. Haggle项目

1.1 数据集下载

依论文Bubble Rap描述,数据集Infocom05, Hong-Kong, Cambrige, Infocom06都属于Haggle项目。但在CRAWDAD官网,只能找到:(下载数据集,需要加入CRAWDAD社区,点这里。收到的邮件包含账号和密码可用于下载)

the cambridge/haggle/imote/intel trace
the cambridge/haggle/imote/cambridge trace (这里的实验设备只有12个,不同于论文的54)
the cambridge/haggle/imote/infocom trace   (这里的infocom是Infocom05)

后来,无意中发现http://crawdad.org/~crawdad/download/cambridge/haggle/ 可以下到Infocom6(Exp6.tar.gz ),如下:

Exp6.tar.gz                    2009-08-12 07:26  3.7M  (infocom06)
imote-trace1.tar.gz            2006-10-17 17:49  29K  (intel)   
imote-trace2.tar.gz            2006-10-17 17:49  66K   (cambrige, computer lab)
imote-trace3.tar.gz            2006-10-17 17:49  254K  (infocom05)
imote-traces-cambridge.tar.gz  2008-08-21 10:41  304K  (cambrige, mobile&fixed)

数据集Hong-Kong,一直没找到。若您有,请求分享Jelline@126.com.

注:我觉得上述的两个Cambrige都跟Bubble Rap论文描述不一样。前者,实验设备只有12个,显然与论文54个不符;后者,描述mobile users间及其与fix locations的跟踪情况,并且实验duration也不一样。

1.2 数据格式解读

Haggle项目收集的数据集,格式很一致,通常包含如下文件,以Infocom05为例,如下:

contacts.Exp3.dat
Exp3.README.txt
MAC3Btable.Exp3.dat
table.Exp3.dat

实际上,最有用是contacts.Exp3.dat, 描述设备间相遇情况,描述节点i从时间t1到时间t2遇到节点j,即前4列(node_i  node_j  start  end),后面两列是基于前面4列组成文件计算得到的。

1    40    21574    21687    1    0
1    29    21578    21687    1    0
1    30    21687    21687    1    0
1    34    21574    21796    1    0

1.3 一些疑问

我在分析Infocom05, Infocom06时,发现所得到的结果跟Bubble Rap呈现的结果有出入,比如Infocom05的number of external contacts, Infocom06的number of internal contacts,甚至连contact duration、number of contacts分布图也不太一样。

contact_duration

如果您也在使用这些数据集,希望能多多交流Jelline@126.com.

2 Reality

CRAWDAD官网,只有一个文件dump-anonymized.sql(不是文件文件!数据库查询文件?)。在MIT Reality网站上,只有一个数据文件realitymining.mat(matlab数据文件)。我粗略看了下,感觉蛮复杂,还没着手去分析。

赞赏

微信赞赏支付宝赞赏

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

28 thoughts on “Bubble Rap数据集Infocom05, Hong-Kong, Cambrige, Infocom06, Reality

  • 2021年06月26日 星期六 at 06:41下午
    Permalink

    老师好。不知道老师是如何对infocom06数据做处理的,我的方法是首先去掉end-start=0的数据,然后对于同一对节点被重复记录但数据又不对称的问题,我的处理是同一节点对的数据 求和/2 .不过统计出来的图确实跟原作者是有出入的。 另外对于老师提到的重叠区间的概念并没有理解,老师能不能详细说明一下。
    谢谢老师
    在对one的使用和对数据集的处理上真的是反复看老师的博客,受益匪浅

    Reply
  • 2020年03月02日 星期一 at 03:19上午
    Permalink

    你好,Haggle项目收集的数据集是在哪个网站上找到的,您能给我转发一份吗?我用的是matlab编程,我对编程不是很熟悉,这里面数据是直接用就可以吗?我想利用用户联系的持续时间。

    Reply
  • 2017年11月28日 星期二 at 03:31下午
    Permalink

    作者您好,本人是硕士研究生,研究方向为机会网络,非常感谢您在博客中的分享,请问可以发一份infocom数据处理好的节点对相遇时间,和其累积分布图数据吗?如能得到您的帮助万分感谢。
    邮箱:2135799601@qq.com

    Reply
    • 2018年01月17日 星期三 at 05:57下午
      Permalink

      抱歉这么迟才回复你。

      已从作者那证实,从CRAWDAD下载的infocom06 数据不对,而我之前的分析是基于CRAWDAD下载的infocom06,所以发给你,参考意义不大。

      Reply
  • 2015年01月22日 星期四 at 02:07上午
    Permalink

    我初步看了BUBBLE Rap这文章,我不清楚的是如何就能用数据集得到类似于Contact Duration这些图,是根据数据集自己计算出来的吗

    Reply
    • 2015年01月22日 星期四 at 05:12上午
      Permalink

      是的,对节点对的duration进行累加,最后便可得到contact graph。可否简单介绍了你自己?

      Reply
      • 2015年01月22日 星期四 at 06:17下午
        Permalink

        恩,我目前在读研,主要研究机会网络中的路由转发选择。我最近做的是基于社会性的机会路由,不知你有没有看过peoplerank那篇文章,那文章里面用过了数据集做实验。。我想重复实验,所以找数据集的时候就发现你的博客。我困惑的是如何利用数据集分析交付成功率、延迟等。。那论文里面给出MobiClique、SecondLife、Infocom、Hope等数据集。然后就分析结果。。。我发邮件给作者都没回应。。。

      • 2015年01月23日 星期五 at 12:31上午
        Permalink

        还有你这个节点对的duration进行累加和Contact graph是手动计算和手动绘制吗,还是有工具处理??

      • 2015年01月23日 星期五 at 04:22上午
        Permalink

        用工具求得,我是用networkx包,写个Python脚本即本。

      • 2015年01月23日 星期五 at 04:45上午
        Permalink

        恩恩,好像你有一篇博客写到了。。谢谢

      • 2015年01月23日 星期五 at 04:24上午
        Permalink

        你是指这个:A. Mtibaa, M. May, C. Diot and M. Ammar “PeopleRank: Social Opportunistic Forwarding”, INFOCOMM, 2010 Proceedings IEEE, March 2010.

      • 2015年01月23日 星期五 at 04:38上午
        Permalink

        恩喽。。我目前主要要做的就是重复里面的实验,所以用数据集做实验是我现在要实现的。。。

      • 2016年11月28日 星期一 at 06:08下午
        Permalink

        您好!我也是研究生,最近在做基于社会性的路由,不知能否和您交流交流。我的QQ:961536174

    • 2015年01月23日 星期五 at 04:59上午
      Permalink

      是的,举个例子:1 CONN 1 2 up5 CONN 1 2 down这样的话,节点1和节点2相遇5秒,即duration为5s,所有累加,就可以得到一具总的duration,其他的类推。

      Reply
      • 2018年03月21日 星期三 at 12:30下午
        Permalink

        你好,所有的累加,是指每对节点相遇时间的累加吗

  • 2015年01月20日 星期二 at 10:03下午
    Permalink

    这个数据集你是怎么用到ONE中进行实验的?

    Reply
      • 2015年01月21日 星期三 at 11:51下午
        Permalink

        我下载下来的一个数据集是Haggle3-Infocom5.csv,如果我要在ONE中使用是直接改后缀为txt吗?

      • 2015年01月22日 星期四 at 01:47上午
        Permalink

        Java把文件视为流,与文件后缀名没关系。你只要能确保你的数据集是符合The ONE的格式即可。Haggle3-Infocom5.csv,你需要转换之后才能用。

      • 2015年01月22日 星期四 at 01:49上午
        Permalink

        我把数据集放到ONE中运行出来report没数据。。估计是数据集格式不正确

      • 2015年11月03日 星期二 at 12:49上午
        Permalink

        我的QQ 294778044 2015.11.2 现在还在研究机会网络的可以加我,大家一起交流。

  • 2015年01月09日 星期五 at 04:21上午
    Permalink

    您说的这个数据集我看过了,但不太清楚他这个节点相遇怎么做出来的。MIT原始数据集的内容感觉非常丰富,可以提炼的信息量很多。最近一直在研究这个数据集,有点痛苦。

    Reply
    • 2015年01月09日 星期五 at 04:29上午
      Permalink

      是的,我当初也是看了很久,没搞明白。也许你可以发邮件给me@shigs.co.uk,跟他交流下。请问你还需要哪些信息?节点对的duration?

      Reply
      • 2015年01月11日 星期日 at 07:05下午
        Permalink

        MIT的另一个数据集(matlab文件),里面有蓝牙的扫描记录和手机基站的扫描记录,那么节点的相遇是基于蓝牙信息还是基站信息,有点困惑哈…还有您说的节点对的duration信息,也不太确定怎么得到的。谢谢哈,以后多交流。

      • 2015年01月12日 星期一 at 07:40上午
        Permalink

        是的,Reality包含的文件众多。我个人建议是,先拿《Encounter traces for the ONE simulator》做测试。如果你需要duration,写个脚本从该trace文件分析得到。这样就有了contact graph,也就可以做node centrality和community detection.

  • 2015年01月08日 星期四 at 05:45下午
    Permalink

    您好,关于MIT的数据集(CRAWDAD官网上的dump-anonymized.sql中),节点相遇的数据您是怎么提取的?谢谢哈

    Reply
    • 2015年01月09日 星期五 at 12:38上午
      Permalink

      您好。后面我找到了有人将转换好的数据集分享在网上,直接用现成的。你可以参考这篇博文《The ONE使用笔记:可直接使用的外部数据集》http://sparkandshine.net/the-one-use-notes-external-datasets-can-be-directly-used/

      Reply