通过视频文件进行定位的系统

最近来自西班牙鲁尔大学的研究人员设计了一套能够通过对比影像文件的内容和全球多媒体数据库来对拍摄地点进行定位的系统。在未来，可以通过该系统帮助寻找失踪人口，或定位恐怖分子对人质的处决地点。

[-]
该系统能够对少量视频进行定位，误差范围在10公里以内。除了算法，主要还是因为目前的全球多媒体数据库内容还不够丰富。

目前网络上的很多视频也标记了拍摄地点的地理位置信息(很多软件也提供了该功能)，但是更多的文件并没有这种信息。这依赖于拍摄工具是否提供这种功能。有些时候，这种信息是十分有用的。有时候也需要(在后期)对视频文件添加地理位置标记。

为了解决这个问题，鲁尔大学在La Salle校区设计了该系统，用于在不知道录像具体拍摄地点的情况下对文件进行地理位置标记。该系统真正的挑战在于，网络上的大多数视频文件拍摄于普通日常环境，这些情况下可能缺乏具体、明显的参照物(比如文物古迹、地标建筑之类的)，这就使得定位难度非同一般。因为视频中没有文字信息，所以识别主要基于每一帧的图像、和音频。

对于一个待定位的视频文件，声学信息有时候可以起到与图像信息相媲美的功能，甚至能提供更多的信息。设计者之一的泽维尔塞维利亚诺声称。在该领域，我们使用一些物理和数学的向量来对发生源进行识别，这种信息以及表现出了显著的效果。

所有的分析数据被整合到一起，按分类进行分组，然后通过该系统的算法，与全球多媒体系统中，标记了地理位置信息的视频文件进行对比，寻找相匹配的地理位置。

该研究成果目前发表在《信息科学》(译)期刊上，该小组的研究者使用了来自MediaEval地理信息视听数据库中的1万条数据作为匹配样本，也就是带有地理位置信息的视频，用于对待标记和定位的视频进行对比和评估。

塞维利亚诺说：通过对比和评估视屏中的音频和视频信息之间的相似度，我们用可能性最高的数据库中的视频的地理位置对文件进行标记。

科学家支出当前该系统的限制在于，多媒体数据库中视频的地理位置覆盖量，但是当前的系统与其他相关的研究已经相对准确了很多。具体来说，它能够对3%的文件进行误差为10公里半径范围的定位，约1%能把定位精度做到1公里。虽然这个比例还很低，但是比目前的其他同类算法已经高出了四倍左右。
研究者也知道，自己的系统需要来自网络上的更大规模的多媒体数据的支持。

该系统能够帮助救援人员对失踪在偏远地区的人进行追踪并实施救援，但是需要把失踪之前拍摄的录像信息上传到网上，以便对最后一次拍摄地点进行定位，然后展开搜救。比如在野外拍摄纪录片的记者、驴友中的自拍达人，能以更大概率获救，前提当然是他们不幸失踪。

在未来，安全部队也能够用该系统对恐怖分子公布的人质处决录像进行分析，来对恐怖组织(如，基地组织和ISIS等)的藏匿地点进行定位。“我们的系统能在不具备地理标记的视频中，对拍摄地点进行定位，这能够提供非常有价值的信息，帮助缩小搜索范围。正如我们所知的，全球都在应对伊拉克和叙利亚地区的武装冲突和恐怖袭击。我们的系统能够从他们所公布的视频中获取有参考价值的信息。”改组研究人员解释到。(每年在战争地区有很多被绑架的士兵、记者、外交官员、和游客。如果恐怖分子在宣称不交付赎金就每天杀一个人质，确实有可能有用。不过我想恐怖分子看到此文，就要考虑以后在室内进行人质处决了。)

另一个方便可用的数据库就是如YouTube之类的在线视频库，很多具备室内图像，以及地理位置信息。

本文译自 agenciasinc.es，由邻家乖蜀黍编辑发布。