-
-
1Exception in thread "main" java.io.IOException: lock file crawl/linkdb/.locked already exists. at org.apache.nutch.util.LockUtil.createLockFile(LockUtil.java:44) at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:156) at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:149) at org.apache.nutch.crawl.Crawl.main(Crawl.java:140) 大家帮忙看看,网上搜了半天没有相关讲解。
-
7
-
1CrawlDb update: java.io.IOException: lock file crawl/.locked already exists. at org.apache.nutch.util.LockUtil.createLockFile(LockUtil.java:50) at org.apache.nutch.crawl.CrawlDb.update(CrawlDb.java:76) at org.apache.nutch.crawl.CrawlDb.run(CrawlDb.java:246) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.crawl.CrawlDb.main(CrawlDb.java:196) 怎么回事啊?
-
3人好少,是不是没多少人用了
-
1
-
0nutch2.1抓取数据保存GBK编码的网址乱码,有没有办法对所有的网页编码进行统一的转换,达到不管网页是什么编码,抓取的数据都不会乱码
-
1
-
0bin/nutch: 行 154: /usr/java/jdk1.6.0_25 /bin/java: 没有那个文件或目录 bin/nutch: 行 251: /usr/java/jdk1.6.0_25 /bin/java: 没有那个文件或目录
-
0
-
2nutch吧好冷呀,15年11月22日路过,你们觉得nutch哪个版本最好用
-
4明天开始。。
-
0用的是hadoop2.5.2+hbase0.98,都已经安装成功,已经都启动,但是安装配置完nutch2.3之后,ant编译不成功,求大神指导hadoop2.52+hbases0.98+nutch2.3+solr4.9.0的伪分布式环境搭建配置,有高手么 ??
-
0
-
2求教,现在在跟着“在Eclipse中运行Nutch2.3”文章中调试运行环境,在第四步中写的是“在nutch.xml中增加一下3个属性”,我现在的问题是,我根本找不到nutch.xml这个文件,有的都是什么nutch-site.xml、nutch-site-test.xml以及nutch-default.xml,请问该怎么进行调试
-
0
-
3用nutch半个小时才爬了1000多的网页 用larbin 5分钟就爬了7000多 不会差距那么大吧 ?
-
3apache-nutch-1.9-bin,在命令行里面输参数,solr也配之完成,能运行,但是抓到的url太少了,youku首页,过滤规则什么网址都抓,只能抓70+,自己写的抓取url去重复以后光视频播放页的就有300+,是配置有问题?可是能运行啊。。。网上关于nutch问题的资料太少了
-
6我是刚刚接触nutch,但是怎么也搞不定,总是出现问题 $ bin/nutch crawl urls -dir sina -threads 4 -depth 2 -topN 30 crawl started in: sina rootUrlDir = urls threads = 4 depth = 2 topN = 30 Injector: starting Injector: crawlDb: sina/crawldb Injector: urlDir: urls Injector: Converting injected urls to crawl db entries. Injector: Merging injected urls into crawl db. Injector: done Generator: Selecting best-scoring urls due for fetch. Generator: starting Generator: segment: sina/segments/20140414090044 Generator: filtering: false Generator: topN: 30 Generator: jobtracker is 'loca
-
0URL怎么分发,效率会更高?
-
0大四下学期了,我的毕业设计题目是《基于nutch的视频搜索和解析》 由于之前没有接触过nutch,编程能力也不是很强; 一开始做这个很没有头绪,前几天才安装好nutch,感觉各种没方向; 求高手提点一番,不胜感激; 有这方面的资料可以供我参考的也行;
-
0当开始抓取时,会报 java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V at org.apache.gora.hbase.store.HBaseMapping$HBaseMappingBuilder.addFamilyProps(HBaseMapping.java:114) at org.apache.gora.hbase.store.HBaseStore.readMapping(HBaseStore.java:612) at org.apache.gora.hbase.store.HBaseStore.initialize(HBaseStore.java:110) at org.apache.gora.store.DataStoreFactory.initializeDataStore(DataStoreFactory.java:102) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:161) at org.apache.gora.store.DataStoreFactory.createDataStore
-
1大家好,其实我也是一个超级菜鸟,只是好奇这个工具。用了一、两天发现它有很多网站抓不了或者一些内容找不到。了解特别浅显,请大家多指教,多传授经验。
-
3nutch dump出来的文件用记事本打开有乱码,是个别几个网页存在的情况,通常是在标签中夹的中文有乱码,如<title>口口</title>..(意会一下) 是不是部分网页的编码nutch不支持呢?求指点~~
-
4nutch运行在hadoop上,nutch的运行日志存储在什么目录下啊?怎么也找不到的?
-
2以nutch、lucene等开源工具为基础,结合您的行业搭建一个行业垂直搜索引擎 一、实验目的(介绍本次实验的预期目标,完成的功能) 以一个开源的词典,为你的搜索引擎实现自动分词功能,并以分词结果建立索引,实现基于词的检索。 二、实验过程(介绍实验中涉及的关键过程,如核心算法、数据结构等) 感激不尽
-
0我们现在遇到一个问题,nutch下网络爬虫是否可以给定ip来进行爬虫,而不用url???各位指教指教额...
-
4
-
2到底如何配置
-
0大家一起努力好好发展!!