nutch吧-百度贴吧

- 本吧吧主火热招募中，点击参加
- 0
  
  [公告]关于撤销高山烽吧主管理权限的说明
  贴吧吧主... 2020-06
1

nutch运行一段时间后报错：IOException: lock file crawl/link…
电脑的老巢 2013-07

Exception in thread "main" java.io.IOException: lock file crawl/linkdb/.locked already exists. at org.apache.nutch.util.LockUtil.createLockFile(LockUtil.java:44) at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:156) at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:149) at org.apache.nutch.crawl.Crawl.main(Crawl.java:140) 大家帮忙看看，网上搜了半天没有相关讲解。

电脑的老巢 6-3
7
Apache Nutch 的中文教程nutcher,由Nutch开发者社区提供
俺不叫MT 2015-03
nutcher 是 Apache Nutch 的中文教程，在github上托管。nutch社区目前缺少教程和文档，而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档，供开发者学习。官方网站:https://github.com/CrawlScript/nutcher
战歌 5-10

1

nutch java.io.IOException: lock file crawl/.locked already e
技海无边 2017-02

CrawlDb update: java.io.IOException: lock file crawl/.locked already exists. at org.apache.nutch.util.LockUtil.createLockFile(LockUtil.java:50) at org.apache.nutch.crawl.CrawlDb.update(CrawlDb.java:76) at org.apache.nutch.crawl.CrawlDb.run(CrawlDb.java:246) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.crawl.CrawlDb.main(CrawlDb.java:196) 怎么回事啊？

东风冷TQ 7-7
3

人好少，是不是没多少人用了
psueeqg 2018-04

人好少，是不是没多少人用了

水瓶苦中... 5-28
1
nutch启动时卡在这里了，请问怎么解决？
墙角呼呼 2017-10
nutch启动时卡在这里了，请问怎么解决？
胡天19885 4-7
6

如果你有兴趣研究 Nutch + Solr, 请考虑加入我们团队！
webjk99 2014-04

浅碧慎思 1-5
0

nutch2.1抓取数据保存GBK编码的网址乱码
摩羯7qqq 2017-04

nutch2.1抓取数据保存GBK编码的网址乱码，有没有办法对所有的网页编码进行统一的转换，达到不管网页是什么编码，抓取的数据都不会乱码

摩羯7qqq 4-13
1
nutch+mysql问题求助
爱の恨の... 2017-03
在使用nutch抓取书籍的时候，产生如图问题怀疑是底下这个地方配置问题，求大神帮助。毕业设计啊
474153381是QQ 3-28

0

大神们，求助了
林中落叶DQ 2016-12

bin/nutch: 行 154: /usr/java/jdk1.6.0_25 /bin/java: 没有那个文件或目录 bin/nutch: 行 251: /usr/java/jdk1.6.0_25 /bin/java: 没有那个文件或目录

林中落叶DQ 12-21
0
Nutch创建插件中的Class，分布式运行出现ClassNotFoundException
贴吧用户_... 2016-11
Nutch中怎么创建插件中的对象啊！就比如我在Injector的时候创建org.apache.nutch.parse.html.HtmlParser，在分布式跑的时候就是，另外说名new HtmlParser() 在ant编译时不通过，我是使用反射创建的
贴吧用户_... 11-26
2

怎么让系统启动时执行下面的文件
419579940 2016-08

瞎人的坚持 11-8
4

nutch吧这么少吗，想讨论下都不行啊
忘记也不... 2016-05

52kzb 7-15
0

转贴:Nutch教程——导入Nutch工程,执行完整爬取 | DataHref
俺不叫MT 2015-12

俺不叫MT 12-15
2

nutch吧好冷呀,15年11月22日路过,你们觉得nutch哪个版本最好用
你的益达... 2015-11

nutch吧好冷呀,15年11月22日路过,你们觉得nutch哪个版本最好用

杨鑫15 12-2

4

记录nutch的学习
漫游者DL 2013-11

明天开始。。

笨小孩12110505 4-30
0

有高手么，这个问题必能解决么？
可靠的老盛 2015-04

用的是hadoop2.5.2+hbase0.98,都已经安装成功，已经都启动，但是安装配置完nutch2.3之后，ant编译不成功，求大神指导hadoop2.52+hbases0.98+nutch2.3+solr4.9.0的伪分布式环境搭建配置，有高手么？？

可靠的老盛 4-30
0

图在一楼 nutch运行代码出错
为啥叫我...
2015-04

为啥叫我... 4-30
0

求大神帮忙
为啥叫我...
2015-04

为啥叫我... 4-30
2

有大神吗？
盒饭丶加蛋 2015-04

求教，现在在跟着“在Eclipse中运行Nutch2.3”文章中调试运行环境，在第四步中写的是“在nutch.xml中增加一下3个属性”，我现在的问题是，我根本找不到nutch.xml这个文件，有的都是什么nutch-site.xml、nutch-site-test.xml以及nutch-default.xml，请问该怎么进行调试

盒饭丶加蛋 4-21
0
求大神帮忙
杨鑫15 2015-03
这里出现的报错是怎么回事啊，我的Rex_htmlParser.xml文件确实在conf下，但是还会报错？
杨鑫15 3-22

3

nutch抓取速度怎么那么慢
fangj1n 2013-09

用nutch半个小时才爬了1000多的网页用larbin 5分钟就爬了7000多不会差距那么大吧　？

我是火法... 2-11
3

nutch1.9抓取太少，求助啊
北府虎贲
2014-09

apache-nutch-1.9-bin，在命令行里面输参数，solr也配之完成，能运行，但是抓到的url太少了，youku首页，过滤规则什么网址都抓，只能抓70+，自己写的抓取url去重复以后光视频播放页的就有300+，是配置有问题？可是能运行啊。。。网上关于nutch问题的资料太少了

北府虎贲 12-31
6

新手求助，求大神戳进来帮小弟看一下
穷得瑟切... 2014-04

我是刚刚接触nutch，但是怎么也搞不定，总是出现问题 $ bin/nutch crawl urls -dir sina -threads 4 -depth 2 -topN 30 crawl started in: sina rootUrlDir = urls threads = 4 depth = 2 topN = 30 Injector: starting Injector: crawlDb: sina/crawldb Injector: urlDir: urls Injector: Converting injected urls to crawl db entries. Injector: Merging injected urls into crawl db. Injector: done Generator: Selecting best-scoring urls due for fetch. Generator: starting Generator: segment: sina/segments/20140414090044 Generator: filtering: false Generator: topN: 30 Generator: jobtracker is 'loca

swdz23 9-7
1

大神们能告诉我数据怎么抓取吗
人生苦长3... 2014-07

swdz23 9-7
0

nutch分发式搜索引擎
1157227656MAGZ 2014-06

URL怎么分发，效率会更高？

1157227656MAGZ 6-14
0

这个吧咋没啥人气啊，我还特地来求助攻呢；
qiaokelizl 2014-03

大四下学期了，我的毕业设计题目是《基于nutch的视频搜索和解析》由于之前没有接触过nutch，编程能力也不是很强；一开始做这个很没有头绪，前几天才安装好nutch，感觉各种没方向；求高手提点一番，不胜感激；有这方面的资料可以供我参考的也行；

qiaokelizl 3-28

0

nutch2.2.1与hbase0.94.x的配匹问题
fanbells 2013-12

当开始抓取时，会报 java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V at org.apache.gora.hbase.store.HBaseMapping$HBaseMappingBuilder.addFamilyProps(HBaseMapping.java:114) at org.apache.gora.hbase.store.HBaseStore.readMapping(HBaseStore.java:612) at org.apache.gora.hbase.store.HBaseStore.initialize(HBaseStore.java:110) at org.apache.gora.store.DataStoreFactory.initializeDataStore(DataStoreFactory.java:102) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:161) at org.apache.gora.store.DataStoreFactory.createDataStore

fanbells 12-16
1

Nutch的研究探讨
O静海C 2013-08

大家好，其实我也是一个超级菜鸟，只是好奇这个工具。用了一、两天发现它有很多网站抓不了或者一些内容找不到。了解特别浅显，请大家多指教，多传授经验。

O静海C 8-19
3

nutch dump出来的文件用记事本打开有乱码
落雪成伊 2013-05

nutch dump出来的文件用记事本打开有乱码，是个别几个网页存在的情况，通常是在标签中夹的中文有乱码，如<title>口口</title>..（意会一下）是不是部分网页的编码nutch不支持呢？求指点~~

xiaomingv1 5-22
4

nutch在hadoop上运行
zhengf310 2012-11

nutch运行在hadoop上，nutch的运行日志存储在什么目录下啊？怎么也找不到的？

zhengf310 11-11
2

哪位大神能帮我做两个个小东西，跪谢
lowell430 2012-11

以nutch、lucene等开源工具为基础，结合您的行业搭建一个行业垂直搜索引擎一、实验目的（介绍本次实验的预期目标，完成的功能）以一个开源的词典，为你的搜索引擎实现自动分词功能，并以分词结果建立索引，实现基于词的检索。二、实验过程（介绍实验中涉及的关键过程，如核心算法、数据结构等）感激不尽

ktxiaocha 11-2
0

nutch爬虫是否只可以用url
zhengf310 2012-05

我们现在遇到一个问题，nutch下网络爬虫是否可以给定ip来进行爬虫，而不用url？？？各位指教指教额...

zhengf310 5-21

4

发展贴吧
龙佐天下 2012-05

落雪成伊 5-17
11

现在官网还有没有1.3或1.之前的版本啊。。1.4版真不知道如何配置
凯服的恶... 2012-05

兴浪FS 5-17
2

windows 配置 nutch1.4
bruceleelixiao 2012-04

到底如何配置

白头乌翁 4-17
0

大家好
bruceleelixiao 2012-03

大家一起努力好好发展！！

bruceleelixiao 3-25
1

在来发发唠叨~好痛苦啊~ Nutch 1.4开发环境
maze122wt 2012-02

白头乌翁 2-17

共有主题数38个，贴子数 185篇会员数215

皇冠身份

发贴红色标题
显示红名
签到六倍经验

赠送补签卡1张，获得[经验书购买权]

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

本吧信息查看详情>>

会员：会员

目录：无

日	一	二	三	四	五	六

扫二维码下载贴吧客户端

本吧信息 查看详情>>

本吧信息查看详情>>