5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

巨大テキスト検索の専門化集合!HELP!

1 :名無しさん@お腹いっぱい。:2001/07/21(土) 18:49
UNIXで巨大テキスト(220M)からAND OR検索を高速で行いたいのですが、なかなかどうしてうまくいきません。
MYSQLのあいまい検索を使っても実行速度10秒。SUFARYは早いんですがAND検索が出来ないし・・。
巨大テキストファイルから高速検索できるような方法やソフトなどをご存知でしたら教えてください。

「デリミタがタブで改行コードにて一行とみてくれて、AND・OR検索が出来て、表示行数の指定ができる。」
というような方法(ソフト)を教えてください!。

2 :名無しさん@お腹いっぱい。:2001/07/21(土) 19:47
自分でプログラム書けよ。
漏れは自分で作ったが快適

3 :名無しさん@お腹いっぱい。:2001/07/21(土) 21:24
>>1
そんなことしないからわかんないんだけど、
namazuじゃだめ?
それがだめならIBMのメインフレームでも使ってちょ。

4 :名無しさん@お腹いっぱい。:2001/07/22(日) 11:22
libsary つかって AND は自前で実装、ってのはどうよ。
http://sary.namazu.org/

5 :名無しさん@お腹いっぱい。:2001/07/22(日) 18:02
1です。m(__)m
saryやsafuryを組み込んでAND検索してみました。(C言語バージョン)
ANDはやはり、ループでまわして一つ一つ照合しないとダメなのでしょうか。
ループだと複数になると、時間がかかってしまいます。

ループ以外のアルゴリズムなどあったら是非ご教授おねがいいたします。

6 :nobody@65535:2001/07/22(日) 22:44
単語ごとの行への出現ビットマップを作る。
あとはANDとるだけ。
1行何フィールドで何行、何種類の単語が出現するのか知らんが、
全部オンメモリで処理すればこれは速ぇーぞー(笑)。

7 :名無しさん@お腹いっぱい。:2001/07/24(火) 09:47
単語ごとのビットマップというと、INDEXのようなものですよね。
それなら、SUFFIX ARRAYを使用しました。

6>「あとはANDをとるだけ」

詳しくはどのようにしてANDをとればよろしいのでしょうか?。
もしくはビットマップを作成するときにSUFFIXARRYではなく、
もっと高度なアルゴリズムで簡単にANDをとれるのでしょうか?。

より良いアルゴリズムなどありましたら、是非おしえてください。
日本語・英語の文献ページなどありましたら、ご紹介ください。

8 :名無しさん@お腹いっぱい。:2001/07/24(火) 11:56
>>7
bitごとの論理積をとれって話でしょ。

インデックスは行番号とビットマップだけじゃなくてseek値も格納しとくといいんじゃないかな。

RDBMSでやろうとしてるみたいだけど無謀だからやめとけ。

9 :ゆい:01/10/11 12:33
事前に index を作成できるデータではないのでしょうか?

10 :DQN:01/10/11 12:46
grep
速いマシンで、
220MBがファイルデータキャッシュに載れば速いかも。
計ってませんが。

-AND
% grep str1 |grep str2 |head -行数
-OR
% grep -e str1 -e str2 |head -行数

カラム指定で検索したいなら工夫がいるな...

11 :いひひ:01/10/11 13:11
ファイルデータキャッシュに載れば?

 たーんとメモリ積んで最初からMemory File Systemで
やればすむだけのような気が。

12 :名無しさん@お腹いっぱい。:01/10/11 13:31
転置インデックス法だろーね.
岩波の「自然言語処理」って本にやり方がちょっと載ってるよ.
まぁ簡単だから,立ち読みでも十分ぽい.

あとはハッシュとかバイナリサーチ使えばかなり速いと思う.
ついでに言うと,アルゴリズムは簡単だけど,単語の揺らぎとか
を考えたりすると面倒かも.

13 :名無しさん@お腹いっぱい。:01/10/11 14:36
ごちゃごちゃ言わんとNAMAZU使えよ、grepとか考えにある時点で終わってる。
終了

14 :ぺー:01/10/11 21:09
ところで,それは,なんの仕事ですか?

15 :ナナシ:01/10/11 21:46
てゆか、3箇月近く前の話にレスポンスしても……

16 :名無しさん@お腹いっぱい。:01/10/11 22:06
netscape関連のファイルを探そうと思って
find / -name '*netscape*'
ってやったんですけど、ありませんでした
で、昨日うろうろしていたら、ありました。
この検索のやりかたっておかしいんですか?

17 :ぺー:01/10/11 22:53
こんな古いの上げるなよ(w

18 :sage:01/10/12 01:16
sage
sage
sage
sage
>>16
manしろよ
こういう馬鹿な奴多くていや

19 :名無しさん@お腹いっぱい。:01/10/26 21:02
>>16
>>16
find / -name '*netscape*' -print
でないと、何も出てきません。

man ページの説明はちょっとややこしい書き方がしてあるので初心者には
わかりづらいと思います。
おおざっぱにいって、 find のオプションは、評価結果によって適合したら後のオプションが
評価(実行)されるしかけになっています。

find / -name '*netscape*'
では、ファイル名のチェックは行いますが、続くオプションが無いので、
何も出力されません。

find / -print
で全ファイル名が出力されます。

find / -name '*netscape*' -print
だと、各ファイルについて、 '*netscape*' に名前が合致するかどうかチェックし、
合致した場合のみ、続く -print オプションが実行されて、ファイル名が出力されます。

この基本的な流れが理解できれば、 あとは manページの内容を読めば、
他の機能の使い方もわかると思います。

(/ を起点にした find はシステムによっては相当の負荷になるので、
会社の機械などで実行する場合は注意してください。 )

20 :名無しさん@お腹いっぱい。:02/03/09 16:14
保守age

21 :test ◆ITGbUipI :02/07/16 23:34
てすと

22 :tehanu.hpcl.titech.ac.jp:02/07/26 08:26
test

23 :名無しさん@お腹いっぱい。:02/07/26 23:56
>>22
(;´Д`)ハァハァ

24 :名無しさん@お腹いっぱい。:02/07/27 15:34
>>22
って前野セソセイ?

25 :名無しさん@お腹いっぱい。:02/07/27 15:41
fusianasanって、gethostbyaddr()してもその結果をgethostbyname()して
verifyしてないから、信頼性はまったくありませんです。

26 :名無しさん@お腹いっぱい。:02/07/27 15:44
http://pc.2ch.net/test/read.cgi/unix/1021727195/230-231n

27 :名無しさん@お腹いっぱい。:02/07/27 23:53
ひまわり

28 :名無しさん@お腹いっぱい。:02/07/28 01:23
>>25-26
なるほど

29 :einstein.nature.tsukuba.ac.jp:02/07/28 12:46
test

30 :名無しさん@お腹いっぱい。:02/07/28 15:52
test test

31 :名無しさん@お腹いっぱい。:02/07/28 15:52
もう一回
test
test



32 :名無しさん@お腹いっぱい。:02/07/29 00:21
おまいらテスト好きね

33 :名無しさん@お腹いっぱい。:02/08/05 23:44
chinchin

34 :名無しさん@お腹いっぱい。:02/08/06 02:07
あんたも好きねぇ

35 :名無しさん@お腹いっぱい。:02/08/06 20:35
>>34
こんな落ち目のスレを覗いてるアンタもな

36 :名無しさん@カラアゲうまうま:02/08/07 13:09
>>35
オ、オ、オ、オマ、オマ、オマエモナー!    (;´Д`)ハァハァ

37 :名無しさん@XEmacs:02/08/07 18:52
おいらもちょっとまぜてくれたまへ


38 :名無しさん@お腹いっぱい。:02/08/08 02:40
よーしおまいら せーので逝くぞ
せーのっ!




(;゚∀゚)=3ハァハァ(;゚∀゚)=3ハァハァ(;゚∀゚)=3ハァハァ

39 :名無しさん@お腹いっぱい。 :02/08/10 19:17
ハァハァ…ハァハァ…ドピュッ!!(;´Д`)

40 :名無しさん@お腹いっぱい。:02/08/11 13:31
ID テスト

41 :名無しさん@お腹いっぱい。:02/08/12 16:33
>>40
うっさいハゲ。適当なことほざくな煽るだけなら誰でもできるんだよ。
あおりたければそれなりの根拠もってこいボケカスクズ。くたばれ。

↓よければ次どうぞ

42 :名無しさん@お腹いっぱい。:02/08/13 10:44
ワるタンハァハァ…
真田タンハァハァ…

ゴールデンタイムに乳首立ちまくりのメニアに萌えまくりですが…
な に か ?

43 :名無しさん@XEmacs:02/08/18 02:11
盛り上がってまいりました

44 :名無しさん@Meadow:02/08/18 07:30
盛り下げてみるテスト


45 :名無しさん@Vim:02/08/18 14:16
なの☆

46 :名無しさん@お腹いっぱい。:02/08/19 21:11
チクービ ワショーイ!
チクービ ワショーイ!

さぁ皆さんご一緒に!!
チクービ ワショーイ!

47 :名無しさん@お腹いっぱい夢いっぱい。:02/08/19 21:15
>>44
そんなことは神が許さぬぞ!!

48 :名無しさん@お腹いっぱい。:02/08/19 23:03
>>46
IEユーザはけん

49 :名無しさん@お腹いっぱい。:02/08/22 22:44
モンペ!

50 :名無しさん@XEmacs:02/08/23 00:32
チクービ ワショーイ!


51 :名無しさん@お腹いっぱい。:02/08/28 04:25
51 get

52 :名無しさん@お腹いっぱい。:02/08/28 14:36
(゚д゚)ウメー

53 :名無しさん@お腹いっぱい。:02/08/28 17:36
(゚д゚)ウモー

54 :名無しさん@お腹いっぱい。:02/08/28 22:33
(゚д゚)ウミャー

55 :名無しさん@お腹いっぱい。:02/08/28 22:33
(゚д゚)ウモー

56 :名無しさん@お腹いっぱい。:02/08/29 22:14
(゚д゚)マンコ!

57 :名無しさん@お腹いっぱい。:02/08/30 12:11
(゚д゚)ウマー

58 :>>57:02/09/01 16:49
test

59 :test:02/09/01 16:52
♥

60 :test:02/09/01 16:53
 ♥

61 :名無しさん@XEmacs:02/09/01 22:59


62 :名無しさん@お腹いっぱい。:02/09/02 13:43
モケ゛モケ゛

63 :名無しさん@お腹いっぱい。:02/09/02 13:44
moge
moge


64 :名無しさん@カラアゲうまうま:02/09/02 23:15
ねるねる

65 :名無しさん@お腹いっぱい。:02/09/02 23:37
練って美味しい、ねるねるねるね ♪

何かね、やたら元気な魔女の婆さんが出てくる CM なの。

66 :名無しさん@お腹いっぱい。:02/09/05 07:42
保守

67 :名無しさん@お腹いっぱい。:02/09/06 01:35
やぁ、みんな元気みたいで安心したよ

68 :名無しさん@カラアゲうまうま:02/09/06 01:57
>>67
よう、久しぶりだな

>>69
氏ね

69 :名無しさん@お腹いっぱい。:02/09/06 18:19
はい

>>70
いっしょにどう?

70 :bloom:02/09/06 23:34
 

71 :名無しさん@お腹いっぱい。:02/09/07 16:24
どこのクソバカヤロウだ、 age やがったのは。
dat 落ちするかしないか位のスリルを味わうのがたまらなかったってのに …
こんな「巨大テキスト検索の専門化集合!HELP!」 なんぞ
何の魅力もねぇ野グソスレなんだよ!わかったか!?
わかったら >>70 は尿道に針千本突っ込んで氏ね!!

72 :名無しさん@お腹いっぱい。:02/09/07 17:40
身の毛もよだつ悪魔の芸術
裸の少女にせまる惨劇

73 :名無しさん:03/01/02 19:40
               / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄\
Λ_Λ  | 君さぁ こんなスレッド立てるから          |
( ´∀`)< 厨房って言われちゃうんだよ             |
( ΛΛ つ >―――――――――――――――――――‐<
 ( ゚Д゚) < おまえのことを必要としてる奴なんて         |
 /つつ  | いないんだからさっさと回線切って首吊れ     |
       \____________________/

(-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ…
(∩∩) (∩∩) (∩∩)

(-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ…
(∩∩) (∩∩) (∩∩)

(-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ…
(∩∩) (∩∩) (∩∩)


74 :名無しさん@お腹いっぱい。:03/01/02 22:03
sage さげ おさげ

75 :山崎渉:03/01/15 13:05
(^^)

76 :山崎渉:03/04/17 12:36
(^^)

77 :山崎渉:03/04/20 05:55
   ∧_∧
  (  ^^ )< ぬるぽ(^^)

78 :山崎 渉:03/07/15 11:41

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄

79 :あぼーん:あぼーん
あぼーん

80 :あぼーん:あぼーん
あぼーん

81 :名無しさん:03/09/07 11:16
グーグルはどういう仕組みで
高速に検索してるんですか?


82 :名無しさん@お腹いっぱい。:03/09/07 11:28
それは秘密だ。

83 :名無しさん@お腹いっぱい。:03/09/07 12:59
>>81
入力されたキーワードを、検索の専門家が
他の検索エンジンで検索しています。

84 :名無しさん@お腹いっぱい。:03/09/07 13:45
>>83
Googleの中の人も大変だな。

85 :蕪木ら某 ◆Googl8RmwA :03/09/07 14:41
>>81-84
ttp://www.watch.impress.co.jp/internet/www/article/2002/0712/openf.htm
> Googleは、すべてのインデックスをハードディスクではなくメモリに
> 蓄えることにより計算速度を大幅に速めているが、1万以上の
> Pentiumマシンを使っているためにハードウェアにかかるコストが
> 莫大になる

!?

86 :名無しさん@お腹いっぱい。:03/09/07 14:57
>>85
要するにだ、1万人以上の検索専門家を抱えているから
コストが莫大になるってことだよ。

87 :名無しさん@お腹いっぱい。:03/09/07 21:04
>>85
> Googleは、すべてのインデックスをハードディスクではなく脳内に
> 蓄えることにより計算速度を大幅に速めているが、1万人以上の
> マシンを使っているためにハードウェアにかかるコストが
> 莫大になる

88 :名無しさん@お腹いっぱい。:03/09/07 21:29
はやぶさはなぜ高速化できないのですか?

89 :名無しさん@お腹いっぱい。:03/09/07 23:31
>>87
検索専門家ってゴルゴみたく精密機械として扱われるの?

90 :名無しさん@お腹いっぱい。:04/03/25 15:38
中国語(big5)の全文検索ソフトが欲しい

15 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.00 2017/10/04 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)