<div dir="ltr">Interesting - I hadn't heard of this.<div><br></div><div>Well, a great deal depends on exactly what methods were used, and more importantly, what textual features were used to predict the nikkud and t'amim. Certainly, any such method would label based on regularities, and hermeneutically-based exceptions could not be captured. That issue aside, there are many potential methodological pitfalls that must be dealt with to have confidence in the results. (Again, I'm speaking generally, as I don't know what these researchers did.)<div><br></div><div>One of the main issues is that of different text styles and genres. If you build a statistical model based on a book (or books) in one style (say, prophetic visions) and then use it to label text in a different style (say, historical narrative), you cannot trust the results. Critical is that even if you test your method on known text, if the test is not on the same type of text (style, genre, etc.) as the unknown text you want to label (the Chumash in this case), your test accuracy will have no predictable connection to accuracy on the unknown text. (Parenthetically, "<span style="font-size:12.8px">90% hat'ama" doesn't sound that impressive to me, at least not to rely on. Would you eat a cookie from a jar that is "90% unpoisoned"?)</span></div><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">Do you have a reference to a detailed exposition of the method and results?</span></div><div><br></div><div>Shlomo<br><div><input name="virtru-metadata" type="hidden" value="{"email-policy":{"state":"closed","expirationUnit":"days","disableCopyPaste":false,"disablePrint":false,"disableForwarding":false,"expires":false,"isManaged":false},"attachments":{},"compose-window":{"secure":false}}"><img src="https://followup.cc/tracker_events/10255013/f87dbd03e84f7607d2ff8846ed0aedf0/ghost.gif?email=argamon@iit.edu" style="border: 0px; width: 0px; height: 0px; overflow: hidden;" width="0" height="0"></div></div></div><div class="gmail_extra" style="display:block"><br clear="all"><div><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div>Shlomo Engelson Argamon<br>Professor of Computer Science<br>Director, Master of Data Science<br>Illinois Institute of Technology</div><div><a href="http://about.me/shlomoargamon" target="_blank">http://about.me/shlomoargamon</a></div></div></div></div></div></div>
<br><div class="gmail_quote">On Thu, Dec 21, 2017 at 2:00 PM, Micha Berger <span dir="ltr"><<a href="mailto:micha@aishdas.org" target="_blank">micha@aishdas.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On Thu, Dec 21, 2017 at 09:22:46PM +0200, David and Esther Bannett wrote:<br>
:> I thought the chumash was lost from the Keter before it reached Jewish<br>
:> hands. How does BI have a copy its contents?<br>
<br>
: BI used a computer on the Keter to get statistics. For example, if a<br>
: certain style of word had a meteg in the vast majority of<br>
: apearances, they made it a klall and used that form in other places.<br>
: Thus they reconstituted the parts of the Keter that were missing.<br>
<br>
Of course, that guarantees erasing the exceptions that TSBP statements<br>
were hung on. (Like "Mi kamokha needar baqodesh", with a kaf degushah<br>
on that iteration, in contrast to the grammatically normal first "Mi<br>
khamokha ba'eilim...")<br>
<br>
: Using their klallim. they took a piece of the keter and removed all<br>
: nikkud and  t'amim,  They then replaced the nikkud and t'amim<br>
: according to their klallim and compared it with the original.  They<br>
: had over 90% hat'ama.<br>
<br>
I wonder what people who do statistical analysis of texts, like Moshe Koppel<br>
or Shlomo Argamon-Engleson, think of their work.<br>
<br>
So, I CC-ed them.<br>
<br>
Tir'u baTov!<br>
<span class="HOEnZb"><font color="#888888">-Micha<br>
<br>
--<br>
Micha Berger             With the "Echad" of the Shema, the Jew crowns<br>
<a href="mailto:micha@aishdas.org">micha@aishdas.org</a>        G-d as King of the entire cosmos and all four<br>
<a href="http://www.aishdas.org" rel="noreferrer" target="_blank">http://www.aishdas.org</a>   corners of the world, but sometimes he forgets<br>
Fax: <a href="tel:%28270%29%20514-1507" value="+12705141507">(270) 514-1507</a>      to include himself.     - Rav Yisrael Salanter<br>
</font></span></blockquote></div><br></div></div>